バーチャルオフィスのinsquare|TOP > インスクエアメルマガ バックナンバー


TOP >> ;Archive: 20. 5月 2014

『似ている度の測定』 インスクエア ビジネスニュース Vol.540

■[ インスクエア ビジネスニュース ]━━━━━━━━━━━━━━━━■

 世代を超えて起業が日本を元気にする!
 エイジレスな起業支援のインスクエアが送る【 最新!ビジネス情報 】
 http://in-sq.com
■━━━━━━━━━━━━━━━━━━━━━[vol.540] 2014/05/20━━■
‥‥◇◆ 目次 ◆◇‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥

01:本日のコラム…『 似ている度の測定 』
/ 戸田 裕子(株式会社知紡)

02:海外情報セミナー企画 第一弾
  マレーシア進出セミナー特別無料ご招待。

03:その他お知らせ
1 インスクエアの最新情報
   ・4月インスクエアイベントレポート
    「PC何でも座談会」

━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
01 ┃ 本日のコラム - 『 似ている度の測定 』
━━┃……………………………………………………………………………………
 ┃ 戸田 裕子(株式会社知紡)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
株式会社知紡の戸田です。

ゴールデンウィークと重なりひと月ぶりの投稿です。
先月は、海外の住所データの正規化作業の紹介でしたが、
今週は、正規化しても発見できない誤字脱字や揺らぎの見つけ方です。

二つの文字列の類似度を計算するアルゴリズムである「レーベンシュタイン距
離」を利用します。
このアルゴリズムは、スペルミスの発見や、検索したい文字列と検索対象のテ
キストの類似度を測るために用いられています。計算は簡単で、ある文字列か
ら比較したい文字列に、挿入・削除・置換の動作を何回で実行できるかの計算
です。

例えば、「小野かおり」と「小田かおる子」の場合
step1 小野かおり
step2 小田かおり 「野」と「田」を置換 1
step3 小田かおる 「り」と「る」を置換 2
step4 小田かおる子「子」を 挿入    3

レーベンシュタイン距離は3です。
計算プログラムは、挿入・削除・置換の単純なものであれば
EXCELのマクロ(VBA)でも40行程度のプログラムで作れます。
以下のwikiの擬似コードを参考にしてください。

http://ja.wikipedia.org/wiki/レーベンシュタイン距離

続きを読む…


« 4月 2014 5月 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 6月 »