『似ている度の測定』 インスクエア ビジネスニュース Vol.540
■[ インスクエア ビジネスニュース ]━━━━━━━━━━━━━━━━■
世代を超えて起業が日本を元気にする!
エイジレスな起業支援のインスクエアが送る【 最新!ビジネス情報 】
http://in-sq.com
■━━━━━━━━━━━━━━━━━━━━━[vol.540] 2014/05/20━━■
‥‥◇◆ 目次 ◆◇‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥
01:本日のコラム…『 似ている度の測定 』
/ 戸田 裕子(株式会社知紡)
02:海外情報セミナー企画 第一弾
マレーシア進出セミナー特別無料ご招待。
03:その他お知らせ
1 インスクエアの最新情報
・4月インスクエアイベントレポート
「PC何でも座談会」
━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
01 ┃ 本日のコラム - 『 似ている度の測定 』
━━┃……………………………………………………………………………………
┃ 戸田 裕子(株式会社知紡)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
株式会社知紡の戸田です。
ゴールデンウィークと重なりひと月ぶりの投稿です。
先月は、海外の住所データの正規化作業の紹介でしたが、
今週は、正規化しても発見できない誤字脱字や揺らぎの見つけ方です。
二つの文字列の類似度を計算するアルゴリズムである「レーベンシュタイン距
離」を利用します。
このアルゴリズムは、スペルミスの発見や、検索したい文字列と検索対象のテ
キストの類似度を測るために用いられています。計算は簡単で、ある文字列か
ら比較したい文字列に、挿入・削除・置換の動作を何回で実行できるかの計算
です。
例えば、「小野かおり」と「小田かおる子」の場合
step1 小野かおり
step2 小田かおり 「野」と「田」を置換 1
step3 小田かおる 「り」と「る」を置換 2
step4 小田かおる子「子」を 挿入 3
レーベンシュタイン距離は3です。
計算プログラムは、挿入・削除・置換の単純なものであれば
EXCELのマクロ(VBA)でも40行程度のプログラムで作れます。
以下のwikiの擬似コードを参考にしてください。
http://ja.wikipedia.org/wiki/レーベンシュタイン距離