『ちょっとした検索の知恵』 インスクエア ビジネスニュース Vol.44
■[ インスクエア ビジネスニュース ]━━━━━━━━━━━━━━━━■
世代を超えて起業が日本を元気にする!
エイジレスな起業支援のインスクエアが送る【 最新!ビジネス情報 】
http://in-sq.com
■━━━━━━━━━━━━━━━━━━━[vol.44] 2012/06/26 ━━━━■
‥‥◇◆ 目次 ◆◇‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥
01:本日のコラム…『ちょっとした検索の知恵』
/戸田 裕子(株式会社知紡)
02:イベントのお知らせ
03:その他のお知らせ
バックナンバー・購読申込はこちらhttp://melmaga.in-sq.net/
━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
01 ┃ 本日のコラム -『 ちょっとした検索の知恵 』
━━┃……………………………………………………………………………………
┃ 戸田 裕子(株式会社知紡)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
こんにちは、株式会社知紡の戸田です。
今日は、googleで検索するときに、知っていると少し便利な方法についてです。
■その1「””」で囲むと完全一致
営業ターゲットをWEBで探すとき、「会社一覧」「会社リスト」などのキーワ
ードを良く使います。
例えば「経営コンサル 会社一覧」です。
最初のページの数件は期待通りなのですが、その後に「ニュース一覧」「メニ
ュー一覧」など現れてきます。
もっと絞り込みたい場合に
「経営コンサル “会社一覧”」
と会社一覧を””で囲って見て下さい。
■その2 「OR」でつなぐと「または」でキーワードを増す
上記のその1では完全一致なので「企業一覧」は検索されません。そこで
「経営コンサル 会社一覧 OR 企業一覧」
とすると、経営コンサルで企業一覧も含まれます。ORでつなぐと””で囲まなく
ても完全一致のものが現われてきます(理由はわかりません)
■その3 キーワードの頭に「-」をつけると、そのキーワードは含まれない
以下のようにすると、ブログなどの記事は除かれます。
「経営コンサル 会社一覧 OR 企業一覧 -blog -ブログ」
■その4 上記の方法を忘れてしまった場合
以下の「検索オプション」ページ(検索したページの下の方にあります)で、
キーワードを入れるだけでできます。
http://www.google.co.jp/advanced_search
■おまけ 基本的なことが知りたい場合に役立つキーワード「いまさら聞けな
い」
調べ物をしたり、概要を知りたい場合に私がよく使うキーワードです。
もちろん、wikiやhatenaでもいいです。また「~とは」でも検索できますが、
経験上「いまさら聞けない」を加えると、基礎的なことが記載されたサイトが
出てきます。例えば
「SNSとは いまさら聞けない」
といった具合です。お試しください。
ところで、この便利なwebの全文検索の仕組みはどのようなものなのか簡単に
ふれておきます。
全文検索の方式は「順次検索」と「転置検索」があります。
順次検索は、利用者の指定したキーワード(文字列)を、対象ドキュメントの
先頭から一致しているか調べて行く方法です。
一方、転置検索は、予めインデックスを準備する方式です。まず蓄積されたド
キュメントを「単語」に分解して、分解された「単語」とそのドキュメントの
ID(識別できる番号)の組にし、次にそれらを単語毎に出現するドキュメント
IDを整理して「転置インデックス」を作ります。
大量のドキュメントの全文検索においては、転置検索の方が断然速いのです。
しかし「単語」に分解するといっても、日本語は、英語のように単語が空白で
切れていないので簡単にはいきません。そこで、「形態素解析」と「N-gram」
という方式が主に使われています。
「形態素解析」は、日本語の単語辞書を使って単語に分解していきます。「N-gram」
は文字列をN字ごとに機械的に分割していきます。2文字で分解されることが
多いようです。例をあげると次のようになります。
文章「営業支援サービスの企業一覧です」は、
「形態素解析」=>営業/支援/サービス/の/企業/一覧/です
「N-gram」(2文字の場合)=>営業/業支/支援/援サ/サー/ービ/ビス/ス
の/の企/企業/業一/一覧/覧で/です
検索するキーワードも同じように分解されるので、インデックスから検索がで
きます。
日常なにげなく利用している検索サービスですが、何億ページのドキュメント
が、単語に分解されて、単語毎にそれが含まれるドキュメント番号を持ってい
るリスト(インデックス)を想像してみて下さい。スイッチを入れると電燈が
つくインフラもすごいですが、記憶媒体上の膨大なデータを比較しながら瞬時
に取り出す技術も驚きです。
今後とも宜しくお願いいたします。
———————————————————————-
▼プロフィール:
・氏名:戸田 裕子(とだ・ゆうこ)tod@myt.co.jp
・所属:(株)知紡 代表取締役
http://www.ti-bou.com/
Papatto 企業情報検索サービス http://www.papatto.info/s/index.html
・出身:東京都
———————————————————————-