バーチャルオフィスのinsquare|TOP > インスクエアメルマガ バックナンバー


TOP >> ;『ちょっとした検索の知恵』 インスクエア ビジネスニュース Vol.44

『ちょっとした検索の知恵』 インスクエア ビジネスニュース Vol.44

■[ インスクエア ビジネスニュース ]━━━━━━━━━━━━━━━━■

 世代を超えて起業が日本を元気にする!
 エイジレスな起業支援のインスクエアが送る【 最新!ビジネス情報 】
 http://in-sq.com
■━━━━━━━━━━━━━━━━━━━[vol.44] 2012/06/26 ━━━━■
‥‥◇◆ 目次 ◆◇‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥

01:本日のコラム…『ちょっとした検索の知恵』
/戸田 裕子(株式会社知紡)

02:イベントのお知らせ

03:その他のお知らせ
バックナンバー・購読申込はこちらhttp://melmaga.in-sq.net/

━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
01 ┃ 本日のコラム -『 ちょっとした検索の知恵 』
━━┃……………………………………………………………………………………
 ┃ 戸田 裕子(株式会社知紡)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

こんにちは、株式会社知紡の戸田です。

今日は、googleで検索するときに、知っていると少し便利な方法についてです。

■その1「””」で囲むと完全一致
営業ターゲットをWEBで探すとき、「会社一覧」「会社リスト」などのキーワ
ードを良く使います。
例えば「経営コンサル 会社一覧」です。
最初のページの数件は期待通りなのですが、その後に「ニュース一覧」「メニ
ュー一覧」など現れてきます。
もっと絞り込みたい場合に

   「経営コンサル “会社一覧”」

と会社一覧を””で囲って見て下さい。

■その2 「OR」でつなぐと「または」でキーワードを増す
上記のその1では完全一致なので「企業一覧」は検索されません。そこで

   「経営コンサル 会社一覧 OR 企業一覧」

とすると、経営コンサルで企業一覧も含まれます。ORでつなぐと””で囲まなく
ても完全一致のものが現われてきます(理由はわかりません)

■その3 キーワードの頭に「-」をつけると、そのキーワードは含まれない
以下のようにすると、ブログなどの記事は除かれます。

   「経営コンサル 会社一覧 OR 企業一覧 -blog -ブログ」

■その4 上記の方法を忘れてしまった場合
以下の「検索オプション」ページ(検索したページの下の方にあります)で、
キーワードを入れるだけでできます。

   http://www.google.co.jp/advanced_search

■おまけ 基本的なことが知りたい場合に役立つキーワード「いまさら聞けな
い」
調べ物をしたり、概要を知りたい場合に私がよく使うキーワードです。
もちろん、wikiやhatenaでもいいです。また「~とは」でも検索できますが、
経験上「いまさら聞けない」を加えると、基礎的なことが記載されたサイトが
出てきます。例えば

   「SNSとは いまさら聞けない」

といった具合です。お試しください。

ところで、この便利なwebの全文検索の仕組みはどのようなものなのか簡単に
ふれておきます。

全文検索の方式は「順次検索」と「転置検索」があります。
順次検索は、利用者の指定したキーワード(文字列)を、対象ドキュメントの
先頭から一致しているか調べて行く方法です。
一方、転置検索は、予めインデックスを準備する方式です。まず蓄積されたド
キュメントを「単語」に分解して、分解された「単語」とそのドキュメントの
ID(識別できる番号)の組にし、次にそれらを単語毎に出現するドキュメント
IDを整理して「転置インデックス」を作ります。
大量のドキュメントの全文検索においては、転置検索の方が断然速いのです。

しかし「単語」に分解するといっても、日本語は、英語のように単語が空白で
切れていないので簡単にはいきません。そこで、「形態素解析」と「N-gram」
という方式が主に使われています。
「形態素解析」は、日本語の単語辞書を使って単語に分解していきます。「N-gram」
は文字列をN字ごとに機械的に分割していきます。2文字で分解されることが
多いようです。例をあげると次のようになります。

文章「営業支援サービスの企業一覧です」は、

「形態素解析」=>営業/支援/サービス/の/企業/一覧/です
「N-gram」(2文字の場合)=>営業/業支/支援/援サ/サー/ービ/ビス/ス
の/の企/企業/業一/一覧/覧で/です

検索するキーワードも同じように分解されるので、インデックスから検索がで
きます。

日常なにげなく利用している検索サービスですが、何億ページのドキュメント
が、単語に分解されて、単語毎にそれが含まれるドキュメント番号を持ってい
るリスト(インデックス)を想像してみて下さい。スイッチを入れると電燈が
つくインフラもすごいですが、記憶媒体上の膨大なデータを比較しながら瞬時
に取り出す技術も驚きです。

今後とも宜しくお願いいたします。

———————————————————————-
▼プロフィール:
・氏名:戸田 裕子(とだ・ゆうこ)tod@myt.co.jp
・所属:(株)知紡 代表取締役
 http://www.ti-bou.com/
 Papatto 企業情報検索サービス http://www.papatto.info/s/index.html
・出身:東京都
———————————————————————-

関連記事

« 6月 2024 5月 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31