バーチャルオフィスのinsquare|TOP > インスクエアメルマガ バックナンバー


TOP >> ;『スクレイピング』 インスクエア ビジネスニュース Vol.1318

『スクレイピング』 インスクエア ビジネスニュース Vol.1318

■[ インスクエア ビジネスニュース ]━■

 エイジレスな起業支援
 インスクエアが送る【最新!ビジネス情報】
 http://in-sq.com
■━━━━━━[vol.1318] 2017/06/30━━■

メルマガ無料購読申込はこちら

━━┳━━━━━━━━━━━━━━━━━━━━━━
01 ┃ 本日のコラム -『 スクレイピング 』
━━┃…………………………………………………………
  ┃ / 藤田 幹夫(PDBマーケティング株式会社)
━━━━━━━━━━━━━━━━━━━━━━━━━
PDBマーケティング藤田です。
5月1日京都に移って、2か月です。
今日はこちらで習得に努めている、技術の話です。
タイトルにした「スクレイピング」:Wikipediaでは以下
の説明です。

ウェブスクレイピング(英: Web scraping)とは、
ウェブサイトから情報を抽出するコンピュータソフトウェア
技術のこと。 ウェブ・クローラーあるいはウェブ・
スパイダーとも呼ばれる。

インターネットには膨大な情報がありますが、個別に参照
したり、必要な箇所を都度コピペするのでは、効率的な
活用ができないことも多々あります。
たくさんのページから一気に情報を取得して、データとして
加工・編集する。

こうした時に使うのが、このスクレイピングです。
今、AIの応用として、スマホで撮影した料理画像からレシピ
を自動判定し、摂取栄養素、カロリーを算出して、栄養指導に
つなげるアプリを検討しています。

機械学習をさせる教師データとして、かなりの画像データが
必要です。
IBMが提供するクラウドサービスで、AIツールWatsonの
APIが提供されており、教師データとして適合する画像データ
があれば、任意の対象に自由に適用できます。

猫の識別には関心がありませんが、レシピ自動識別は有効です。
最新の技術によるエンジン開発はIBMが進めていますが、
適用する素材は、利用者の責任で準備します。

機械学習という名前の通り、Watsonは識別をルールでやる
のでなく、画像から自動的に差異を判別します。
識別カテゴリーに対して、50種類の画像が必要です。
レシピを100種類判別させたいときは、5000枚です。

この選択も判定結果に影響するので、準備すべき画像データを
20倍=10万件と設定です。
ここから選択します。

ネットではレシピは膨大に公開されているのですが個別に
コピペでは10万件は取得委出来ません。
スクレイピングの登場です。
スクレイピングにもいくつかの方式があります。

自動的にリンク先をたどって関連すると想定されるデータを
一式持ってくる。
検索キーワードに合致したページから特定の情報を抽出する。

方式は異なりますが、共通しているのは情報取得対象となる
ページの構造の分析です。HTMLというホームページを記述して
いる言語=テキスト列の解析、読みくだしです。
検索窓の設定など、ある共通パターンはありますが、基本は
すべて異なっています。

これをたどって、取得アイテムを設定します。
この労をいとわなければ、ツール、APIなどすべての解説、
説明、事例は豊富にネット上で公開されています。これらを
参考にしながら進めます。
経過時間で2週間ほどで、対象とするサイトから情報を取得し、
今回必要な画像データのダウンロードまでの方式が
理解できました。

これによって、ネット上のデータを自由に取得できそうです。
「インターネットを巨大なデータベースとして活用する」と
いうのは私の課題でした。
この実現を目指して、PDFからの情報抽出をXMLで行う技術開発
を進めてきました。

残念ながら、実用化に至らずプロジェクトは中止となりました。
PDFの情報抽出は公開情報を使って可能ですが、容易ではない。
HTMLの記述ソースコードは、だれでも右クリックからメニューを
選択するとみることができます。

これを読み取って、情報を取得するのははるかに解りやすい。
情報を取得したい人、エンジニアもたくさんの人が、それぞれに
工夫したアプローチをしています。

その経験、履歴を参照することで、新規にスクレイピングを
行うハードルが大きく下がります。
当然、技術レベルによって取得情報の精度、効率など異なり
ますが、初心者は初心者なりに、自分が必要な情報を取得
できることは素晴らしい。

PDF2XMLにはなかった要素です。
スクレイピングは様々な領域に適用できそうです。

—————————————————
▼プロフィール:インスクエアメルマガ編集委員、
 起業塾長
・氏名:藤田 幹夫(ふじた・みきお)66歳
・出身:香川県丸亀市
・出身高校/大学:香川県立丸亀高校/京都大学理学部
・役職:PDBマーケティング 代表取締役
 京都からイノベーションを目指します。2017/5/1
・mail:fujita@p-db-m.com
・経歴:1974年 株式会社日本ビジネスコンサルタント 入社
    1987年 兼(財)データベース白書編集委員2008年廃刊まで
    2009年 PDBマーケティング株式会社代表就任(現在に至る)
—————————————————————

関連記事

« 6月 2024 4月 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30