情報のプロ・データサイエンティストが教える「データのウソ」の見破り方

――なるほど。ほかに何かアドバイスはありますか? 堅田:あとは、データサイエンティストは、記事とか文書などのテキストデータも分析対象なんですよね。このことを自然言語処理(NLP)と呼ぶんですが、わかりやすいのが「特徴語」を抽出しようとすること。  その記事のなかで、特徴的に使われている単語を抽出することで、他の記事と何が違うのかを浮かび上がらせます。つまり、読むときに他の記事と比べたときに、その記事で独特に使われている単語を意識しながら読むと、時間をかけずに記事の骨子がつかめます。 ――ちょっとしたことに気をつけておくことが大事ですね。 堅田:特徴語をどのように抽出するかというと、たとえば、『SPA!』の1年分の記事を分析するとしたら、まず記事ごとに単語をバラバラにします。で、そのときに大切なのが、調べる単語で、ほかの記事にもよく出てくる単語は重みを下げて、他の記事には出てこない単語の重みを上げること。  そうやって単語の重要度を調整して、その記事ならではの単語を浮かび上がらせると、「あ、この記事にはこういう内容が書いてありそうだな」というのが自動的にわかるようになります。  それでタグ候補を自動生成できるようにしたり、閲覧履歴からその人がどういう記事が好みかを分析して、おすすめ記事を出したり、あるいはタイトルにどういう単語が入っていると、クリック数が高くなるのかを解読できるようになります。  以前、私がある動画を扱う企業のレコメンデーションのお手伝いをしていたのですが、ウェブ上の記事ページにおすすめ動画を出したとします。そのとき、紹介する記事のなかに、どういうワードが入っているとクリック数が高くなるのかを調べていましたね。  何千、何万人が見ているメディアだと、クリック数が0.1%上がっただけで、購入ページに行く人が数百人か、数千人増えるわけですよね。もし仮に、購入率が同じでもクリック率が上がれば、ものすごい利益になるわけで、レコメンデーションの分野って比較的お金に近いんですよね。 <取材・文/井野祐真>
1
2
3
4
バナー 日本を壊した安倍政権
新着記事

ハーバービジネスオンライン編集部からのお知らせ

政治・経済

コロナ禍でむしろ沁みる「全員悪人」の祭典。映画『ジェントルメン』の魅力

カルチャー・スポーツ

頻発する「検索汚染」とキーワードによる検索の限界

社会

ロンドン再封鎖16週目。最終回・英国社会は「新たな段階」に。<入江敦彦の『足止め喰らい日記』嫌々乍らReturns>

国際

仮想通貨は“仮想”な存在なのか? 拡大する現実世界への影響

政治・経済

漫画『進撃の巨人』で政治のエッセンスを。 良質なエンターテイメントは「政治離れ」の処方箋

カルチャー・スポーツ

上司の「応援」なんて部下には響かない!? 今すぐ職場に導入するべきモチベーションアップの方法

社会

64bitへのWindowsの流れ。そして、32bit版Windowsの終焉

社会

再び訪れる「就職氷河期」。縁故優遇政権を終わらせるのは今

政治・経済

微表情研究の世界的権威に聞いた、AI表情分析技術の展望

社会

PDFの生みの親、チャールズ・ゲシキ氏死去。その技術と歴史を振り返る

社会

新年度で登場した「どうしてもソリが合わない同僚」と付き合う方法

社会

マンガでわかる「ウイルスの変異」ってなに?

社会

アンソニー・ホプキンスのオスカー受賞は「番狂わせ」なんかじゃない! 映画『ファーザー』のここが凄い

カルチャー・スポーツ

ネットで話題の「陰謀論チャート」を徹底解説&日本語訳してみた

社会

ロンドン再封鎖15週目。肥満やペットに現れ出したニューノーマル社会の歪み<入江敦彦の『足止め喰らい日記』嫌々乍らReturns>

社会

「ケーキの出前」に「高級ブランドのサブスク」も――コロナ禍のなか「進化」する百貨店

政治・経済

「高度外国人材」という言葉に潜む欺瞞と、日本が搾取し依存する圧倒的多数の外国人労働者の実像とは?

社会