情報のプロ・データサイエンティストが教える「データのウソ」の見破り方

2017.12.30

――なるほど。ほかに何かアドバイスはありますか？ 堅田：あとは、データサイエンティストは、記事とか文書などのテキストデータも分析対象なんですよね。このことを自然言語処理（NLP）と呼ぶんですが、わかりやすいのが「特徴語」を抽出しようとすること。　その記事のなかで、特徴的に使われている単語を抽出することで、他の記事と何が違うのかを浮かび上がらせます。つまり、読むときに他の記事と比べたときに、その記事で独特に使われている単語を意識しながら読むと、時間をかけずに記事の骨子がつかめます。 ――ちょっとしたことに気をつけておくことが大事ですね。 堅田：特徴語をどのように抽出するかというと、たとえば、『SPA！』の1年分の記事を分析するとしたら、まず記事ごとに単語をバラバラにします。で、そのときに大切なのが、調べる単語で、ほかの記事にもよく出てくる単語は重みを下げて、他の記事には出てこない単語の重みを上げること。　そうやって単語の重要度を調整して、その記事ならではの単語を浮かび上がらせると、「あ、この記事にはこういう内容が書いてありそうだな」というのが自動的にわかるようになります。　それでタグ候補を自動生成できるようにしたり、閲覧履歴からその人がどういう記事が好みかを分析して、おすすめ記事を出したり、あるいはタイトルにどういう単語が入っていると、クリック数が高くなるのかを解読できるようになります。　以前、私がある動画を扱う企業のレコメンデーションのお手伝いをしていたのですが、ウェブ上の記事ページにおすすめ動画を出したとします。そのとき、紹介する記事のなかに、どういうワードが入っているとクリック数が高くなるのかを調べていましたね。　何千、何万人が見ているメディアだと、クリック数が0.1％上がっただけで、購入ページに行く人が数百人か、数千人増えるわけですよね。もし仮に、購入率が同じでもクリック率が上がれば、ものすごい利益になるわけで、レコメンデーションの分野って比較的お金に近いんですよね。＜取材・文／井野祐真＞

井野祐真

ハッシュタグ

情報のプロ・データサイエンティストが教える「データのウソ」の見破り方

ハーバービジネスオンライン編集部からのお知らせ

コロナ禍でむしろ沁みる「全員悪人」の祭典。映画『ジェントルメン』の魅力

頻発する「検索汚染」とキーワードによる検索の限界

ロンドン再封鎖16週目。最終回・英国社会は「新たな段階」に。＜入江敦彦の『足止め喰らい日記』嫌々乍らReturns＞

仮想通貨は“仮想”な存在なのか？　拡大する現実世界への影響

漫画『進撃の巨人』で政治のエッセンスを。良質なエンターテイメントは「政治離れ」の処方箋

上司の「応援」なんて部下には響かない！？　今すぐ職場に導入するべきモチベーションアップの方法

64bitへのWindowsの流れ。そして、32bit版Windowsの終焉

再び訪れる「就職氷河期」。縁故優遇政権を終わらせるのは今

微表情研究の世界的権威に聞いた、AI表情分析技術の展望

情報のプロ・データサイエンティストが教える「データのウソ」の見破り方

ハーバービジネスオンライン編集部からのお知らせ

コロナ禍でむしろ沁みる「全員悪人」の祭典。映画『ジェントルメン』の魅力

頻発する「検索汚染」とキーワードによる検索の限界

ロンドン再封鎖16週目。最終回・英国社会は「新たな段階」に。＜入江敦彦の『足止め喰らい日記』嫌々乍らReturns＞

仮想通貨は“仮想”な存在なのか？ 拡大する現実世界への影響

漫画『進撃の巨人』で政治のエッセンスを。 良質なエンターテイメントは「政治離れ」の処方箋

上司の「応援」なんて部下には響かない！？ 今すぐ職場に導入するべきモチベーションアップの方法

64bitへのWindowsの流れ。そして、32bit版Windowsの終焉

再び訪れる「就職氷河期」。縁故優遇政権を終わらせるのは今

微表情研究の世界的権威に聞いた、AI表情分析技術の展望

仮想通貨は“仮想”な存在なのか？　拡大する現実世界への影響

漫画『進撃の巨人』で政治のエッセンスを。良質なエンターテイメントは「政治離れ」の処方箋

上司の「応援」なんて部下には響かない！？　今すぐ職場に導入するべきモチベーションアップの方法