情報のプロ・データサイエンティストが教える「データのウソ」の見破り方

2017.12.30

――なるほど。ほかに何かアドバイスはありますか？ 堅田：あとは、データサイエンティストは、記事とか文書などのテキストデータも分析対象なんですよね。このことを自然言語処理（NLP）と呼ぶんですが、わかりやすいのが「特徴語」を抽出しようとすること。　その記事のなかで、特徴的に使われている単語を抽出することで、他の記事と何が違うのかを浮かび上がらせます。つまり、読むときに他の記事と比べたときに、その記事で独特に使われている単語を意識しながら読むと、時間をかけずに記事の骨子がつかめます。 ――ちょっとしたことに気をつけておくことが大事ですね。 堅田：特徴語をどのように抽出するかというと、たとえば、『SPA！』の1年分の記事を分析するとしたら、まず記事ごとに単語をバラバラにします。で、そのときに大切なのが、調べる単語で、ほかの記事にもよく出てくる単語は重みを下げて、他の記事には出てこない単語の重みを上げること。　そうやって単語の重要度を調整して、その記事ならではの単語を浮かび上がらせると、「あ、この記事にはこういう内容が書いてありそうだな」というのが自動的にわかるようになります。　それでタグ候補を自動生成できるようにしたり、閲覧履歴からその人がどういう記事が好みかを分析して、おすすめ記事を出したり、あるいはタイトルにどういう単語が入っていると、クリック数が高くなるのかを解読できるようになります。　以前、私がある動画を扱う企業のレコメンデーションのお手伝いをしていたのですが、ウェブ上の記事ページにおすすめ動画を出したとします。そのとき、紹介する記事のなかに、どういうワードが入っているとクリック数が高くなるのかを調べていましたね。　何千、何万人が見ているメディアだと、クリック数が0.1％上がっただけで、購入ページに行く人が数百人か、数千人増えるわけですよね。もし仮に、購入率が同じでもクリック率が上がれば、ものすごい利益になるわけで、レコメンデーションの分野って比較的お金に近いんですよね。＜取材・文／井野祐真＞

井野祐真

ハッシュタグ

2021.05.02

政治・経済

都市商業研究所

「高度外国人材」という言葉に潜む欺瞞と、日本が搾取し依存する圧倒的多数の外国人労働者の実像とは？

2021.05.01

社会

月刊日本

以前の記事をもっと見る

情報のプロ・データサイエンティストが教える「データのウソ」の見破り方

ハーバービジネスオンライン編集部からのお知らせ

コロナ禍でむしろ沁みる「全員悪人」の祭典。映画『ジェントルメン』の魅力

頻発する「検索汚染」とキーワードによる検索の限界

ロンドン再封鎖16週目。最終回・英国社会は「新たな段階」に。＜入江敦彦の『足止め喰らい日記』嫌々乍らReturns＞

仮想通貨は“仮想”な存在なのか？ 拡大する現実世界への影響

漫画『進撃の巨人』で政治のエッセンスを。 良質なエンターテイメントは「政治離れ」の処方箋

上司の「応援」なんて部下には響かない！？ 今すぐ職場に導入するべきモチベーションアップの方法

64bitへのWindowsの流れ。そして、32bit版Windowsの終焉

再び訪れる「就職氷河期」。縁故優遇政権を終わらせるのは今

微表情研究の世界的権威に聞いた、AI表情分析技術の展望

PDFの生みの親、チャールズ・ゲシキ氏死去。その技術と歴史を振り返る

新年度で登場した「どうしてもソリが合わない同僚」と付き合う方法

マンガでわかる「ウイルスの変異」ってなに？

アンソニー・ホプキンスのオスカー受賞は「番狂わせ」なんかじゃない！ 映画『ファーザー』のここが凄い

ネットで話題の「陰謀論チャート」を徹底解説＆日本語訳してみた

ロンドン再封鎖15週目。肥満やペットに現れ出したニューノーマル社会の歪み＜入江敦彦の『足止め喰らい日記』嫌々乍らReturns＞

「ケーキの出前」に「高級ブランドのサブスク」も――コロナ禍のなか「進化」する百貨店

「高度外国人材」という言葉に潜む欺瞞と、日本が搾取し依存する圧倒的多数の外国人労働者の実像とは？

仮想通貨は“仮想”な存在なのか？　拡大する現実世界への影響

漫画『進撃の巨人』で政治のエッセンスを。良質なエンターテイメントは「政治離れ」の処方箋

上司の「応援」なんて部下には響かない！？　今すぐ職場に導入するべきモチベーションアップの方法

アンソニー・ホプキンスのオスカー受賞は「番狂わせ」なんかじゃない！　映画『ファーザー』のここが凄い