情報のプロ・データサイエンティストが教える「データのウソ」の見破り方

――堅田さんがデータサイエンティストになるきっかけは? また、留学先のサンフランシスコ大学はどんな環境でしたか? 堅田:私はもともと大学時代に統計学を勉強していて、当時はまだアマゾンが流行りはじめたくらい。ビッグデータという言葉もありませんでした。  ただ、今でいう人工知能の技術はありましたが、データはなかった。私は当時、経理やマーケティングをやっていました。その後、IoTやウェアラブルを用いてデータ収集ができるようになっていき、チャンスが来たと思いました。  実はアメリカの大学に留学するとき、最初はMBAを受けようと思っていたんです。けれど、願書を提出する直前になって、「よく考えたらMBAってもう日本にもたくさんいるよなぁ」って思い直して。それで、もともと学んでいた統計学の知識を活かせる何か新しい学位はないか探し、データ分析のコースを見つけたんです。  留学を決めた’13年当時、実践的な内容でデータサイエンティストの学位を発行している大学がアメリカで15校程度しかなく、西海岸ではサンフランシスコ大学でした。東海岸だと渡航費が高かったのと、やっぱりシリコンバレーに行きたかったので、そこに決めました(笑)。  授業では、ビジネスストラテジーというビジネス戦略論と、プレゼンテーションのコースとか、インタビュースキル。あるいは、プログラミングと数学だけでなく、実践のなかでどうするかを学んでいました。 ――もし一般人が、データサイエンティストのように情報を正しく読み解くにはどうすればいいのでしょうか? 堅田:もっとも気をつけたほうがいいのは「平均」という言葉の使い方です。たとえば「平均年収600万円の会社」があったとしますが、もしかしたらここは一部の人が年収2000万円をもらっていて、ほとんどの社員は年収200万円以下という場合もあります。  平均という言葉を聞いて、我々はつい「真ん中」という意味を思い浮かべますが、必ずしも平均は真ん中ではない可能性があり、「中央値」というのが正しく真ん中を指し示す場合もあるんです。なので、何もデータのばらつきを考慮せずに、いきなり平均を出しているものを見たら疑ったほうがいいです。
次のページ 
時間をかけずに記事の骨子をつかむ方法
1
2
3
4