Google最新技術「BERT」と「東ロボ」との比較から見えてくるAIの課題

johnhain via pixabay(CC0 Public Domain)

 ここ数年のコンピューターを使った自然言語処理の進歩には目を見張るものがあります。  その原動力となっているのが、今のAIブームを支えているディープラーニングという機械学習の手法です。この手法を取り入れたGoogle翻訳が作る翻訳文は、正確かつとても自然で「そのまま使える」レベルに到達しています。ほんの数年前まで、翻訳ソフトはヘンテコな翻訳をするというのが当たり前だったことを思うと隔世の感があります。  そのGoogleのAIチームが先日発表した、ディープラーニングを使った自然言語処理の最新モデルがBERT[*1]です。多様なベンチマークで従来の記録を上回る結果を叩き出して、大きな注目を浴びています。  この結果に驚いた人が多いのでしょうか、最近BERTについてよく質問を受けます。BERTそのものについての質問に加えて多いのが、「ロボットは東大に入れるか」というプロジェクトにおいて研究・開発が進められた日本の人工知能「東ロボ」との関係や比較についての質問です。  そこで今日はBERTと東ロボの概要と、よく聞かれる二つの関係についての質問、そこから見えてくる今AIが抱えている課題について記してみたいと思います。

BERTとは? 東ロボとは?

 BERT(Bidirectional Encoder Representations from Transformers )はディープラーニングを使った自然言語処理の最新の実装です。文書比較、質問回答、固有表現抽出など、11種類の自然言語処理ベンチマークで従来の記録を塗りかえました。SQuADというベンチマークシナリオでは人間を上回る精度を記録しています。これらの結果を、少ない学習データ環境で高い性能を出せるファインチューニングと呼ばれる実装で出した点も高く評価されています。  一方、「ロボットは東大に入れるか」(以下、東ロボ)は国立情報科学研究所が2011年から開始したプロジェクトです。統計とビッグデータによるAI技術の可能性と限界を正確に認識することを一つの目的としています。2013年~2016年までセンター模試、記述式模試を受験し結果を公開していました。日本の大学の7割で合格可能性80%以上の評価を出しましたが、これ以上の画期的な性能向上は、現状のAI技術の連続的な進化では見込めないとの判断で、全科目同時模試受験は凍結しています。その後も個別の研究開発は継続しています。  BERTが自然言語処理を目的としたテクノロジーであるのに対し、東ロボは東大入試攻略を目的として様々なテクノロジーを集めた総合体です。守備範囲と構造は異なるのですが、自然言語処理で重なる部分があり、両者を比較した議論を呼び起こしています。以下、議論となっている点を述べていきます。
次のページ 
BERTなら東大に合格できる?
1
2
3
4
5