「東ロボは東大に合格できてないけど、BERTなら合格できるんじゃ無い?」という質問です。
やってみないとわかりません。(当たり前の答えですみません)
東ロボは教科・設問ごとに異なる様々な手法を使って作られています。一方でBERTは自然言語処理に特化した実装です。BERT単独で東ロボを上回る結果を出すのは不可能でしょう。
ただ、東ロボが苦戦していた英語のテストでBERTを活用すれば、いい結果を出す可能性はあると思います。ベースの高い汎用性能に加え、少ないデータで高い性能を得ることができるBERTの実装が「精度をあげるために必要なデータが少ない」という東ロボ英語の課題を乗り越える可能性があります。
一方BERTが高い性能を出したベンチマークと入試の英語とは大きく特徴が異なるので、BERTが受験英語をカバー出来る汎用性を持つことができるかは大きな懸念材料です。
この懸念を和らげる結果がちょうど先月発表されています、
RACE[*2]と呼ばれる中国の中高生の英語試験を使ったベンチマーク(東ロボの問題と似ている)で、BERTと同じくディープラーニングを使った手法[*3]が高い精度を実現したのです。これらの状況からBERTが良い成績を出せる可能性は高いと筆者は考えています。
ちなみにディープラーニング、RACEに期待が持てることは東ロボチームが出した本『ロボットは東大に入れるか』(東京大学出版会)でも言及されており、この進化は東ロボチームにとってもある程度想定の範囲内だろうと思います。
「BERTはテストで人間を上回る記録を出している、これは東ロボチームが示した現状のAI技術の限界を越えたということか?」という質問です。
BERTも東ロボチームが示した現状のAI技術の限界を越えてはいません。
東ロボチームが提示した現状のAI技術の限界とは具体的に何を指しているのでしょう? 東ロボチームは自然言語に機械学習という『
帰納的アプローチ』を使った場合『
意味を理解しない』実装になってしまうので、英語、国語など言語のテストに適用するには限界があると指摘しています。これは現在のAI技術が抱えている大きな課題の一つで、
BERTも例外ではありません。
この課題を紐解いていくために、『
帰納的アプローチ』とは何か?『
意味を理解しない』とはどう言うことか?順番にみていきます。