AIで表情を完全に解析する上で、外せないものとは
こんにちは。微表情研究家の清水建二です。本日は、近年、ますます開発や利用可能性に注目が集まるAI感情解析、とりわけ、AI表情解析技術の未来について考えたいと思います。
AI表情解析技術を扱う上で最も大切だと思うことは、AI表情解析アプリケーションの根底を支える技術について習熟することです。その理由は、一つに、アプリケーションの長点・弱点を把握できるため有効な利用法を考えることが出来るからです。二つに、現在、ブラックボックス化しているアプリケーションの検出結果を正しく読みとることが出来るようになるからです。
アプリケーションを開発・販売するメーカーによって、寄って立つ分析方法はやや異なりますが、最も影響力のある方法は、FACSです。
FACS(ファクス)とは、Facial Action Coding Systemの略で、日本語では顔面動作符号化システムと言います。このシステムは、視認可能なあらゆる顔面筋の動きを測定するために1978年に米国の心理学者ポール・エクマン及びウォレス・フリーセンによって開発されました。
FACSには、顔の解剖学的な知見を基にしたAU(アクション・ユニット)と呼ばれる識別可能な最小の動作単位、解剖学的な知見が不明瞭であるものの識別できるAD(アクション・ディスクリプター)と呼ばれる動作単位、その他補完的なコードが定義されています。2002年改訂版FACSマニュアルには、27個の顔の基本動作に関するAU、25個の頭と目を記述するコード、28個の補完的なAU及びAD含むその他コードが含まれています。
FACSの手法を用いて分析するには、700ページ強のFACSマニュアル及びInvestigatorガイドに習熟し、FACS認定試験に合格する必要があります。合格には、受験者のコード群と正解のコード群との相関が0.7を超えることが要求されます。おおよそ100時間くらいの学習で合格し、試験にパスすると認定FACSコーダーとなります。
表情分析をするにあたり、一人の認定FACSコーダーが対象の顔面筋の動きを分析します。1分の分析動画に100分ほど分析時間がかかります。その後、分析の客観性を保つために、分析内容を知らないもう一人の認定FACSコーダーが独立して同じ顔面筋の動きを分析します。そして両者のコード群の相関を計測し、0.8~0.9を超えるものが、客観性のあるデータとして残ります。なお、0.8~0.9の相関の精度を保つには、FACS合格後、FACSを用いたトレーニングを1000時間以上行い続ける必要があります。
以上のように、FACSを使った表情分析は、分析そのものにも一人前の認定コーダーになるにも、かなりの時間がかかります。しかし、顔面筋の動きを包括的かつ客観的に分析できるため、世界中の心理学者や工学者、アニメーターに利用されています。有名なところですと、ピクサーのアニメキャラクターの表情生成にFACS技術が活用されています。
FACSが搭載されているAI表情解析アプリケーションは、こうした膨大な時間のかかる専門家の分析を一瞬で行ってくれます。ゆえに、学問の世界でも生体情報に価値を見出すビジネスの世界でも、近年、益々注目を集めているのです。
しかし、ここで2つの注意が必要です。一つは、アプリケーションの精度についてです。もう一つは、アプリケーションの検出結果の解釈についてです。
アプリケーションの精度は各メーカーによってやや異なりますが、おおよそ90%前後という数値が報告されています。
これはおおまかに言えば、ターゲットとなる表情をどれだけ正しく識別できたかという数字です。10人の笑顔の人に対して、9回幸福表情であると正しく識別できるというイメージです。
しかし、アプリケーションと認定FACSコーダーがそれぞれ個々の顔面筋の動きを分析し、それらのコード群の相関を取ると、平均0.69になるという検証結果が出ています(Lewinski, etc, 2014)。この数値は、先に書いたようにFACSが求める客観性基準を満たしていません。
つまり、大まかな表情把握は高い精度で可能なものの、個々の顔面筋の動きの把握は中程度の精度ということになります。