Gerd Altmann via Pixabay
スマートフォンによる音声入力は、現在では広く普及している。話しかけることでWeb検索をしたり、天気を確認したりできる。大人だけでなく子供でも、Youtube で動画を探して手軽に再生できる。長文の入力も可能で、本を執筆する人が音声入力を使うこともある。
スマートフォンだけではない。スマートスピーカーを家に置いている人は、ハンズフリーで日常生活のサポートを得られる。パソコンにも音声認識エンジンは搭載されており、マイクがあれば文字や文章の入力、パソコンの操作を実現できる。
コンピューターとの対話は、キーボードによる文字ベースのものから大きく進化している。マウスによるウィンドウやボタンなどを利用するものになり、スマートフォンやタブレット端末によるタッチベースのものが登場し、音声によるものが急速に広まっている。
このように現代では、音声を使ってコンピューターの力を利用できる。この音声によるコンピューター操作は、プログラミングの世界でも用いられている。今回は、音声入力によるプログラミングの世界と、関連する話題について触れる。
音声入力自体は、それほど新しい技術ではない。たとえば、Windows95 が出た1995年に Microsoft は、音声認識や音声合成をおこなう SAPI(Speech Application Programming Interface)のバージョン1をリリースしている。同 API は、1998年まで毎年2、3、4とバージョンアップを続け、2000年には大幅に改良した SAPI5 がリリースされている。
電気的な音声の研究は、AT&Tのベル研究所で1936年から始まっている。電子的に人間の音声を合成する Voder は、1939年に万国博覧会で紹介された(
YouTube)。1952年に同研究所は、話者の数字を認識できる Audrey を開発している(
BBC Future)。
音声認識の製品で有名な DragonSystems は、1982年に設立された(
Nuance)。同社は買収を経て、現在は Nuance Communications に統合されている。Nuance Communications は、Siri の技術基盤を作ったところで、今年の4月12日に Microsoft に197億ドル(約2兆1600億円)で買収された(
CNET Japan)。
音声認識や音声合成自体は、無料で利用できるもの、有料のものと、各社が出しており、プログラマーのあいだでも存在が認知されている。おそらく、そうした技術が広く一般に知られたのは、スマートフォンの登場以降だろう。
音声認識の歴史は上記のように古く、音声認識を利用してプログラムを入力する試みは当然存在する。
Caster、
Aenea、
Talon などを例として挙げる。Talon では、音声だけでなく視線によるマウスカーソルの操作もできる。
こうした試みの中で、最近話題になったものには、
Serenade がある。Serenade は、自然な発話から AI で入力候補を表示してくれる。特殊なキーワードを覚えなくてよいので、初めて触れる人に優しい作りになっている。
多くのプログラマーは、キーボードにより高速に文字を入力できる。また、コードエディタの入力支援機能を使うことができる。彼らの入力速度は、発話を上回るために、音声コーディングを積極的に採用する理由は今のところない。
しかし、病気や事故によって、キーボードの利用に問題が生じたとき、音声入力によるプログラミングは大いに役に立つ。先に示した Serenade は、共同創設者の Matt Wiethoff 氏が、2019年に反復性ストレイン損傷(腱鞘炎などが含まれる症状)と診断された時に生まれた(
IEEE Spectrum)。
現在、問題なくキーボードを利用している人も、いつ使えなくなるか分からない。そうした時に、異なる選択肢があることは重要だ。
音声を利用したプログラミングは、職業選択の幅を広げてくれる。音声入力だけでなく、音声読み上げを利用したプログラミングも、視覚に問題を抱える人たちの職業選択の幅を広げてきた。