音声によるプログラミングの世界。雇用におけるバリアフリーを実現する力

2021.04.22

Gerd Altmann via Pixabay

音声入力の進展

　スマートフォンによる音声入力は、現在では広く普及している。話しかけることでWeb検索をしたり、天気を確認したりできる。大人だけでなく子供でも、Youtube で動画を探して手軽に再生できる。長文の入力も可能で、本を執筆する人が音声入力を使うこともある。　スマートフォンだけではない。スマートスピーカーを家に置いている人は、ハンズフリーで日常生活のサポートを得られる。パソコンにも音声認識エンジンは搭載されており、マイクがあれば文字や文章の入力、パソコンの操作を実現できる。　コンピューターとの対話は、キーボードによる文字ベースのものから大きく進化している。マウスによるウィンドウやボタンなどを利用するものになり、スマートフォンやタブレット端末によるタッチベースのものが登場し、音声によるものが急速に広まっている。　このように現代では、音声を使ってコンピューターの力を利用できる。この音声によるコンピューター操作は、プログラミングの世界でも用いられている。今回は、音声入力によるプログラミングの世界と、関連する話題について触れる。

音声入力によるプログラミングの世界

　音声入力自体は、それほど新しい技術ではない。たとえば、Windows95 が出た1995年に Microsoft は、音声認識や音声合成をおこなう SAPI（Speech Application Programming Interface）のバージョン1をリリースしている。同 API は、1998年まで毎年2、3、4とバージョンアップを続け、2000年には大幅に改良した SAPI5 がリリースされている。　電気的な音声の研究は、AT&Tのベル研究所で1936年から始まっている。電子的に人間の音声を合成する Voder は、1939年に万国博覧会で紹介された（YouTube）。1952年に同研究所は、話者の数字を認識できる Audrey を開発している（BBC Future）。　音声認識の製品で有名な DragonSystems は、1982年に設立された（Nuance）。同社は買収を経て、現在は Nuance Communications に統合されている。Nuance Communications は、Siri の技術基盤を作ったところで、今年の4月12日に Microsoft に197億ドル（約2兆1600億円）で買収された（CNET Japan）。　音声認識や音声合成自体は、無料で利用できるもの、有料のものと、各社が出しており、プログラマーのあいだでも存在が認知されている。おそらく、そうした技術が広く一般に知られたのは、スマートフォンの登場以降だろう。　音声認識の歴史は上記のように古く、音声認識を利用してプログラムを入力する試みは当然存在する。Caster、Aenea、Talon などを例として挙げる。Talon では、音声だけでなく視線によるマウスカーソルの操作もできる。　こうした試みの中で、最近話題になったものには、Serenade がある。Serenade は、自然な発話から AI で入力候補を表示してくれる。特殊なキーワードを覚えなくてよいので、初めて触れる人に優しい作りになっている。　多くのプログラマーは、キーボードにより高速に文字を入力できる。また、コードエディタの入力支援機能を使うことができる。彼らの入力速度は、発話を上回るために、音声コーディングを積極的に採用する理由は今のところない。　しかし、病気や事故によって、キーボードの利用に問題が生じたとき、音声入力によるプログラミングは大いに役に立つ。先に示した Serenade は、共同創設者の Matt Wiethoff 氏が、2019年に反復性ストレイン損傷（腱鞘炎などが含まれる症状）と診断された時に生まれた（IEEE Spectrum）。　現在、問題なくキーボードを利用している人も、いつ使えなくなるか分からない。そうした時に、異なる選択肢があることは重要だ。　音声を利用したプログラミングは、職業選択の幅を広げてくれる。音声入力だけでなく、音声読み上げを利用したプログラミングも、視覚に問題を抱える人たちの職業選択の幅を広げてきた。

この連載の前回記事

色覚の違いで世界はどう見える？　Webブラウザの基本機能で色覚多様性をエミュレートできる

2021.04.17

一番最初の記事

ゲーム開発者が見たギークニュースの一覧へ

ハッシュタグ

2021.05.02

政治・経済

都市商業研究所

「高度外国人材」という言葉に潜む欺瞞と、日本が搾取し依存する圧倒的多数の外国人労働者の実像とは？

2021.05.01

社会

月刊日本

以前の記事をもっと見る

音声によるプログラミングの世界。雇用におけるバリアフリーを実現する力

音声入力の進展

音声入力によるプログラミングの世界

色覚の違いで世界はどう見える？ Webブラウザの基本機能で色覚多様性をエミュレートできる

ハーバービジネスオンライン編集部からのお知らせ

コロナ禍でむしろ沁みる「全員悪人」の祭典。映画『ジェントルメン』の魅力

頻発する「検索汚染」とキーワードによる検索の限界

ロンドン再封鎖16週目。最終回・英国社会は「新たな段階」に。＜入江敦彦の『足止め喰らい日記』嫌々乍らReturns＞

仮想通貨は“仮想”な存在なのか？ 拡大する現実世界への影響

漫画『進撃の巨人』で政治のエッセンスを。 良質なエンターテイメントは「政治離れ」の処方箋

上司の「応援」なんて部下には響かない！？ 今すぐ職場に導入するべきモチベーションアップの方法

64bitへのWindowsの流れ。そして、32bit版Windowsの終焉

再び訪れる「就職氷河期」。縁故優遇政権を終わらせるのは今

微表情研究の世界的権威に聞いた、AI表情分析技術の展望

PDFの生みの親、チャールズ・ゲシキ氏死去。その技術と歴史を振り返る

新年度で登場した「どうしてもソリが合わない同僚」と付き合う方法

マンガでわかる「ウイルスの変異」ってなに？

アンソニー・ホプキンスのオスカー受賞は「番狂わせ」なんかじゃない！ 映画『ファーザー』のここが凄い

ネットで話題の「陰謀論チャート」を徹底解説＆日本語訳してみた

ロンドン再封鎖15週目。肥満やペットに現れ出したニューノーマル社会の歪み＜入江敦彦の『足止め喰らい日記』嫌々乍らReturns＞

「ケーキの出前」に「高級ブランドのサブスク」も――コロナ禍のなか「進化」する百貨店

「高度外国人材」という言葉に潜む欺瞞と、日本が搾取し依存する圧倒的多数の外国人労働者の実像とは？

色覚の違いで世界はどう見える？　Webブラウザの基本機能で色覚多様性をエミュレートできる

仮想通貨は“仮想”な存在なのか？　拡大する現実世界への影響

漫画『進撃の巨人』で政治のエッセンスを。良質なエンターテイメントは「政治離れ」の処方箋

上司の「応援」なんて部下には響かない！？　今すぐ職場に導入するべきモチベーションアップの方法

アンソニー・ホプキンスのオスカー受賞は「番狂わせ」なんかじゃない！　映画『ファーザー』のここが凄い