

スマートフォンには「音声検索」機能が搭載されている。iPhoneであれば「Siri(シリ)」がそれだ。例えば、「外の気温は?」と投げかければ、何℃かを教えてくれるのだ。最近では、Siriとのおもしろい会話集がまとめサイトにあがるほど、生活に浸透してきている。
この技術、実は意外と歴史は古い。1950年、米国で人の発話の様子をX線撮影し、声道(口から声帯まで続く、声を出すための空洞)の構造を調べる研究が盛んに行われていた。これが音声認識のはじまりかもしれない。
1960年代に入ると、IBMが「Shoebox」という音声認識機器を発表し、日本でも京都大学が単音節の音声を認識する「音声タイプライター」を開発する。さらに70年代には、「DPマッチング法」という音の伸縮特性を考慮した方式が日本とロシアで開発され、単語を連続で認識できるようになった。こうして1980年代には、現代の音声認識システムの原型ができあがったといえる。
人間の声をコンピューターが聞き分けて文字にするのは、簡単なことなのだろうか。一体、どのような仕組みになっているのだろうか。
一口で言うと、人間の「声」とコンピューターが持つ「音の情報」「言葉の情報」を照合して言葉を認識して、それを文字に直すということだ。これを行うために、コンピューターは「音響モデル」と「言語モデル」を蓄えている必要がある。
音響モデルは、簡単に言うと「音声の波」。話す人や環境によって異なるので、さまざまなサンプルがある。一方、言語モデルは、単語とその並び方の情報を集めたデータ、いわば辞書のようなものだ。
音声認識のプロセスは、まず、入力された音声を分析し音響の特徴をとらえる。膨大な言語データの中から、入力された音響特徴に近いものを探し出して認識結果を出力する。最近の目覚ましい技術の進歩は、その認識の精度をますます向上させているのだ。
さて、このように進化する音声認識だが、その機能を発揮させるさまざまなアプリケーションソフトが登場し競い合っている。競争がまた技術の進歩をいっそう促すだろう。
そのうち、音声入力がキーボード入力に完全に取って代わる日、会社のデスクからキーボードが消える日が来るかもしれない。
…と書いているこの文章も、実はiPhoneの音声認識アプリで入力しているのだ。