ディープラーニングによる「音声認識」の仕組みとは？音声認識を活用したサービス事例

人の声を自動で認識し、状況に応じて適切なプログラムを実行してくれる音声認識技術は、今やさまざまなシーンで見かけることが増えた人工知能技術です。ただ、ここまで音声認識が広がった背景には、その活用方法のアイデアが広がっただけでなく、純粋な認識技術の向上も理由として挙げられます。

今回は、音声認識技術の向上に大きく貢献したディープラーニングが、どのような影響を与えてきたかのかついて紹介します。

音声認識技術とは

音声認識技術は、人間が話した声をデジタルデータとして一度保存し、プログラムが音声データを解析することで、状況に応じたプログラムを実行する技術です。

元々、コンピューターのプログラムを操作するためには、キーボードなどを使ってテキストでコマンドを実行する必要がありました。今はスマホなどで気軽にアイコンをタップするだけでプログラムを動かすことも可能ですが、それを音声データで実現したのが音声認識技術です。

登場初期の音声認識技術は、特定の限られたワードにのみ反応するものであり、その精度についても標準的な発音にしか対応しないなど、利用に際しては何かと制約の多い技術でした。しかし、今日において活躍する音声認識技術は、当時のぎこちなさを感じさせないほど極めて高い精度のパフォーマンスを発揮しています。

まるで人間に話しかけるような感覚で音声認識機能を利用することができ、些細なことばでも拾い上げることができるほどのデータベースを有しているため、実用的な技術として活躍しています。

音声認識の仕組み

音声認識の仕組みは、以下の4つのプロセスに分かれています。順に見ていきましょう。

音声のデジタル化
音響モデル
言語モデル
発音辞書

音声のデジタル化

まず実施するのは、音声のデジタル化です。

人間が人間を相手に声を使って伝達する場合、自然言語処理を感覚的に実施するため、音声を音声として認識できる機能が備わっています。そのため、音声を理解するためにデジタル化を行う必要はありません。

しかし、これをコンピューターに理解させるとなると、話は別です。音声をデジタルデータに変換し、コンピューターが解釈可能な形式にする必要があります。また、認識に必要な雑音や環境音もこの時点で取り除かれ、状況判断に必要な最低限の音声データを取得できるよう加工されます。

音響モデル

音響モデルは、デジタル化した音声が、あらかじめ用意しているパターンのどれに一番近いのかを判断するプロセスです。

音声認識を実施するためには、事前にさまざまなパターンの音声データを読み込ませておき、正しい解をコンピューターが理解しておく必要があります。認識した音声をこれらのデータベースと照合し、最も確度の高い結果をアウトプットするという仕組みです。

例えば、「こんにちは」というあいさつ一つをとっても、人によってさまざまな種類があります。男性の声なのか女性の声なのか、どんなイントネーションなのかなど、人間が聞いてみる分には違和感なくどれも認識できるあいさつも、コンピューターが理解するためには、膨大なパターンから特徴が近しいものを検出し、理解するというプロセスが必要です。

言語モデル

言語モデルは、認識した文字の列や単語が、その言語において適切な表現かどうかを判断します。あらかじめインプットしておいたデータセットから単語や文字の組み合わせを予測して判断し、文章を組み立てていきます。

予測精度が高くなればなるほど、適切な文法、あるいは読み手に伝わる書き方で文章が作成されます。従来の音声認識技術では、この予測精度が劣っていたことから支離滅裂な文章が生成されることもありましたが、近年の技術の発展により、文章の正確性は驚くほど向上しています。

発音辞書

発音辞書は、音響モデルで認識されたことばと、言語モデルにおいて構築された単語や文章をすり合わせるために利用されます。声の最小単位として定義されている「音素」に注目し、音響モデルで獲得したデータを音素に従ってつなげていくことで、単語を組み立てていきます。

音声認識を活用したサービスの事例

音声認識技術を活用したサービスは、すでに多くの企業から提供されています。ここでは、近年の活躍が著しい音声認識サービスを3つ紹介しましょう。

Otter

画像引用元：Otter

Otterは英語音声を認識し、話している会話やスピーチをすべて文字に起こしてくれるという、非常に便利な文字起こしツールです。

ビジネスの現場でも、インタビューの文字起こしや会議における議事録の作成は、ファクトチェックや振り返る上で大きな役目を果たしているため、重要な業務の一つです。しかし、業務そのものはひたすらに話したことを文字として書き留めるだけのタスクであるため、大きな負荷がかかる仕事でもありました。

Otterは、そんな文字起こしの業務を完全に自動化し、適切な文章にして原稿を作成してくれます。複数の話者に対応しているため、文章が混ざってしまう心配もなく、話し手ごとにまとめられた文章を生成してくれます。

また、文字起こしした文章はテキストと連動しながら読み上げる機能もついているため、文章に違和感のあるところはないかをチェックする際にも活躍します。現在は英語に特化した機能提供となっていますが、今後、日本語などの別の言語対応にも期待したい技術です。

Telelogger

画像引用元：Telelogger

Teleloggerは、テレワークの生産性を上げるオンライン会議効率化サービスとして誕生した製品です。会議中で話された会話はすべてテキスト化され、文字起こしや議事録作成の手間を解消してくれます。文字起こし機能以外にもさまざまな業務効率化サービスを搭載しており、事前にアジェンダを共有したり、会議の進行をよりスムーズにするための共同編集機能を有していたりと、汎用性に優れるサービスです。

また、Teleloggerの特徴として、テレワーク環境に最適化されたサービスであることも挙げられます。従来のような対面型のミーティングやインタビューではなく、オンラインでのビデオ通話の会話を自動で認識し、そのままログとして残してくれます。別途レコーダーや議事録要員を配置する必要がないので、業務の効率化につながります。

Voice ID

音声認識技術が高度なセキュリティに応用されるケースも増えていますが、「Voice ID」はその実績とともに注目を集めているサービスです。

イギリスの大手銀行であるHSBCは、音声認識によって電話口の顧客を識別するこのシステムを使用することで、過去1年間で約2億4900万ポンド、日本円にしておよそ380億円もの顧客資金を詐欺しから守ることに成功しています。イギリスではテレホンバンキングによる銀行取引の詐欺被害が発生しており、その巧妙な手口に次々と被害がもたらされていました。

Voice IDは、着信相手の音声を把握し、声紋認証を気軽に行えるサービスです。初めにユーザーの声を録音しておき、声紋認証の際に簡単なフレーズを発話するだけで、電話越しの相手が本人かどうかを特定できます。これによって、銀行のセキュリティをさらに強化できただけでなく、本人確認の手続きをより簡単に行えるとして、今後のサービス向上についても期待が寄せられています。

ディープラーニングが音声認識に与えた影響

これまでお伝えしてきたように、音声認識技術を活用した新しいサービスが次々と登場していますが、これらの登場の背景にあるのが、ディープラーニングの普及です。ディープラーニングは、音声認識にどのような影響を与えたのでしょうか？

音声処理の効率化

一つ目は、音声処理の効率化です。そもそもディープラーニングは機械学習の一種ですが、より高度な判断ができるAI（人工知能）を運用するために役割を果たす技術です。

ディープラーニングの最大の特徴は、ニューラルネットワークを活用した「特徴量」の発見能力にあります。ニューラルネットワークは、ディープラーニングの過程において発生する情報処理プロセスで、特定のデータについて多面的に検証し、タスクに基づいた特徴量抽出を行えます。

従来の機械学習の場合、AIの判断基準となる特徴量は人間が与えてやる必要がありました。しかし、ディープラーニングを駆使することで、AIは自らデータの特徴量を検出し、自らの判断の目安としているのです。この技術は音声処理においても大いに効果を発揮しており、AIが判断する独自の特徴量抽出によって、高速で音声認識を実施できるプログラムの実現に役立っています。

機械学習の「特徴量抽出」においてディープラーニングが重要である理由

音声認識の精度向上

ディープラーニングのもう一つの功績は、音声認識の精度向上です。一昔前の音声認識プログラムは、その認識精度に問題を抱えていました。音声を正しく認識できず、何度も命令を伝えることが必要でしたが、これもディープラーニングの普及で大幅に改善しています。

ディープラーニングによって、AIは特徴量を人間では理解が追いつかないレベルで検出できるようになっており、わずかな差異でも正しく判別できるようプログラムが発達しています。音声認識利用におけるストレスは大いに軽減され、信頼性の高い技術として、重要な会議のような場面でも安心して利用ができるようになりました。

音声認識技術の課題

このように、音声認識の技術はディープラーニングの導入によって大幅に改善され、さまざまなサービスの普及にも貢献しています。一方で、まだまだ利用にあたっての課題もあり、伸び代も散見されます。今後音声認識技術が解決していくべき課題について、以下の2点を紹介します。

話し言葉の理解が不十分

音声認識の一つ目の課題が、話しことばに対する理解が、今一つ進んでいないという点です。

人間は正しい文法でことばを操れることはもちろんですが、必ずしも常に適切な文法でコミュニケーションを取っているとは限りません。特に、日本語は話しことばと書きことばの変化が著しく、主語を付けずに会話を進めたり、砕けた言い回しを多用したりしています。

こういった感覚的な理解が求められたり、行間を読む工夫が必要だったりする言語は機械が苦手としているタスクです。そのため、本当の会話のように音声認識を通じてコンピューターと意思疎通をとることはまだ難しく、しばらくは片言の日本語で音声認識を利用しなければなりません。

とはいえ、シンプルな命令や質問であれば、AIも簡単に答えられるように進化を遂げています。スマートスピーカーに対して「電気消して」といえば室内のライトを消してくれますし、「今日の天気はどう？」と尋ねれば、現在地に基づいた天気予報を教えてくれます。

長い会話をすることはできませんが、検索エンジンを使って調べるようなタスクであれば、家庭用のスマートスピーカーなどで十分に音声認識を活用できます。

普及率が伸び悩んでいる

使いこなせば便利な音声認識ですが、普及率については今一つ進展が見られない点も課題とされています。本来、AIは使えば使うほどに情報をインプットし、学習していくテクノロジーであるため、利用者の数が増えることはそれだけ進化を後押しするため、重要な手続きです。

しかしながら、日本では未だ普及率が停滞しており、最も身近なスマートスピーカーについてもそこまで利用されていないのが現状です。

アメリカでの普及率は約40%に達するのに対し、日本ではわずか5.9%にとどまるなど、ほぼ利用されていないという現実があります。

参考：IoTニュース「スマートスピーカーが日本で普及しない理由とは」

日本語の認識は英語に比べて難しいこともあり、まだ汎用性が英語圏ほどではないことも災いしている可能性もあります。あまり機械に向かって話すという行為が文化として定着していないことも考えられるため、じわじわと普及していくのを待つ必要があるでしょう。

まとめ

音声認識技術の仕組みや、ディープラーニングがどのようにこの技術を押し上げ、どんなサービスに活用されているのかについて紹介しました。

まだまだ日本では普及していないなどの課題はあるもののポテンシャルは高く、今後生活のDXが進んでいくことで、ますます重要性が高まる技術であることは間違い無いでしょう。スマートスピーカーは手頃な価格で買えることもあり、興味のある方は一度自宅用に購入してみるのも良いかもしれません。