前回は「音声認識システム」の「音声」を認識して「テキスト化」するインプットの部分をご説明しました。
⇒ 基本から知りたい!音声認識システム①『音声認識って何?』
基本的に「音声認識システム」といえば、このインプット部分のこと言いますが、実際にはアウトプット(出力)も音声で行い、インプット、アウトプットを一連のアプリケーションとする「音声認識システム」が数多く使用されています。
今回は、「音声」で出力するアウトプットの部分「音声合成」について簡単にご説明します!
「音声合成」とは、人の声(厳密には人の声を真似た音声)を人工的に作り出すこと。
既に身の回りの様々なサービスで利用されており、交通機関の車内放送、コールセンターの自動応答、電子書籍の読み上げなど、多岐に渡ります。
実は音声合成技術の開発自体は、かなり前から行われており、カーナビの音声案内など「音声」で出力する「音声合成」の方が先に身近になった音声技術といえます。そして、最近更にその技術が活用される場面が多くなったように感じます。
人の声を人工的に作り出す「音声合成」は、音声合成エンジンが行っています。
音声認識エンジンと同様に、音声合成エンジンも複数の開発元より提供されています。
音声合成エンジンは、
・ロボット声のような機械音声
・人に近い自然な音声
・声の抑揚や感情表現まで再現可能なもの
・多言語対応可能なもの
など、性能や特徴は様々です。
どの音声合成エンジンを使うかとなった際に、まずは「どれくらいの音声の質を求めるか」で、使用する音声合成エンジンを選定します。
駅の構内や交通機関の車内アナウンス、コールセンターの自動応答のような不特定多数の方が聞くような音声の場合は、誰にでも聞きやすく、人が実際に発話するようなスムーズな音声が好まれる傾向にあります。
駅の発車時刻案内がロボット声だと聞きづらくて仕方ないですよね。
ただ、コスト面で言うと、人に近ければ近い音声合成エンジンほど、価格は上がる方向です。
反対に、あえて機械的な音声を使用する場合もあります。
テレビ番組内でロボットのキャラクターが話すシーンなどがまさにそうです。
また、聞き手や合成するワードがある程度絞られている場合は、音質を極端に追求せずに、コスト面で比較的安価な音声合成エンジンを選ばれる場合が多いです。
現場で使用する機械から聞こえる音声案内に無機質な音声が多いのはそのためですね。
当社のゴビボイスも現場の決まった工程や場所で使用されることが多いため、こちらを採用しています。
一般的に「音声認識システム」は
・音声認識エンジンを活用して、音声で入力(テキスト化)を行い(インプット)
・音声合成エンジンを活用して、音声で出力(音声合成)を聞く(アウトプット)
で実現されています。
ゴビボイスを例に挙げると、
① 作業内容を音声で聞き(音声合成エンジン・アウトプット)
② 作業結果を音声で発話する(音声認識エンジン・インプット)
③ 作業結果の合否判定を音声で聞く(音声合成エンジン・アウトプット)
といった流れです。
このように一般的な「音声認識システム」は、2つのエンジンを活用して実現されており、使用環境や求めるスペックに合わせて、エンジンを選定しています。
一概に「音声認識システム」といっても、実現可能な内容は様々で使用されるエンジンによっても大きく変わります。
実際に「音声認識システム」を検討される際は、何を重要視するのかによって選択する音声認識エンジン、音声合成エンジンも変わってくるかと思います。
例えば、音声合成エンジンの場合は、開発元のwebサイトで、実際に合成音声を試聴することができるものもありますので、それぞれ聞き比べてみるのも良いかもしれませんね。
お客様の現場に沿った「音声認識システム」を検討してみませんか?
先ずは、ご相談ください!