ボイステックとは？音声技術の活用と今後について

2023 1/30

2023年1月30日

ボイステックというテクノロジーをご存じですか？今では当たり前のように日常に入り込んでいるので意識する機会が少ないかもしれません。

今後さらに重要性を増す注目の技術について解説します。

なお、電話応対の業務効率化や顧客満足度を高めたい場合は、システムの導入がおすすめです。なかでも「カイクラ」には、「顧客対応に役立つ機能」や「従業員の生産性を向上させる機能」を多数搭載しています。

カイクラがよくわかる資料については、以下からダウンロードのうえご確認ください！

＼導入社数2000社以上！／
カイクラの詳細を見る
▲無料ダウンロード資料あり／

【PR】次世代型電話業務DXツール「カイクラ」

継続率、驚異の99.8%
煩雑な電話業務が圧倒的にラクチンに
自動通話録音・文字起こし、AI要約でトラブル回避

＼利用社数2,600社以上／
公式サイトを見る

ボイステックとは？

ボイステック（ヴォイステック：voicetech）とはvoice technologyの略称で、人間の音声を認識・処理する技術全体を表します。

voiceが声を意味する事から、音声技術という意味でスピーチテクノロジー（speech technology）と似ていますが、スピーチテクノロジーはコンピュータが合成した人間の声で応答する技術の分野だけを指すケースが多いので用語が表す技術範囲の広さに違いがあります。

今では誰でも簡単にスマホで音声入力検索が出来ますし、AppleのSiri（シリ）やMicrosoftのCortana（コルタナ）といったアシスタントソフトウェアは最初からインストールされているので珍しいものではありません。

AmazonのAIスピーカーのAlexa（アレクサ）も音声技術あってのガジェットです。

このような事例からありふれた技術に見えますが、非常に複雑な背景を持っており今なお発展途上にあります。

音声に関する技術全体を意味するボイステックは主に下記の構成要素に分けられます。

音声認識（voice recognition technology）
話者認識（speaker recognition technology・voice recognition technology）
感情認識（emotion recognition technology）
音声合成（speech synthesis technology）
テキスト変換（character conversion technology）
自動翻訳（automatic translation technology）

音声認識

音声認識術は人間が発話した音声をコンピュータに認識させる技術です。

あらゆる音は空気の振動であり波です。クルマの音や風の音、空気中には様々な音がありますが、その振動の中から人間の声だけを認識します。

音声認識の技術は動的時間伸縮法、統計的手法、隠れマルコフモデルなど複数のテクノロジーがあります。

動的時間伸縮法とは特定の時系列に基づくデータの類似度を比較することで音声認識する技術です。声は空気を伝わる波なので周波数の特性を比較するのです。

また声（音）を10ミリセカンド（1000分の1秒）単位に分割すると、「近似的な定常過程」の音素として扱えます。定常過程とは時間や位置によって変化しない確率過程の事です。音素を声の最小単位として扱う事で認識対象の音素がどのような周波数特性を持っているか表現できます。

広く使われているのは統計的手法で、大量の発話を記録した学習用データを準備して音声の特徴を蓄積し、認識対象となる入力音声（人の声）から抽出された特徴と学習用データに蓄積された特徴とを比較しながら、最も近い言葉を出力します。

現時点において音声認識の精度は、読み取る対象（声の主）を限定して事前にディクテーション（dictation：口述）と呼ばれる事前調整をすれば8割程度を達成、そうでない場合は6割程度とされており、周囲の雑音にも大きく影響を受けてしまいます。

しかし今後改善されていく事は間違いないでしょう。

話者認識

話者認識は特定の個人の声の特徴をモデル化して認識する技術です。

特定の個人（認識対象）の音素がどのような周波数特性をもっているか表したものを音響モデルと呼びます。話者認識は複数の周波数（声）の中から特定の音響モデルを識別するのです。

セミナー会場やパーティー、バスの中など複数の人間が話すざわついた場所で話者認識が出来れば特定の個人の発言だけを抽出できます。必要な音声データだけ抽出できるので非常に便利ですが、その精度は音声認識の発展度合いと比例しています。

感情認識

感情認識はボイステックの一部ではありますが、その範疇に留まらない技術です。人間が相手の感情を察する場合、声だけでなく表情や言葉遣い、体の動きなど複数のサインから総合的に読み取るからです。

例えばバカという単語はそれだけでは悪口ですが、業績悪化中の会社の会議室で発せられた時と彼女とベッドでじゃれている時とではその言葉に込められた意味は全く異なります。

前社は怒りや侮辱の表現の可能性が高く、後者は愛情表現の可能性が高いからです。

テキストはシチュエーション（状況）に依存するので、単純にこの単語が出てきたら相手は怒っているといった具合に判断できるものではありません。

ボイステックにおける感情認識はテキスト内容を読み取ったり、声のイントネーションや感覚、速さ、吐く息の強さなど複合的な要素から判断を下します。

現時点において既に音声感情認識を用いたサービスが実用化されており、コールセンターなど企業向けだけでなく個人でも体験できます。

＼利用社数2,600社以上！／
カイクラの詳細を見る
▲無料ダウンロード資料あり

音声合成

音声合成はコンピュータから人間の声で出力させるときに使われる技術です。今では喋る家電も珍しくありませんが、その多くは録音された特定のフレーズを再生しているに過ぎません。音声合成は事前録音とは違い自由な発話が可能です。

音声合成による発話音声認識と同様に複数の合成方法があります。

フォルマント音声合成
調音音声合成
単位選択型音声合成
ダイフォン音声合成
分野限定音声合成
隠れマルコフモデル音声合成
ニューラルネットワーク音声合成

これらは下記の3つのカテゴリーに属しており、それぞれ特徴があります。

規則合成
波形接続型音声合成
統計的パラメトリック音声合成

規則合成は声の発生に関する知識を元にして音声を合成する技術で、周波数を変更するフォルマント音声合成や人間の声道の構造を模したモデルを用いた調整音声が当てはまります。

波形接続型音声合成はあらかじめ音素をデータベース化しておき、必要に応じて組み合わせる技術です。単位選択型音声合成、ダイフォン音声合成、分野限定音声合成が当てはまります。

最後の統計的パラメトリック音声合成には隠れマルコフモデル音声合成とニューラルネットワーク音声合成が当てはまります。大量の音声を録音したデータベースから特徴を学習した生成モデルを作成し、その生成モデルに基づいて音声合成する技術です。

統計的パラメトリック音声合成はディープラーニングによる進歩が目覚ましく、今後が期待されています。

テキスト変換

スマホの検索の際などに音声認識とセットで活用される技術で非常に浸透しています。テキスト変換は音声認識技術が前提となる技術で、認識した音声をテキストに変換して入力します。

検索エンジンの検索窓への入力だけでなく、ワープロソフトにも活用されており、誰でも無料で使えるソフトとしてはGoogleDocumentがあります。

また会議の自動文字起こしソフトもテキスト変換技術の産物です。

文字起こしの最大の問題は認識率です。同音異義語が多い日本語の場合、医師と石と意思といった具合に読み取った言葉が前後の文脈を無視した単語として出力される事があります。

これには読み取り精度と会話のシチュエーション（会議中なのか病院で診察を受けているのか、カフェで雑談しているのかといった発話された状況）の判断が求められます。

単純な音の読み取りだけでは不十分なので複合的な技術が使われます。

自動翻訳

ボイステックにおける自動翻訳は複数の技術の確立が前提となる非常に高度な複合技術です。まずは話者の音声を認識し言語を特定した上でテキストに変換し、翻訳が行われたら最終的にテキストで表示したり、音声で回答するからです。

音声認識→テキスト化→翻訳→発話という複数の過程が必要となる自動翻訳は様々な分野で期待されており、この技術の代表的な産物は自動翻訳機ポケトークです。

現時点においても自動翻訳機には相当高度な技術が詰まっていますが、ボイステックの構成要素が更に進歩すれば、ゆくゆくは同時通訳者がついてくれるのと同等の機能を獲得するでしょう。

また、ポケトークだけでなく既に旅行用の自動翻訳アプリも複数配信されており、珍しいものではありません。

ボイステックの今後について

AIアシスタントや各種ITガジェットに限らず、コールセンターの音声自動応答装置やカーナビのハンズフリー操作などボイステックは幅広く活用されています。

既にボイステックを用いた様々なプロダクトが社会に浸透しきっているように見えますが、技術の発展で人間でなくてはダメだと思われていたような分野にまで広がっていく事は間違いないでしょう。

例えばSF映画に登場する人間のような受け答えをするAIには、これまで紹介した６つのボイステックが必要となります。

AIが情報処理を担当する頭脳であればボイステックはその感覚器官や発声器官だと言っても過言ではありません。ボイステックの研究自体にAIが使われる事もあり、今後は一気に発展する可能性が高い技術分野だと言えます。

また、今後はモビリティと各種サービスとの連携も加速度的に進み、ボイステック（音声テック）はMaaS文脈におけるインターフェースになるでしょう。

その背景としては、TOYOTAがソフトバンクと連携し、トヨタが構築したコネクティッドカーの情報基盤である「モビリティサービスプラットフォーム（MSPF）」と、スマートフォンやセンサーデバイスなどからのデータを収集・分析して新しい価値を生み出すソフトバンクの「IoTプラットフォーム」を連携させ、車や人の移動などに関するさまざまなデータを活用することによって、需要と供給を最適化し、移動における社会課題の解決や新たな価値創造を可能にする未来のMaaS事業を進めていることなどが挙げられます。

この事例の他、車から映画等の音声コンテンツや駐車場・レストランなどのサービスを予約できたり、アマゾンDashのように「いつもの“あれ”を注文する｣という自動再注文サービスのようなサービスやテクノロジーの進化も進むでしょう。

音声認識技術が向上し、人間と同等の聞き取り精度になり、なおかつ人間が喋っているのと同じように発話できるようになった時、いったいどのような世界が始まるのでしょうか？

頭脳を除外してハード面だけに限れば、ロボット技術と合わせることでSFのアンドロイドが作れてしまいます。ボイステックはAIの発展と合わせて非常に興味深い分野なのです。

※MaaSとは

Mobility as a Serviceの略称。MaaS は、ICT を活用して交通をクラウド化し、公共交通か否か、またその運営主体にかかわらず、マイカー以外のすべての交通手段によるモビリティ(移動)を 1 つのサービスとしてとらえ、シームレスにつなぐ新たな「移動」の概念である。利用者はスマートフォンのアプリを用いて、交通手段やルートを検索、利用し、運賃等の決済を行う例が多い。

MaaS の定義は、発達中の新しいサービスであることから、先行している海外においても定まったものがないのが現状で、国や研究者によっても定義内容や含まれる範囲に違いがあるようである。

2015 年の ITS 世界会議で設立された MaaS Alliance では、「MaaS は、いろいろな種類の交通サービスを、需要に応じて利用できる一つの移動サービスに統合することである」とされている。

また、スウェーデンのチャルマース大学の研究者は、統合の程度に応じ 4 段階に分けている。

レベル4 政策の統合(データ分析による政策)

レベル3 サービス提供の統合(公共交通に加えてレンタカー等も統合)

レベル2 予約、決済の統合(1トリップの検索、予約、支払)

レベル1 情報の統合(複数モードの交通提案、価格情報)

出典：MaaS (モビリティ・アズ・ア・サービス) について

国土交通政策研究所長露木伸宏

＼業務効率化と顧客満足度アップを実現！／
カイクラがよくわかる資料はこちら
▲たった4つの回答で無料ダウンロード可能