ボイスコントロールが出来るガジェットやAIアシスタントは珍しいものではありませんが、音声認識で話し手の感情を察知する技術があるのをご存じですか?基本的な仕組みや活用分野について解説します。
感情とは?
音声から感情を読み取る技術について触れる前に、まずは認識対象となる感情とは何か、という点について定義をする必要があります。複数の辞書に異なる記述がありますが、感情の定義についてもっとも端的に表していると思われるのが小学館のデジタル大辞泉の記載です。
~ 物事に感じて起こる気持ち。外界の刺激の感覚や観念によって引き起こされる、ある対象に対する態度や価値づけ~
感情とは|コトバンク
上記の定義の最も重要な点は「ある対象に対する態度や価値づけ」という点です。音声から感情分析をするのは、顧客が「自社のサービスや商品に対する態度や価値づけ」をどのようにしているか察知するためだからです。
感情は何種類あるのか、どのようにして生まれるのか、進化の過程で生き残りに有利だから生まれたのか、体内の内臓感覚との関係がどうなっているのか、といった哲学的・生理学的な謎の追及は避けます。
あくまでも顧客の自社製品への評価という実務的な問題に注目しているのが感情分析なのです。
感情の表現と察知
感情は複数の感覚器官で表現され、察知されます。大きく分けると言語と非言語のコミュニケーションの2つがあります。
言語コミュニケーション
言語を伴うコミュニケーションにおける感情表現は、言葉そのものです。このお菓子は嫌いですと伝えられれば、お菓子に対する評価が低いことが分かりますし、美味しいと言われればプラスの評価を得ている事が分かります。
文字なら手紙などの手段で本人不在でも感情を伝えることが出来るので、時間や距離に縛られずに情報を伝達できる利点があり、データとして整理しやすいのが特徴です。
ただし感情表現における言語の占める重要性はさほど大きくはありません。感情の多くは非言語コミュニケーションで伝わるからです。
非言語コミュニケーション
非言語コミュニケーションは言葉以外のあらゆる行為が含まれます。
例えばこのお菓子は嫌いと言いながら、顔をしかめていたら本当に嫌いなのだと受け取るのが正しいですが、このお菓子は嫌い、と言いながら美味しそうな顔をして何個も食べていたら全く違う意味になります。
おそらく本当に嫌いなのではなく、このお菓子は「美味しくて何個も食べてしまって太るから」嫌い、という意味がある可能性が高いです。これはお菓子がネガティブな評価を得ているとは言えません。
このように発せられた言葉通りに受け取ると全く違うサインを読み取ってしまうので、言葉以外の部分に注目する必要があります
これはコミュニケーションにおけるNo means Yesであり、Yes means Yesとして全てを片づける事は出来ないという事です。
また自分の体で表現するだけでなく、その言葉が発せられたシチュエーション(状況)も感情の判断に大きく関わります。
最も有名な例は呼びかけです。太郎君という言葉は名前に過ぎませんが、新幹線の駅で発せられれば「あなたを見つけました」という意味になりますし、お皿を割った時に発せられれば「あなたは悪いことをしました」という意味になります。
さらに身体表現と組み合わせることで更に複雑な感情表現になります。待ち合わせに遅れた時にネガティブな声色で発せられれば「あなたは来るのが遅い」となりますが、例え遅刻してもニコニコしながら名前を呼ばれれば「あなたが来るのを楽しみに待っていました」という意味に変わります。
以上の例が示すのは言葉そのものには意味がない、という事です。シチュエーションと身体表現とテキスト表現の3種類を合体させたものが感情表現となるのです。決してどれか一つだけでは判断しきれません。
3種類のサインを適切に察知することで正しく感情が伝達されます。いわゆる「空気が読めない」という問題が「〇〇さんがこう言った」「こう書いてある」という具合に文字情報に判断基準を置きすぎている事を原因とするように、読み取るべき情報が欠けていては不十分なのです。
テキストの感情分析
音声による感情分析の技術は音声認識の技術とテキスト分析の技術の2つが合体したものです。音声認識が出来なければ、発せられている音声をテキストに変換できないからです。
テキストの感情分析は音声感情分析とは別に存在しており、テキストマイニング(text mining)という技術をもちいて、テキストの中にどれだけポジティブとネガティブな評価に値する単語があるか抜きだしたり、特定の単語にタグをつけて分類します。
どの単語がポジティブなのか、どの単語をネガティブにするのか、その単語の評価はどれくらいなのかといった点は分析するテキストのシチュエーションに依存します。
好きは+1点、嫌いは-1点といった具合に画一的な評価が出来るわけではないので、活用シーンに合わせてカスタマイズする必要があります。
これまで説明したように文字情報だけでは感情を分析するには不十分かと思われるかもしれませんが、テキストマイニングによる感情分析でも対象となる文章のシチュエーションを限定することで一定の精度を得られます。
あらかじめフォームを分けるなどして何の話題についてのテキストなのか分離すればいいのです。例えば特定商品のお客様相談室に寄せられたVOCであればその商品の話題に限定されるので、他の商品や恋愛相談や政治に話題が紛れ込むことはありません。
自由に何でも伝えてください、と指示するほどカバー範囲が広がって意味を特定しづらくなります。自由会話がもっとも厄介なのです。
音声とテキストによる感情分析
テキストによる感情分析を更に進歩させたのが音声感情分析です。感情表現は非言語の部分の割合が大きいのでどのような口調で発せられているかを分析できれば、言葉の裏の意味が察知できます。
特に問題ないという言葉が発せられたとしても、それが真正のものなのか、この程度で満足しておこうという妥協なのか……あるいは二度と買うつもりはないけど怒って波風立てたくないなのか、言葉だけを信じて評価すると「空気が読めない人」のように誤った解釈をする可能性があるので、声を分析する必要があるのです。
察知の技術的な方法は様々な手段がありますが、声のイントネーション(抑揚)や大きさ、速さなどが分析対象となります。もちろん声の調子だけでなく発せられたテキストと組み合わせて分析するので、テキストマイニングだけの評価よりも精密な測定が可能となります。
そもそも声の調子は半意識的です。通常はコントロールできますが、極度に嬉しかったり不満があるとどうしても声に感情が反映されてしまいます。
そこで顧客が何を考えているのか、口で言っている内容と感情が逆ではないかといった具合にリアルタイムで分析できればコールセンターのオペレータの負担が軽減されますし、データを取りまとめる際にも役立ちます。どのようなフラグを立てるかはプログラム次第ですが、かなり応用の幅は広いでしょう。
またBtoCの接客業務用だけでなく、既に個人向けに自分の声を分析することで自分の調子を教えてくれるアプリなどもありますし、活用は始まっています。声は無意識の反映なので、より精度が向上すれば本人すら気づかない情報を読み取ることが出来るのです。
音声認識技術と分析AIがより進歩すれば、自分よりも自分の状態を詳しく分析してくれるサービスが登場する可能性は高いと言えるでしょう。
表情による感情分析
感情分析の最終フェーズはテキストと声だけでなく表情が加わります。既に表情分析AIが存在し、微細な表情の変化から相手の感情を読み取る技術があります。
声と同じく表情も半無意識ですから、自分の制御の及ばぬ範囲があります。
テキストと音声と表情が複合的に分析できれば、人間が相手の感情を察するのと同等の分析が可能となるでしょう。
元々はアスペルガー症候群の子供向けに、表情の意味をパターン認識して教えるシーンから開発が始まったとのニュースもありますが、ビジネスに活用すれば相当なことが出来るのは間違いありません。
既にSkypeを始めとするテレビ電話(ライブチャットやビデオ音声通話)が普及していますから、カスタマーサポート時に相手の顔をカメラで分析しながらやり取り出来るなら、表情分析は大いに役立つでしょう。
もっともテレビ電話だと受け取る情報量が増える分、オペレータの心理的ストレスが増大してしまうせいか、現時点でコールセンターなどの接客業務に活用するサービスは見当たりません。映像よりも音声の方がストレスが減りますし、更に言えばチャット対応ならより負担は軽くなるのです。
表情分析はテキストや音声とは別に、車内に搭載したカメラで運転手の眠気チェックやイベント参加者の表情を分析して反響を想定するなど個別に利用される傾向があります。
まとめ
音声による感情分析は既に実用段階にあります。音声認識技術やAIが凄い速さで発展しているので、今後は接客分野への更なる活用が期待できるでしょう。
音声感情分析が高機能になることは、AIが人間らしくなるという事を意味します。アスペルガー症候群の人のような感情を読み取るのが苦手な人たちよりコンピュータの方が人間らしくなってしまう可能性もあるでしょう。
しかし接客などビジネス用途に活用すればより顧客の気持ちを読み取ることが出来て、よいサービスが提供できるのも事実です。
技術の発展は止められません。止まっていては新技術を導入したライバルに負けてしまいます。技術の是非を問うよりも、理解を深め活用してみてはいかがでしょうか。