AIアシスタントをはじめとする音声認識機能の付いたガジェットは既に実用レベルとなっており、もはや珍しいものではありません。
本稿ではその先にあるコンテンツ分析について解説します。
音声認識技術と会話テック
会話テックとは会話のTECH(technology:技術)を意味する造語で、音声認識ではなく会話のコンテンツの分析に関する技術のことです。
音声認識技術はここ数年で大きく進化しました。
かつては人間の声を認識してスイッチをonにしたり、機械音声で受け答えしてくれるだけで十分に先進的と思われていましたが、今ではリアクションがどれだけ自然で人間らしいか、という点に注目が集まっています。
SNSではSiriなどのAIアシスタントの受け答えがどれだけ非定型的で、機知に富んでいるかたびたび話題になっており、下記のようなやり取りが出来るくらいに進化しています。
Siriと久しぶりに
— 1017番 ス◯ームトルーパーさん (@trooper1017) March 1, 2020
遊んでたらなかなか良い
返事が来て ふぁーってなってる
(笑) pic.twitter.com/CfqBYdITLC
このような雑談が出来るAIアシスタントは膨大な機械学習に基づくAIの進歩によって実現しました。
決してウィットに富んだやり取りが出来るよう、一文ずつシナリオライターが考えているような単純なものではありません。
The iBrain Is Here—and It’s Already Inside Your Phone|WIRED
気の利いた受け答えをするAIの裏側には、音の繋がりから会話の意味を読み取るテクノロジーがあるのです。
コミュニケーションの重要性
会話の内容についての分析する技術は音声認識技術の範疇から外れてコミュニケーションの領域に踏み込みます。
そもそも人間は「群れの生き物」と言われ、集団で行動してこそ大きな成果を上げる事が出来ます。人間は群れのメンバー間の利害を調整したり、帰属意識を持たせるためにコミュニケーションを必要としています。
また人間だけでなく猿の群れでも、毛づくろい(グルーミング)に代表される様々なコミュニケーションが欠かせません。
そして現代においても人間は企業や家庭、学校、地域社会といった複数の群れに所属して暮らしており、その群れの属性に応じたコミュニケーション規範に則って役割を担っています。
これらの中でもっともシビアに成果を求められる群れは、ほぼ間違いなく企業です。
企業という群れの一員として高いパフォーマンスを発揮したり、企業全体の業績アップを実現したりするには、健全な企業内コミュニケーションが重要になります。
メラビアンの法則
コミュニケーションの重要性を更に細かく分析した研究結果として、特に有名なものにメラビアンの法則があります。
これは矛盾した視覚情報や聴覚情報を同時に与える事で、情報の受け取り手がどの情報を優先して判断するか実験したものです。
実験の結果、話し手(情報の発信者)が聞き手に与える影響は言語情報と聴覚情報、視覚情報の3種類に分類でき、それぞれの割合が言語情報7%、聴覚情報38%、視覚情報55%だという結果が得られました。
言語情報(Verbal)聴覚情報(Vocal)視覚情報(Visual)の頭文字から3Vの法則、あるいは7・38・55ルールと呼ばれる事もあります。
実際、口では「ありがとう」と言っていても、口調が断定的で態度が怒っているように見えて「怒り」と「感謝」のどちらか判断がつかないのなら、言葉よりも態度を優先して判断するのがコミュニケーションのうえでは妥当です。
この実験が明らかにしたのは、コミュニケーションは言語情報(テキスト)だけでは全く不十分であり、文字と言葉と態度には明らかに優先度があるという当たり前のようでいて貴重な知見です。
ビジネス自己啓発本で引用される事が多いメラビアンの法則ですが、その多くは誤った解釈をしています。決して「見た目さえ整えておけば話している内容は関係ない」といった主張を裏付ける実験ではありません。
コミュニケーションの密度
コミュニケーションには優先度と合わせて密度があります。
情報量が多いものが密度の濃いコミュニケーションで、情報量が少ないコミュニケーションは密度の薄いコミュニケーションです。
例えば、遠隔地の社員とメールでやり取りするだけでは、相手を理解したり共通目的を持つのは難しいですが、毎日机を並べて仕事をして雑談などすれば、かなり早く相互理解が深まります。
メールだけで相手の人となりを知るには相当な回数のやり取りが必要になるでしょう。
しかもビジネスモードでは文通のように話題が広がりづらいので、実質的には不可能に近いかもしれません。
またメールに限らずSNS上では理知的だと思われた人に会ってみたら、思ったよりも感情豊かな人でイメージと違っていたという例は多いものです。
これはテキストの情報量よりも、会話(音声)や身体的距離感の近さによる視覚の情報量が圧倒的に多いせいです。
つまりメールやチャットよりも直接会って話した方が密度が濃いコミュニケーションがとれる証拠でありメラビアンの法則にも合致します。
実際、LINEやSlack、Discordといった大成功しているコミュニケーションツールがチャットだけでなく音声通話機能やビデオ通話機能を備えているのには相応の理由があるはずです。
きっとコミュニケーションツールとして、テキストだけでは不十分だと判断しているからこそ、音声通話やビデオ通話を備えているに違いありません。
実際、メールやチャットに代表されるテキストのやり取りで利害が衝突したり、問題が発生すると通話に移行します。
そして最終的には膝詰め談判という言葉があるように、必ず対面で打ち合わせすることになるのです。重大な経営判断をチャットやメールだけで終わらせる事など、まずあり得ません。
対話や音声通話はテキストよりも情報量が多く密度の高いコミュニケーションなのです。
会話の質を測定する
会話テックはこのような音声コミュニケーションの質を定量化して管理する技術です。定量化するには会話を録音する必要があり、やり取りの可視化が重要です。
例えばコールセンターの接客品質向上のため、顧客との会話を録音すると同時に音声認識技術でテキストに変換するサービスがあります。
その上で故障や返品というキーワードが頻出する会話だったらクレームのタグをつけて分類するなど、テキストマイニング技術で特定のキーワードの出現頻度や結びつきをマッピングするサービスまで登場しています。
さらに近年では会話内容だけでなく感情まで測定可能です。声は音の塊なので周波数として測定できるので、極端な周波数が測定されれば、怒りなど強い感情の表れと判断できます。
録音した会話をテキスト変換して意味を分類し、その上で会話に付随する感情を数値化すれば、「クレームで怒りの電話」や「故障で困惑の電話」と言った具合にやり取りが分類できるのでマーケティングに非常に役立ちます。
社内向け技術としては、会議や1on1などの会話で上司と部下との会話量や口調を測定してアドバイスするようなサービスの提供もはじまっており、会話で企業の健康診断が可能となります。
このように会話そのものを分析する会話テックは広く活用されています。
まとめ
テキストだけでなく会話の質や量そのものを評価して管理する会話テックは音声認識技術とテキストマイニング、感情分析、マネジメントが出会った結果、必然的に登場した技術だと言って良いでしょう。
ただし技術が開発されるまで存在しなかったコンセプトというわけではありません。
人間なら誰しもごく当たり前に口調や態度、喋る内容を考慮した上で相手の真意を読み取ったり配慮しているからです。音声認識やテキストマイニングは人間の認知機能を分析・再現した技術なのです。
ただしあらゆる面で会話テックが人間の劣化プログラムに過ぎないと言い切れない面があります。
コミュニケーションは技術なので、人によって得手不得手があるからです。
どうしても相手の非言語コミュニケーションのサインを受け取れずにテキストの内容ばかりを優先してしまう人は珍しくありませんし、態度を優先するあまり細かい指示を受け取れない人もいます。
会話テックはこのように個人によってバラつきのあるコミュニケーションを定量的に測定・明確化し、画一的に管理出来ます。
人間のように疲労しないので休日も給料も不要かつ、常に最高のパフォーマンスを発揮でききますし、パラメータの調整で誤りを即座に修正できる点は人間に優るといえます。
しかも判断基準がアルゴリズムで明確化されており、個人の善悪好悪の感情に配慮しないのでフェアな管理者としては理想的です。
いうならば優秀な管理職がチームメンバーを管理する際の暗黙知の一部を明らかにして、誰にでも使えるようにしたものが社内向けの会話テック活用サービスだと言っても良いでしょう。
今後はより一層精度の高まる音声認識技術と合わせて、テキストマイニングでコンテンツを分析して役立てる方向に技術が進歩していくものと思われます。
会話テックの導入により、いままで盲点となっていた会社の特徴が見えてくるかもしれません。