環境理解 - ホンダ・リサーチ・インスティチュート・ジャパン

環境理解

Cooperative Intelligence

様々な環境下での音声対話

残響との戦い

部屋の中で、マイクロフォンを用いて音声を収録しようとすると、音声が壁や天井で反射するため、少しずつ到来時間が異なる反射音が混じりあったような観測となります。
このため、マイクロフォンで観測された音声は、元の音声がにじんだような音声になります。このようなにじみ現象を残響といい、音声認識性能を低下させる要因であることが知られています。そこで、残響抑圧を行い、こうした影響を軽減することによって、ロバストな音声対話システムを構築する研究を行っています。

複数人が会話をしている場合や,反射音や様々な雑音が存在する場合、システムがこれらの音源のどれに注意を傾ければよいかを正しく判断すること(アテンション問題)は、難しい問題です。何もしなければ、システムは音声であろうと雑音であろうと手当たり次第に検出した音源に反応してしまうでしょう。しかし、注意を傾けるユーザーを正しく判断し、そのユーザーが発した音声コマンドを正しくそのユーザーと結びつけて認識することは簡単な問題ではありません。こうした問題を解決して、各ユーザーが意図した通りに音声コマンドを認識、実行できるシステムを設計する必要があります。
その一つの手がかりは、音だけではなく、視聴覚両方の情報を使ったマルチモーダルなアプローチであると考えています。

室内での音を発すると、直接マイクロフォンまで届く音に加え、壁や天井で反射した音もマイクロフォンに届きます。それぞれの反射音は、どこで反射するかによって、マイクロフォンまでの距離が少しずつ異なるため、到来時刻も少しずつ異なります。マイクロフォンでは、これらが交じり合った信号が観測されるため、元の信号がにじんだような音が収録されます。このような音のにじみ現象を残響と呼びます。

HARKのクラウドサービス

マイクロフォンアレイ処理の実用化のための研究も進めています。HARKを使えば音源の定位や分離ができますが、これをそのまま用いて構築したシステム全体を一台のコンピューターに搭載しようとすると、コストや消費電力が大きくなってしまいます。また、HARKのセットアップには専門的な知識が必要な場合もあります。
そのためネットワーク経由でクラウドサービスとしてHARKの機能を提供する「HARK SaaS」を設計、開発しています。

その活用例のひとつが車内での利用です。
車にはエンジン音、オーディオ、風切り音、ロードノイズなどの騒音が発生する要因が数多く存在します。
その中で地図検索や音楽再生など、さまざまな機能を実行する音声コマンドを正しく聞き分けるシステムが必要となります。
ただし、自動車への適用では、多くの場合、消費電力の問題で高性能なコンピューターの搭載が困難です。
そこで役立つのが、ネットワーク経由のクラウドサービス「HARK SaaS」です。
マイクロフォンアレイを下のイラストのように机上に設置し、収録した会話をHARK SaaS に送ると、誰が話をしていて誰が話をしていないのか、会話の中心になっているのは誰なのかといった情報がわかるので、会議の活性化に役立てるといった応用が考えられます。
また,イラストのように話し手の方を向いたり、音声認識の結果に応じて適切な情報を提供したりする応用も考えられるでしょう。

中央に置かれたマイクロフォンアレイが複数人の声を同時に収録します。収録した音声データはネットワーク経由でクラウドサービスに送られ、リアルタイムで解析されます。
そのため大きな設備がその場になくてもHARKの機能が利用できます。