HRI-JPホーム > 研究内容 > 研究プロジェクト紹介 > 音をベースに環境・状況を理解できる情報処理メカニズムの構築。

研究内容

研究プロジェクト紹介

HRI-JPで進めているプロジェクトをご紹介します。

Intelligence Science

音をベースに環境・状況を理解できる情報処理メカニズムの構築

HRI-JP プリンシパル・リサーチャ 中臺一博

イメージ画像:音をベースに環境・状況を理解できる情報処理メカニズムの構築。

1. 音の環境や状況を理解できる機能を実現したい

私たちは、2000年にそれまで培ってきた音環境理解研究の成果を活かし、音環境理解研究とロボット研究を統合する「ロボット聴覚」という全く新しい研究領域を世界で初めて提案しました。ロボット聴覚の核をなす「ロボットに搭載された耳で音声に限らないあらゆる音を理解するべきである」という主張は、当時としては画期的でした。人・ロボットインタラクションの領域では、ロボットへの入力が音声のみであることを仮定できるようにユーザの口元にマイクロホンを設置して研究が行われてきたからです。

実際、この必要性は後に広く受け入れられるようになり、近年では、私たちのロボット聴覚研究の啓蒙活動などもあり、海外でもロボット聴覚関連のプロジェクトが立ち上がるなど、この研究領域は国内外に広がりを見せてきています。私たち自身も、これまで同時発話やバージイン(ユーザの割り込み発話)を扱うことができる技術開発などを通じて、ロボット聴覚領域で、先駆者として常に世界の先頭を走り続けてきていると自負しています。では、ロボット聴覚や音環境理解では、具体的にどのような問題を扱う必要があるのでしょう?例をあげて説明したいと思います。

2. ロボットを含むあらゆる情報システムの人インタフェースへ

たとえば、「こんにちは」という挨拶に、「こんにちは」と返答する一般的なシーンを考えてみましょう。私たちは簡単に「こんにちは」と返答できますが、ロボットが自分の耳で音声を聞いてこのような応答を行うのは簡単なことではありません。まず、人の声を聞こうとしても、他の不要な音まで同時に聞えてきてしまいます。私たちは、雑音下でも意識的にもしくは無意識的に、目的の音声だけを聞く能力(カクテルパーティ効果)があることが知られていますが、ロボットやシステムではそうはいきません。さらに、システム側にも大きな制約があります。たとえば、一般的な音声認識システムでは、入力音はすべて音声として扱われます。つまり、人の声に限らず、音楽もテレビの音もすべて音声だとして認識してしまうのです。

仮に入力音が「こんにちは」という音声で、うまく「こんにちは」と認識できたとしましょう。ロボットは「コンニチワ」と返答すればよいのでしょうか?本当に、この「こんにちは」は人がロボットに対して話しかけたものなのでしょうか?TVから流れてきた音声なのかもしれません。また、みなさんは、「こんにちは」という話しかけに対して、ロボットが「コンニチワ」と返答する会話シーンをテレビなどでご覧になったことがあるかもしれません。しかし、このときロボット側では「こんにちは」というキーワードに反応してシステムが機械的に答えているだけで、本当の意味で意味を理解して対話をしているわけではないのです。

3. 複数人が同時に発した言葉を聞き分けるロボット聴覚用ソフトウエア「HARK」

こうした問題を解決していかなければ本当の意味での知的なロボットやシステムを作ることはできません。ロボット聴覚や音環境理解は、このような問題を解決するための研究を行っています。もちろん、いきなりすべての問題を解決することはできませんが、たとえば、私たちが開発したロボット聴覚用ソフトウエア「HARK」は、複数人が同時に発した言葉を聞き分ける機能を実現します。

HARKを用いれば、室内で誰がどこから話したのかをリアルタイムに記録したり、可視化したりすることが可能です。この技術が進化すれば、喧噪のなかで特定の人の声だけを抽出したり、会議の議事録なども参加者の発言を聞き分けて記録したりすることもできるでしょう。また、音声と同時に様々な音やシーンを理解できる環境理解が実環境で実現できれば、上述の「こんにちは」のシーンに含まれる多くの問題が解決されるでしょう。将来的には言葉の意味や状況理解の実現につながるかもしれません。いずれにしてもわたしたちが取り組んでいる研究は、知的システムのベースになるテクノロジーにつながると確信しています。

HARKの三話者同時発話機能を用いた口じゃんけんの判定

4. 多彩なアプローチが可能だからこそ、新しい研究スタイルが必要

この研究分野の最も難しい感じるところは、システムは想定した環境の中では動くのですが想定外の環境の中では動かないということです。この一つの原因は、従来から行われている難しい問題は分割してから解く(divide-and-conquer)というアプローチにあるのではないかと憶測しています。しかし、実環境を扱う問題は、実は分割してしまうと問題の本質が失われてしまう場合があるのではないかと思っています。問題を極力分割せず、あるがままの形で扱うことが、想定外の環境のなかでも動くシステムを実現する新しいアプローチではないかと思っています。

このようなスタイルで研究を進めるためには、従来から行われている研究スタイル自体を改革していく必要があります。従来のように限られた分野のみを追求するのではなく全体を眺める視点に立つこと、また理論だけではなく実装や実証といった研究のスパイラルを単なるシステムアセンブリではなく、システムインテグレーション研究として自ら回すことができる能力が必要になると思います。

そのためには、こうした能力を持った人材を育成することから始めなければなりません。私は現在、HRIで働く傍ら、大学で研究室を運営しており、教育や教育を通じた人材育成の機会を与えてもらっています。このような機会を与えていただいている大学やそれを認めてくれているHRIという組織には感謝していますし、私個人としても得るところが大きいと考えています。

中臺一博(Kazuhiro Nakadai)
1995年東京大学大学院修士課程修了。NTTに就職し、一度は研究の世界から離れるものの、研究の楽しさが忘れられず研究職に戻ることを決意。北野共生システムプロジェクトの研究員を経て、2003年よりHRI-JPにてロボット聴覚、音環境理解などの研究に従事。
写真:中臺一博(Kazuhiro Nakadai)
インテリジェンス・サイエンス領域のその他の研究プロジェクト
人とロボットの新しい関係を構築する音声インターフェース
脳の神経回路網から人間の「行動」と「認知」の機構を解明する
音をベースに環境・状況を理解できる情報処理メカニズムの構築
知覚と認識の高度な適応性のしくみを解き明かす
【研究者インタビュー】人にやさしい社会を描く、インテリジェンスサイエンスの「現在」、そして「未来」