HRI-JPホーム > 研究内容 > 研究プロジェクト紹介 > 人とロボットの新しい関係を構築する音声インターフェース

研究内容

研究プロジェクト紹介

HRI-JPで進めているプロジェクトをご紹介します。

Intelligence Science

人とロボットの新しい関係を構築する音声インターフェース

HRI-JP プリンシパル・リサーチャ 中野幹生

イメージ画像:人とロボットの新しい関係を構築する音声インターフェース

1. マルチドメイン対話によってロボットの新しい可能性が広がる
イメージ画像:マルチドメイン対話

私が現在、携わっている研究プロジェクトは「ロボット対話行動制御のモデル開発」です。置かれた状況と文脈を自律的に予測して人間の言葉を理解・学習・行動できる音声対話機能。つまり、シチュエーションが変化して複数のタスクが求められる状況下でも、言葉を理解して動けるロボットについて研究しています。

みなさんロボットが人間と会話をしているシーンをテレビなどでご覧になったことがあるでしょう。また、ある電鉄会社では電話でお客様と会話をしながら特急券の予約ができるというサービスが導入されています。しかし実のところ、それらは一定の目的やシチュエーションの下で決められたタスクを実行しているだけなのです。

人間が発した言葉によってロボットがさまざまな行動をするためには、条件に応じて対話をするための前提をいくつもプログラムする必要があります。システム毎に作られていたそれらをひとつのロボットの中にいくつも持たせてフレキシブルに動かすための音声対話機能、これをマルチドメイン対話機能と呼びます。

2. 機械が自分で学習する、膨大なデータからそのメカニズムに迫る

「ロボット対話行動制御」を今よりさらに進化させるにはマルチドメイン対話を可能にする複数の対話ドメインをひとつのロボット用にプログラミングすること。そして、音声に反応しどのドメインで会話をすればよいか判断する機能、未知の言葉が出てきた場合にロボットが自ら判断し学習するというメカニズムが必要になってきます。

例えば「会議室へ行ってください」という指令を出した場合に「会議室」の意味を知らなければロボットは理解できませんし、行動もできません。その言葉の意味を知っていることと、会話の中でその言葉の出現を予測する必要があります。もし予測できなければ、まったく脈絡のない解釈をして行動をしてしまいます。

また、言葉を知らなくともロボット自身が、言葉の意味を理解していないという認識があれば、わからない部分を相手に尋ねて理解した上で正しい行動をとることが可能です。その処理のメカニズムを解明して創造していくことがこの研究のもっとも難しいところであり面白さでもあるのです。

3. 音声は人にやさしいインタフェース
写真:研究風景

私たちの研究スタイルは、実際に人と人の会話がどうして成立するのか、人と機械がどのようにどのように対話するのかということの解明のふたつの方向からアプローチしています。どちらも実際に会話をする状況を創りだして、それら膨大なデータを分析して、いくつもの対話モデルを構築していきます。

どのようなメカニズムが働いて人は音声を解釈しているのか。また、人間がロボットとしゃべる時にはどんな問題があって反応できなかったりするのか。とくにロボットの理解度が低いと判断した時の人の会話は、ゆっくり話す、重要な単語だけ話す、声のトーンが変わるなど特徴が顕著でたいへん興味深いサンプルが収集できます。

このようにより自然な音声インターフェースを考えたとき、音声技術にはまだまだ未開拓の部分があります。しかしながら、子供から高齢者までだれもが簡単に使いこなすことができる音声によるコミュニケーションは人間にやさしいインターフェースのひとつと考えています。

4. 究極のロボットの理想形、それはマニュアル不要の自律性

今後、人とロボットをつなぐ音声によるインターフェースが発達すれば、人と機械との新たな関係が築けると思います。そして、人の言葉を聴いて自ら学習する“マニュアルの必要のない”ロボットが生まれることになるのではないでしょうか。

私はこの研究を通じて、言葉の裏に隠された人間の精緻な知的活動とその仕組みに迫ることに喜びを感じています。HRI-JPではテーマを与えられるのではなく、自らテーマを決めてそれを突き詰めていきます。

自分でテーマを決めるというのはある意味自由ですが自己責任と裏腹なものでもあります。何が課題か、それによって何が解明され、どのようなアウトップにつながるのか。研究のテーマは短期的なタスクではなく、長期的な夢をかなえるための手段としてチャレンジングしています。

中野幹生 (Mikio Nakano)
1990年東京大学大学院修士課程修了。在学中から第五世代コンピュータプロジェクトでのアルバイトなどを通じて知能研究に関わる。NTTに入社し、基礎研究所で文の構造解析技術の研究などに携わるが、次第に音声の理解に関心を移す。2004年よりHRI-JPにて音声対話ロボットの研究に従事。
写真:中野幹生 (Mikio Nakano)
インテリジェンス・サイエンス領域のその他の研究プロジェクト
人とロボットの新しい関係を構築する音声インターフェース
脳の神経回路網から人間の「行動」と「認知」の機構を解明する
音をベースに環境・状況を理解できる情報処理メカニズムの構築
知覚と認識の高度な適応性のしくみを解き明かす
【研究者インタビュー】人にやさしい社会を描く、インテリジェンスサイエンスの「現在」、そして「未来」