
HRI-JPホーム > 研究内容 > 研究プロジェクト紹介 > 人とロボットの新しい関係を構築する音声インターフェース


HRI-JPで進めているプロジェクトをご紹介します。
HRI-JP プリンシパル・リサーチャ 中野幹生

私が現在、携わっている研究プロジェクトは「ロボット対話行動制御のモデル開発」です。置かれた状況と文脈を自律的に予測して人間の言葉を理解・学習・行動できる音声対話機能。つまり、シチュエーションが変化して複数のタスクが求められる状況下でも、言葉を理解して動けるロボットについて研究しています。
みなさんロボットが人間と会話をしているシーンをテレビなどでご覧になったことがあるでしょう。また、ある電鉄会社では電話でお客様と会話をしながら特急券の予約ができるというサービスが導入されています。しかし実のところ、それらは一定の目的やシチュエーションの下で決められたタスクを実行しているだけなのです。
人間が発した言葉によってロボットがさまざまな行動をするためには、条件に応じて対話をするための前提をいくつもプログラムする必要があります。システム毎に作られていたそれらをひとつのロボットの中にいくつも持たせてフレキシブルに動かすための音声対話機能、これをマルチドメイン対話機能と呼びます。
「ロボット対話行動制御」を今よりさらに進化させるにはマルチドメイン対話を可能にする複数の対話ドメインをひとつのロボット用にプログラミングすること。そして、音声に反応しどのドメインで会話をすればよいか判断する機能、未知の言葉が出てきた場合にロボットが自ら判断し学習するというメカニズムが必要になってきます。
例えば「会議室へ行ってください」という指令を出した場合に「会議室」の意味を知らなければロボットは理解できませんし、行動もできません。その言葉の意味を知っていることと、会話の中でその言葉の出現を予測する必要があります。もし予測できなければ、まったく脈絡のない解釈をして行動をしてしまいます。
また、言葉を知らなくともロボット自身が、言葉の意味を理解していないという認識があれば、わからない部分を相手に尋ねて理解した上で正しい行動をとることが可能です。その処理のメカニズムを解明して創造していくことがこの研究のもっとも難しいところであり面白さでもあるのです。
私たちの研究スタイルは、実際に人と人の会話がどうして成立するのか、人と機械がどのようにどのように対話するのかということの解明のふたつの方向からアプローチしています。どちらも実際に会話をする状況を創りだして、それら膨大なデータを分析して、いくつもの対話モデルを構築していきます。
どのようなメカニズムが働いて人は音声を解釈しているのか。また、人間がロボットとしゃべる時にはどんな問題があって反応できなかったりするのか。とくにロボットの理解度が低いと判断した時の人の会話は、ゆっくり話す、重要な単語だけ話す、声のトーンが変わるなど特徴が顕著でたいへん興味深いサンプルが収集できます。
このようにより自然な音声インターフェースを考えたとき、音声技術にはまだまだ未開拓の部分があります。しかしながら、子供から高齢者までだれもが簡単に使いこなすことができる音声によるコミュニケーションは人間にやさしいインターフェースのひとつと考えています。
今後、人とロボットをつなぐ音声によるインターフェースが発達すれば、人と機械との新たな関係が築けると思います。そして、人の言葉を聴いて自ら学習する“マニュアルの必要のない”ロボットが生まれることになるのではないでしょうか。
私はこの研究を通じて、言葉の裏に隠された人間の精緻な知的活動とその仕組みに迫ることに喜びを感じています。HRI-JPではテーマを与えられるのではなく、自らテーマを決めてそれを突き詰めていきます。
自分でテーマを決めるというのはある意味自由ですが自己責任と裏腹なものでもあります。何が課題か、それによって何が解明され、どのようなアウトップにつながるのか。研究のテーマは短期的なタスクではなく、長期的な夢をかなえるための手段としてチャレンジングしています。
