HRI-JPホーム > 研究内容 > 研究者インタビュー 奥乃先生

研究内容

研究プロジェクト紹介

HRI-JP客員研究員を兼任されている奥乃博京都大学教授がロボット聴覚技術への貢献でIEEE Fellowの称号を受賞されました。これを記念し、奥乃教授のインタビューを掲載いたします。

研究者インタビュー

人にやさしい社会を描く、インテリジェンスサイエンスの「現在」、そして「未来」・・・・・

奥乃博(京都大学大学院情報学研究科)

イメージ画像:

聴覚からのアプローチで人の知能を解明する。

○いつごろから聴覚の研究を始められたのですか?

私は1999年からロボット聴覚の研究を始めました。それまではソフトウエアによる聴覚機能の研究に携わっていたのですが、ロボットの研究を始めた時に最初に感じた大きな戸惑いは、ソフトウエアでの音声認識との違いでした。

ソフトウエアでの音声認識では、口元にあるマイクロフォンに向かって言葉を話せば、高精度の認識ができるのに対して、離れた場所から話された音声を認識しなければならないロボットにはこれが通用しません。

ロボットが人間社会で共存していくためには、一人の声だけを認識するのではなく、同時に話された複数の人の声を認識できなければなりません。もちろん、音声だけでなく、音楽やいわゆる雑音と言われる環境音も認識できなければなりません。また、マイクロフォンはロボットのボディに埋め込まれるのですが、ロボットが動くとその動きから生ずる音、特に、モータの動作音がマイクロフォンにノイズとして紛れ込んできます。つまりロボットは自らの動作音や不必要な音はすべて取捨選択して抑制し、聞きたい音や聞くべき音だけを聞き分ける必要があります。

私たちは生活環境の中では相手の声を聞こうとするとどうしても他の音が同時に聞こえてしまいます。目的の音を聞き取るためにはさまざまな音を聞き分けなければならないのです。

○現在社会で活躍しているロボットは混在する音を判別できないのですか?

現在さまざまな場所で活用されている音声認識システムに共通する制約は、マイクロフォンが口元になければならないということです。マイクロフォンのそばで話されれば、話声は認識できるのに十分の音量の信号が得られます。しかし、話し手がマイクロフォンから離れると、話声は相対的に音量が小さくなり、話声だけに限らず、話し手の周りで聞こえる音楽やテレビや環境音もすべて音声だと認識してしまう可能性があります。この対策としては、音声が発話されたかどうかを判定する研究が盛んに行われています。このような音声発話区間検出や定常的な雑音を抑制する機能は最新の音声認識には搭載されています。残っている重要な課題は、同時に発話された場合や音楽のような非定常的な雑音がある場合の認識です。また、ロボットは、音声以外を雑音として取り扱うべきではなく、音楽や環境音の認識、さらには、それらの混合音を認識することが重要です。そのためには、混合音からどのような音が含まれているのかを聞き分けることが不可欠です。

混合音を聞き分ける方法としては、音が聞こえてくる方向から分ける、または音の特徴から分けるというようなことが考えられます。私たちが開発したロボット聴覚システム「HARK」を搭載したロボットは3人の同時に発した言葉を聞き分けることができます。この技術が進化すれば、喧噪のなかで特定の人の音だけを抽出したり、発話者の声と背景に聞こえるさまざまな音を聞き分けて記録することもできるでしょう。

未開拓の領域だからモチベーションが高まる。

○聴覚にフォーカスされたのはなぜですか?

インテリジェンスサイエンスの主題である知能に深くかかわっているのが聴覚なのです。人は物事を学ぶ時、書きことばを読んで、つまりテキストを読んで習熟していくように思いがちですが、実際には話しことばを聞いていろんなことを学んでいくものです。赤ちゃんが母親の声を聞きながらことばを覚えていく過程を想像していただければわかってもらえると思います。

人間の聴覚器官は、受精後18週くらいから発達し始めて、30週目くらいでほぼ完成します。つまり赤ちゃんは胎内ですでに音を聞いているのですね。目は生まれてしばらくたって見えるようになりますから、聴覚は胎児の時代から人に影響を及ぼしている根源的な感覚なのです。

人間が音やことばを認識する時には、音響信号をなにかしらのシンボルに変換するという作業が行われていると考えられます。たとえば、連続打撃音の音響信号が聞こえた時に、「その音」と言うよりも「コンコンコンという音」とシンボル化すれば容易に指示できます。このようなシンボル化ができると、次に、「コンコンコン」という音は「ドアをノックする音」であると意味を与えることができ、より情報量の多いコミュニケーションが成り立ちます。

これと同じようなことが視覚においても行われています。画像処理の分野では、対象物がどのような物体なのか、どんな意味を持っているのかを判別する研究や、エッシャーのだまし絵に代表されるような人の目の錯覚を利用した図の工学的な解明も進んでいます。

○知能との関連性が高い“音を聞き分ける”研究はどこまで進んでいるのですか?

視覚分野の研究と比べると、聴覚分野では残念ながら同じレベルまできていません。「コンコンコン」という音がどのような意味を持つか、というレベルまではまだ解明されていないのです。科学分野、とくにロボットの領域では画像処理の研究は歴史があるものの、ことばや音を扱う音響処理の分野はまだまだ研究者の数も少なく、未開拓の領域がたくさんあります。それだけに取り組めば取り組むだけ研究課題が生まれてくる宝の山であるので、本来ですと意欲的に取り組んでいきたいというモチベーションも高まってくるのですが…。実際には、画像処理と比べて敷居が高く、応用研究者が入りにくくなっています。

まず第一に、ことばだけに限らずすべての音とシンボルとを連携させるためには「音を聞き分ける」ということが聴覚機能の基本です。これが工学的な見地で解明されると、人の聴覚機能を通じた音環境理解の仕組みの解明に通じ、科学的にも新しい知見が生まれると思っています。

多彩な研究領域の相乗効果が新たな知見を生む。

○HRIの研究スタイルが他の研究機関と異なる点はどこにありますか?

知能研究においては工学的、医学的、心理学的などさまざまなアプローチが不可欠ですので、工学分野以外の研究者の方たちと意見交換をする機会を大切にしていることですね。ミーティングや講演会、あるいは個人的にお話を聞かせていただいたりすると、皆さん親切に教えてくださいます。

たとえば人工内耳の研究での知見によると、成人では、脳は第一次聴覚野で自分が不必要だと思った音、たとえば通常自分の発している声は抑制していて、脳の中枢部である大脳の聴覚連合野ではまったくモニタリングしていないということです。ですから人は言い間違いがあっても気づかないことがあるでしょう?あれは自分の声を脳ではモニタ不要だと判断して聞いていないのです。私たちが研究しているロボットの動作音を抑制する機能が人間の中にも同じように存在するということに驚きと好奇心を覚えますね

また、私たちが同時発話について研究を始めたところ、私たちが教えてもらった聴覚心理学の方々が逆に「人間は実際に何人まで聞き分けられるのか」という疑問を自らに投げかけられ、実際に実験を行われました。まったく残響のない部屋で、被験者の周りにぐるりとスピーカを置いていろんな音声を同時に鳴らすんです。この時は同時に高々2つの音声しか聞き分けることができなかったということです。

ロボットなどで工学的にアプローチすることが、心理学や脳科学などの異なる研究領域に対しても新しい問題提起ができています。それが私たちの研究とも相まって、互いに相乗効果が生まれ始めています。人の知覚メカニズムも未解明の部分が多く、ロボットの領域での取り組みが逆に人の知覚機構の解明や理解にもつながります。

人にやさしいロボットたちと共存する社会へ。

○ロボット聴覚の研究により私たちの未来はどう変わりますか?

私たちは3人の同時発話を聞き分けられるロボットの開発に取り組んでいましたが、当初は10年以上かかると思っていました。しかし実際には5年で実現したのです。HRIの研究環境があればインテリジェンスサイエンスの研究は今後一気に加速度がついて研究が進んでいくと考えています。

たとえば、これからは高齢化社会がますます進んでいきますが、高齢者に顕著な聴覚の衰えなどはかなり軽減されるのではないでしょうか。高齢者が聞き取りにくいとされている高周波の音を補強して変換するということもスムーズにできるようになると思います。また、映画などでも高齢者の聞きにくい音をその場でシンボル化し、字幕として表示することも可能になるはずです。物を落とした音などが「ガタン」、サイレンの音が「ウーウー」という擬音語で字幕になれば、あー昔聞いたことのある音だ、とイメージが湧き、状況認識がさらに容易になると期待されます。今は、サイレンの音や音符が出てくるだけですから。

人間と合奏ができる共演者としてのロボットも当たり前のようになるでしょう。そのキーテクノロジーとしてもロボット聴覚の研究は大きく貢献するはずです。人の伴奏からテンポを予測してそれに合わせて歌うということは、ロボット自身の歌声と他者の演奏音とを判別して聞き取れるということです。自分の歌声を抑制して相手の演奏だけを聞き分けるという能力はまさに「HARK」の技術そのものです。

○急速に技術が進んでしまうと、人間の感覚が退化することはありませんか?

確かにこのようなお話をするとロボット聴覚の研究から生まれる技術によって人間が本来持っている感覚に何か影響を及ぼすような印象もありますが、私はむしろ肯定的に考えています。ロボットの新しい機能が人間の感覚能力を拡張する、あるいは今まで忘れかけていた感覚を思い出させてくれる気がします。

たとえば、秋の夜長の虫たちの声、川のせせらぎ、そよ風が木の葉を揺らす音などに現代の人々は注意を向けなくなっています。大容量の携帯端末とノイズキャンセリングヘッドフォンによって、どこでもオーディオルームという利点が得られるとともに、その代償として失っていく感覚もあるのではないでしょうか。様々な音の認識技術の進化によって、自然にはこのような音がしているのだよ、あるいは、昔はこういうふうに感じたりしていたということを追体験できるようになると思います。現代は捨てていくものが多い社会です。音についても一見不必要なものを捨て聞きたい音だけを聞くといった過剰適用をするのではなく、多くの選択肢の中から取捨選択できる機会がいつも備わっている、という状況になれば感受性も保たれていくのではないでしょうか。

現在進めている研究は最終的には、人とロボットのインタラクションによって人にやさしい世界が築いていかれればと思っています。いかに相手に配慮することができるロボットを作れるかどうかですね。そこには作る人の意思が反映されます。つまりロボットに心を持たせるということは、作っている人に心を持たせることなのです。インテリジェンスサイエンスをどう社会に生かすかは、研究者や開発者の価値判断に大きく委ねられていると考えています。

奥乃 博(HIROSHI G. OKUNO)
1972年東京大学教養学部基礎科学科卒業。同年、日本電信電話公社(現NTT)入社、ソフトウェア研究所、基礎研究所にて、プログラミング言語、人工知能研究に従事、1998年退職。科学技術振興事業団、東京理科大学理工学部情報科学科を経て、2001年より京都大学大学院情報学研究科教授。音環境理解、ロボット聴覚等の研究に従事。東京大学博士(工学)。この間、スタンフォード大学客員研究員、東京大学工学部電子工学科客員助教授。2012年よりIEEE Fellow。
写真:奥乃 博(HIROSHI G. OKUNO)