発想と実装の間をつなぐ AI:人工知能特化型メディア

一番身近な人工知能Siri。人とシステムが対話できるまでの道のり

音声アシスタントと聞いて『Siri』を想起する人も多いのではないでしょうか。“Hey Siri”とiPhoneに話しかけると起動でき、音声だけでiPhone上のいろいろな操作をしたり、わからないことはSiriに聞けたり、使いこなせばとにかく便利です。

最近では音声で操作ができるAmazon EchoやGoogle Home、LINEのWAVEなどのスマートアシスタントもたくさん登場していますが、その先駆けとなったものがSiriだと言えます。

今回は、改めて人工知能Siriについて、どんな仕組みなのか、どんなAIなのかなどなど深掘りしていきたいと思います。

参考文献:アップル、AIを用いた「Siri」の音声品質向上の取り組み紹介

そもそもSiriって何? 起源を辿るとおもしろい

SiriはiPhone, iPad, iMac等Appleのデバイスで使える人工知能型アシスタントです。iPhone4S以降の機種に搭載されていて、晩年のスティーブ・ジョブズの最後の作品とも言われています。

Siriの説明をする前に、AIの歴史について触れておきます。


人工無脳のELIZA。Siriの原型をつくる

その起源を辿るとSiriは1964年に開発された「ELIZA(イライザ)」という対話システムをベースとしています。このELIZAは高性能な人工知能というわけではなく、コンピュータと人がまるで対話しているかのようにみせたシステム。単純なプログラムを組み込むことで、定型的な返答でも、コンピュータと話しているかのようになります。

具体的な話をすると、人間が「お腹が空いた」とコンピュータに入力すると、コンピュータが「なぜお腹が空いたと言うの?」と返し、「A氏が私に怒っている」と入力すると「ほかに誰があなたに怒っているの?」という具合に、ELIZAに記録されている定型文に相手の発言を取り入れ返すような単純な仕組みでできています。

ほかにも「その質問、おもしろい?」「ほかのことを話しましょう」といったような話の展開を広げるような文言もあったようです。

もちろん、そこに言葉の本質的な意味は、何もありませんが、会話はうまいこと成り立ちそうですよね。これを原型とし、人工知能が搭載された形でリリースされたのがSiriというわけです。ただ今の形に行き着くまでには険しい道のりが……


人と自然な対話できるような人工知能への道のり

ELIZAが開発されてから約15年。1980年代の第二次AIブーム当時になっても、人工知能は人間と自然な対話ができるレベルではありませんでした。2000年代になってからアメリカ政府主導の軍事機関、国防高等研究計画局(DARPA)により、戦場で兵士をサポートする目的で研究が進められ、やっと実用段階に耐えうるレベルまでこぎつけたという感じです。

この人工知能の実用化にむけてDARPAは、SRI Internationalというスタンフォード大学が創設した超精鋭ぞろいの非営利研究機関と連携し、「CALO(Cognitive Assistant that Learns and Organizes)」というプロジェクトを5年もの歳月をかけて進めました。

その後、CALOプロジェクトはスタートアップ企業Siriとして独立。2010年当初にたくさんのWebサービスと連携できるアプリとしてリリースされました。
AppleはこのSiriを買収し、音声認識自然言語処理機能を付け加えた上で、iphone4sからSiriの機能を搭載。こうした経緯があって現在のSiriに至るわけです。

Siriに搭載されてるAIはどういう仕組みなの?


さて、前段が長くなりましたが、Siriを構成する4つの要素は以下の通り。

  • 音声認識
  • 自然言語理解
  • 命令の実行
  • 返答

この中からSiriの機能の核となっている音声認識について紹介していきます。


音声認識・音声合成

音声認識は人間の発言(音声)を聞き取ってデータ化すること。人間の複雑で多様な音声を認識できるようになるというのは技術的なハードルが高いと言われています。

ただこの音声認識の精度は、近年飛躍的に高くなっており、Siriがうまく音声認識できないことも年々減ってきています。これは無数の音声データを用いて、統計的な処理をおこなう仕組みが構築されているためです。Siriに用いられているのはNuance Communications社の提供した音声認識技術と言われています。

一方、Siriはテキストデータを音声としてアウトプットする「音声合成」もできます。これにより、人間とAIのスムーズな対話が可能となっているのです。

iOS11ではSiriの音声品質が大幅に向上しているようです。新しいSiriではテキストのアウトプットにはディープラーニングに基づいたTTS(テキスト読み上げ)技術が用いられ、Siriの表現力が大きく改善してるのだとか。

身近だけど意外と知らなかったSiriという存在

最近ではSirikitというツールを使って、今あるアプリケーションをどんどんSiriと連携させることが可能とのこと。音声操作で送金できたり、家電をリモートで操作できたり、Siriの機能は拡張し続けています。すべてのアプリと音声だけで繋がれる世界が現実的なものになってきてますね。

Siriは身近な人工知能。でもその発祥や仕組みは意外と知らないものですよね。音声で命令をするだけで何から何まで実行してくれるSiriは、今よりもっと快適な未来をもたらしてくれます。今後ともSiriには傍で人々をアシストするような頼もしい存在であってほしいですね。

田村 宣太 by
幼少期から海外を渡り歩き、様々な文化に触れ合いながら育つ。その中で『価値のあるものを、ちゃんと届ける』ことに興味を持ち、マーケティングの道へ。 口癖は「うぇい」