Siriの仕組みについて考えてみた

  • このエントリーをはてなブックマークに追加
  • Evernoteに保存Evernoteに保存
  • 169
広告1 レスポンシブ

Siri

 今日はSiriの仕組みについて考えてみました。

 Siriが発表された時のデモを見た時に、「これは未来が来てしまった!」と驚愕したのですが、実際にSiriを使ってみると、「これは既存の技術の組み合わせでは?」と思えたのです。
 そう思ったきっかけが、上のスクリーンショットです。


 上から「こんにちは」「今晩は」と私がSiriに向かって話している結果、ちゃんと返事をくれています。
 しかし一番下の「今日は」は私は「こんにちは」と発声したのではなく、「きょうは」と発声したのです。
 その返事としてSiriは「こんにちは!」と返信しています。Siriは私が発声した「きょうは」を「こんにちは」と解釈したということになります。

推測

 ここから推測するに、Siriは音声を直に解釈しているのではなく、音声をいったんテキストに変換してそのテキストに応じた返信をしているという推測が成り立ちます。

検証

 次に検証に入りますが、Siriには前に質問した項目を手動で書き換えて再度質問することができるというワザがあります。
 これで検証できるのではないかと思います。

Siri

 これは「今日の曜日」をSiriに聞いている質問です。ちゃんと答えてくれていますね。
 ここで「今日は何曜日」と書かれたところをタップして無理やり書き換えます。

Siri

Siri

 以上のことからSiriはテキストを解釈して返事をしていることがわかります。

まとめ

 Siriの動作をまとめると以下のようになると思います。

  • マイクからの音声をテキスト化する
  • テキスト化した文章をサーバーに問い合わせ、サーバーから適切な答え(テキストベース)を取得する
  • サーバーから取得した答え(テキストベース)を音声に変換してスピーカーから再生

 こう考えると、やはりSiriは入出力を音声にした検索エンジンであると言えます。
 Googleの検索とは方向性が違いますが、SiriはAppleがGoogleに対抗する検索システムであるということが言えると思います。

 逆に言えば、GoogleもSiriと同等のものを作るのはお手の物だと思いますから、Googleがスマートフォンでの検索とはこういうものだというアプリが出てくれば、おもしろいなと思います。

関連エントリ

  • このエントリーをはてなブックマークに追加
  • Evernoteに保存Evernoteに保存