Appleが「Hey Siri」機能の仕組みを詳しく検証
お使いのブラウザは古いバージョンです。より快適にご利用いただくために、ブラウザをアップグレードしてください。
「Hey Siri」のワークフロー。
Apple は機械学習とディープ ニューラル ネットワークを組み合わせて、Apple Watch のほか、最近の iPhone や iPad のほとんどのモデルで利用できる機能を強化しています。
iPhoneやApple Watchのマイクは、あなたの声を毎秒16,000回の速度で、瞬時に波形サンプルのストリームに変換します。スペクトル分析ステージでは、波形サンプルストリームをフレームのシーケンスに変換します。各フレームは約0.01秒の音響スペクトルを表します。一度に約20フレーム(0.2秒の音声)が音響モデルであるディープニューラルネットワーク(DNN)に送られ、DNNはこれらの音響パターンを一連の音声クラス(「Hey Siri」フレーズで使用されるもの、無音、その他の音声)にわたる確率分布に変換します。合計約20の音声クラスです。
もうひとつのユニークな点は、デバイスが最初のフレーズを聞き逃した場合、「Hey Siri」の繰り返しをキャッチしやすくするために、より敏感な状態になるという点です。
困難な状況でも Siri を簡単に起動できるように、誤作動を大幅に増やさずに柔軟性を組み込みました。Siri には、通常動作に必要な基本しきい値と、通常は起動しない下限しきい値があります。スコアが下限しきい値を超えても上限しきい値は超えていない場合、本物の「Hey Siri」イベントを見逃した可能性があります。スコアがこの範囲内にある場合、システムは数秒間、より高感度な状態になり、ユーザーが特別な操作をしなくてもフレーズを繰り返すだけで Siri が起動します。このセカンドチャンスメカニズムにより、システムの使いやすさが大幅に向上します。また、この非常に高感度な状態は短時間のみであるため、誤報率もそれほど高くなりません。
この投稿では、「Hey Siri」というフレーズがどのように選ばれたのかも詳しく説明されている。
Hey Siri機能が登場するずっと前から、少数のユーザーがボタンを押してリクエストを開始する際、「Hey Siri」と発声していました。私たちは、このような「Hey Siri」発話を、米国英語検出モデルの初期トレーニングセットに使用しました。また、メインの音声認識システムのトレーニングに使用した一般的な音声サンプルも含めました。どちらの場合も、トレーニングフレーズには自動書き起こしを使用しました。Siriチームのメンバーは、書き起こしのサブセットの正確性を確認しました。
「Hey Siri」というフレーズについて、言語固有の音声仕様を作成しました。アメリカ英語では、「Siri」の最初の母音が異なる2つのバリエーションがあり、1つは「serious」、もう1つは「Syria」のようです。また、このフレーズは「Hey, Siri」のようにコンマで表記されることが多いため、2つの単語の間に短い休止がある状況にも対応しました。各音声記号は3つの音声クラス(語頭、語中、語末)に分けられ、それぞれが音響モデルから独自の出力を得ています。
iPhone、iPad、Apple Watchで「Hey Siri」と話しかけ、バーチャルアシスタントを起動する時、あなたは迷うことなくそうするかもしれません。しかし、この機能が常に正しく動作するためには、膨大な作業が続けられています。音声認識や機械学習にご興味のある方は、ぜひこの記事をご覧ください。