音声テキスト変換とは?
音声テキスト変換は、デバイスに搭載された音声認識機能を使って、話した言葉をそのまま文字に起こします。メモの口述、メッセージの下書き、思いついたアイデアの記録まで、手を使わずに進められます。処理はすべてデバイス上でプライベートに行われます。
認識にはChrome、Edge、Safariが搭載するWeb Speech APIを使うので、精度は遠隔サーバーではなく端末とマイクの性能で決まります。英語の各バリエーション、中国語、アラビア語、ヒンディー語など13言語に対応します。句読点は自動で入らないので、「カンマ」「ピリオド」などと声に出してください。
使い方
- ステップ1 — マイクボタンをクリックし、マイクへのアクセスを許可します。
- ステップ2 — マイクに向かってはっきり話してください。音声がリアルタイムでテキストに変換されます。
- ステップ3 — 終了したら停止ボタンをクリックし、変換されたテキストをコピーまたはダウンロードします。
使用するタイミング
- 運転中や料理中、手がふさがっているときにメッセージやメール、メモを音声入力。
- 会議で打鍵が追いつかないときに、要点を音声で先に拾っておく。
- 手首が痛くてキーボードがつらいときに、入力負担を音声で減らす。
結果
会議中に素早くメモを取りたいとき、マイクボタンを押して議題について自然に話すだけで、メモアプリにそのまま貼り付けられるテキストが作成されます。
よくある質問
- 音声はサーバーに送られますか?
- 認識は端末内蔵の音声サービスに音声を送ります。ChromeならGoogle、SafariならApple、ごく一部のプラットフォームは端末内で処理します。テキストが表示された後は端末内に留まります。さらに自動的にローカル保存するので再読込しても作業が消えません。「クリア」ボタンで保存済みのコピーも消えます。
- マイクボタンを押しても反応しません
- ブラウザがWeb Speech APIを実装していない(古いFirefoxや一部のプライベートウインドウ)か、マイクの許可が拒否されています。アドレスバーのサイト設定アイコンを確認してください。デスクトップやAndroidのChrome、Edgeが一番安定します。
- 数秒で止まってしまいます。原因は?
- 多くのブラウザはリソース節約のため、数秒の無音で自動停止します。話し続ければ継続します。途中で切れた場合はマイクをもう一度押せば、既存の文字起こしは残り、続きが末尾に追加されます。
- 句読点や改行は入れられますか?
- 可能です。「カンマ」「ピリオド」「疑問符」「改行」と声に出してください。エンジンごとに認識精度が違うので、後で本文を一度見直すのが普通の流れです。
- 方言や訛りが誤認識されます。辞書を編集できますか?
- 認識モデルはブラウザのもので、ここからは編集できません。一番近い地域バリアント(ja-JPほか)を選べば多くは解消します。人名や専門用語は文字起こしを終えてから手動で修正し、それからコピーしてください。