音声テキスト変換とは?

音声テキスト変換は、デバイスに搭載された音声認識機能を使って、話した言葉をそのまま文字に起こします。メモの口述、メッセージの下書き、思いついたアイデアの記録まで、手を使わずに進められます。処理はすべてデバイス上でプライベートに行われます。

認識にはChrome、Edge、Safariが搭載するWeb Speech APIを使うので、精度は遠隔サーバーではなく端末とマイクの性能で決まります。英語の各バリエーション、中国語、アラビア語、ヒンディー語など13言語に対応します。句読点は自動で入らないので、「カンマ」「ピリオド」などと声に出してください。

使い方

  1. ステップ1 — マイクボタンをクリックし、マイクへのアクセスを許可します。
  2. ステップ2 — マイクに向かってはっきり話してください。音声がリアルタイムでテキストに変換されます。
  3. ステップ3 — 終了したら停止ボタンをクリックし、変換されたテキストをコピーまたはダウンロードします。

使用するタイミング

  • 運転中や料理中、手がふさがっているときにメッセージやメール、メモを音声入力。
  • 会議で打鍵が追いつかないときに、要点を音声で先に拾っておく。
  • 手首が痛くてキーボードがつらいときに、入力負担を音声で減らす。

結果

会議中に素早くメモを取りたいとき、マイクボタンを押して議題について自然に話すだけで、メモアプリにそのまま貼り付けられるテキストが作成されます。

よくある質問

音声はサーバーに送られますか?
認識は端末内蔵の音声サービスに音声を送ります。ChromeならGoogle、SafariならApple、ごく一部のプラットフォームは端末内で処理します。テキストが表示された後は端末内に留まります。さらに自動的にローカル保存するので再読込しても作業が消えません。「クリア」ボタンで保存済みのコピーも消えます。
マイクボタンを押しても反応しません
ブラウザがWeb Speech APIを実装していない(古いFirefoxや一部のプライベートウインドウ)か、マイクの許可が拒否されています。アドレスバーのサイト設定アイコンを確認してください。デスクトップやAndroidのChrome、Edgeが一番安定します。
数秒で止まってしまいます。原因は?
多くのブラウザはリソース節約のため、数秒の無音で自動停止します。話し続ければ継続します。途中で切れた場合はマイクをもう一度押せば、既存の文字起こしは残り、続きが末尾に追加されます。
句読点や改行は入れられますか?
可能です。「カンマ」「ピリオド」「疑問符」「改行」と声に出してください。エンジンごとに認識精度が違うので、後で本文を一度見直すのが普通の流れです。
方言や訛りが誤認識されます。辞書を編集できますか?
認識モデルはブラウザのもので、ここからは編集できません。一番近い地域バリアント(ja-JPほか)を選べば多くは解消します。人名や専門用語は文字起こしを終えてから手動で修正し、それからコピーしてください。

関連ツール