OCR 画像テキスト変換とは?

お使いのデバイス上で動作するTesseract OCRを使って、画像・スクリーンショット・スキャン文書・写真からテキストを抽出します。複数言語に対応し、コピーやダウンロード可能な編集テキストとして出力します。ファイルはデバイスから一切外に出ず、すべての処理がローカルで行われます。

このツールには WebAssembly でコンパイルした Tesseract OCR と、20 種類の学習済み言語パック(英語、スペイン語、フランス語、ドイツ語、イタリア語、オランダ語、ポルトガル語、ポーランド語、スウェーデン語、トルコ語、ロシア語、アラビア語、ヒンディー語、タイ語、ベトナム語、中国語簡体/繁体、日本語、韓国語、インドネシア語)が含まれます。各パックは初回利用時に一度だけダウンロードされ、その後はキャッシュされます。画像や 1 ページの PDF を読み込み、傾いた写真を回転させ、認識する範囲を選んでから、結果をプレーンテキストまたは Word 文書として保存できます。スクリーンショット、300 dpi のスキャン、鮮明なレシートでは精度が高く、印刷文字なら 95% 以上、手書きや傾いた写真では下がります。

使い方

  1. 抽出したいテキストが含まれる画像(PNG、JPG、BMP、WebP)または 1 ページの PDF をアップロードするか、クリップボードからスクリーンショットを貼り付けます。初めてですか?「サンプルを試す」を押すと、例で動作を確認できます。
  2. 認識精度を上げるため、画像内テキストの言語を選択します。「テキスト抽出」をクリックしてOCR処理を開始します。
  3. 抽出されたテキストを確認して誤りを直し、コピーするか .txt または Word(.docx)ファイルとしてダウンロードします。

使用するタイミング

  • コピー禁止のPDFやチャット、スライドのスクショから編集可能なテキストを抜き出す。
  • 紙のレシートをスマホで撮って、明細を家計簿スプレッドシートに書き起こす。
  • 手書きや印刷の講義ノートを文字データ化して、後から全文検索できるようにする。

結果

レストランのレシートの写真をアップロードすると、OCRが「シーザーサラダ — $12.50」「スパークリングウォーター — $3.00」のように一行ずつ読み取り、スプレッドシートにそのまま貼り付けられるきれいなテキストを返します。

よくある質問

OCRエンジンが対応している言語は?
英語、スペイン語、フランス語、ドイツ語、イタリア語、オランダ語、ポルトガル語、ポーランド語、スウェーデン語、トルコ語、ロシア語、アラビア語、ヒンディー語、タイ語、ベトナム語、中国語簡体/繁体、日本語、韓国語、インドネシア語の計20言語。画像の内容に最も近いものを選びます。多言語混在のときは、テキストの大半を占める文字体系を選ぶと精度が上がります。
認識精度はどのくらい期待できますか?
300 dpi以上のきれいな印刷物(スクショ、スキャンPDF)であれば概ね95%以上です。手書き、低コントラスト、手ブレ、斜め撮りでは精度が大きく下がります。結果横の信頼度スコアでTesseractの確信度を確認できます。
なぜ言語を切り替えた初回だけ数秒かかるの?
Tesseractの言語モデルは1つあたり10〜20 MBあり、その言語を初めて選んだときにダウンロードされます。一度キャッシュされれば、同じ言語の認識はほぼ即座に始まり、再ダウンロードは発生しません。
ファイルをアップロードせずクリップボードから画像を貼れる?
貼れます。Win+Shift+S(Windows)またはCmd+Ctrl+Shift+4(macOS)でスクショを撮り、「画像を貼り付け」をクリック。ツールはディスクに保存せず、クリップボードから直接画像を読み込みます。
アップロードした画像はサーバーに送られる?
いいえ。TesseractはWebAssemblyでページ内だけで動作し、画像のバイトは端末から出ません。開発者ツールでネットワークを切ったうえで認識を試すと、それでも完了することを自分の目で確認できます。

関連ツール