PDF テキスト抽出とは?

PDFテキスト抽出ツールは、あらゆるPDFドキュメントから読み取り可能なテキストを抽出します。元の構造を保持し、クリーンでコピー可能なテキストを出力します。レポート、論文、マニュアル、請求書など、選択可能なテキストを含むPDFに対応しています。

ツールは pdf.js で全ページを巡回し、テキストアイテムを 1 つずつ集めてスペースでつなぎます。ページ間は空行で区切られ、出力は読みやすいまま保たれます。結果は普通のテキストなので、メモアプリにコピー、翻訳ツールに貼り付け、grep で検索、テキストを好む任意のツールに渡す、といった使い方が可能です。

使い方

  1. 抽出したいテキストを含むPDFファイルをアップロードします
  2. テキスト抽出が完了するまでお待ちください。大きなファイルは数秒かかる場合があります
  3. 抽出されたテキストをクリップボードにコピーするか、プレーンテキストファイルとしてダウンロードします

使用するタイミング

  • 論文 PDF から原文の引用を抜き出して自分の文章に組み込む。
  • 古い本やマニュアルのスキャンを検索可能・コピー可能なテキストに変換する。
  • 請求書や領収書から数値を取り出してスプレッドシートに貼り付ける。

結果

研究論文のPDFをアップロードすると、全文(要旨、本文、参考文献)がコピー可能なクリーンテキストに変換されます。20ページの学術論文は通常2秒以内に抽出が完了します。

よくある質問

実体は画像のスキャン PDF でも使えますか?
OCR 済みのスキャンであれば使えます。ツールが読むのは PDF に埋め込まれたテキストレイヤです。画像だけのスキャンにはテキストレイヤがないため、結果は空になります。先に OCR ツールを通してから戻ってきてください。
出力は太字、斜体、段組み、表などの書式を保ちますか?
保ちません。出力はプレーンテキストのみです。PDF のテキストエンジンは文字と座標を報告しますが、太字や表の構造を確実に再構築するのは難易度がぐっと上がります。段組みは通常読み順で出ますが、複雑なレイアウトは手作業の整形が要ることがあります。
抽出したテキストの間隔が変だったり、単語がくっついたりするのはなぜ?
PDF はテキストを論理的な単語ではなく、座標付きのグリフとして保存します。生成側がグリフごとにスペースを挟むものもあれば、まったく挟まないものもあります。ツールはアイテムをスペースでつなぐので、密度の高い PDF は置換でスペースを整える必要が出ることがあります。
速度はどれくらい? 200 ページのレポートも処理できますか?
できます。20 ページの論文なら 1 秒未満。200 ページの文書でも数秒程度です。速度は PDF の生成方法に左右され、Word や LaTeX から書き出された PDF はスキャン+OCR+大量フォント埋め込みのファイルより速いです。
暗号化やパスワード保護された PDF はどうなりますか?
PDF を開くのにパスワードが必要な場合、抽出は明確なエラーで失敗します。パスワードを知っているなら PDF ロック解除ツールで先にパスワードを外し、戻ってきてください。フラグが付いているだけで実際にはロックされていない PDF は通常そのまま処理できます。

関連ツール