Question 1

実体は画像のスキャン PDF でも使えますか?

Accepted Answer

OCR 済みのスキャンであれば使えます。ツールが読むのは PDF に埋め込まれたテキストレイヤです。画像だけのスキャンにはテキストレイヤがないため、結果は空になります。先に OCR ツールを通してから戻ってきてください。

Question 2

出力は太字、斜体、段組み、表などの書式を保ちますか?

Accepted Answer

保ちません。出力はプレーンテキストのみです。PDF のテキストエンジンは文字と座標を報告しますが、太字や表の構造を確実に再構築するのは難易度がぐっと上がります。段組みは通常読み順で出ますが、複雑なレイアウトは手作業の整形が要ることがあります。

Question 3

抽出したテキストの間隔が変だったり、単語がくっついたりするのはなぜ?

Accepted Answer

PDF はテキストを論理的な単語ではなく、座標付きのグリフとして保存します。生成側がグリフごとにスペースを挟むものもあれば、まったく挟まないものもあります。ツールはアイテムをスペースでつなぐので、密度の高い PDF は置換でスペースを整える必要が出ることがあります。

Question 4

速度はどれくらい? 200 ページのレポートも処理できますか?

Accepted Answer

できます。20 ページの論文なら 1 秒未満。200 ページの文書でも数秒程度です。速度は PDF の生成方法に左右され、Word や LaTeX から書き出された PDF はスキャン+OCR+大量フォント埋め込みのファイルより速いです。

Question 5

暗号化やパスワード保護された PDF はどうなりますか?

Accepted Answer

PDF を開くのにパスワードが必要な場合、抽出は明確なエラーで失敗します。パスワードを知っているなら PDF ロック解除ツールで先にパスワードを外し、戻ってきてください。フラグが付いているだけで実際にはロックされていない PDF は通常そのまま処理できます。

PDF テキスト抽出

PDF テキスト抽出とは？