Question 1

工具能處理實際上是圖片的掃描 PDF 嗎?

Accepted Answer

只有已做過 OCR 的掃描檔才行。工具讀取的是 PDF 內嵌的文字層。純圖片掃描沒有文字層,結果會是空白。請先用 OCR 工具辨識,再回來用這個工具提取。

Question 2

提取出來的內容會保留粗體、斜體、分欄、表格嗎?

Accepted Answer

不會。輸出只是純文字。PDF 文字引擎只回報字元與位置資訊,要可靠還原粗體或表格結構難度高得多。多欄通常會按閱讀順序排列,複雜版面可能需要再手動整理。

Question 3

為什麼提取出的文字間距奇怪,有時還把單字連在一起?

Accepted Answer

PDF 把文字以字形(glyph)位置儲存,不存邏輯單字。有些編碼器會在每個字形之間插空白,有些完全不插。工具以空白拼接,所以排版密的 PDF 常需要做一次取代,把多餘空白清掉。

Question 4

提取速度如何?能處理 200 頁的報告嗎?

Accepted Answer

可以。20 頁的論文不到一秒就完成;200 頁的文件大概需要幾秒。速度取決於 PDF 是怎麼產生的:Word 或 LaTeX 匯出的比掃描後 OCR、內嵌大量字型的快很多。

Question 5

加密或有密碼的 PDF 怎麼辦?

Accepted Answer

如果 PDF 必須輸入密碼才能開啟,提取會失敗並顯示明確錯誤訊息。請先用我們的 PDF 解鎖工具(在你知道密碼的前提下)去除密碼,再回來這裡。只是被標記加密而沒實際鎖住的 PDF 仍可正常處理。

PDF 文字擷取

什麼是PDF 文字擷取？