Question 1

工具能处理实际上就是图片的扫描 PDF 吗?

Accepted Answer

只有做过 OCR 的扫描件可以。工具读取的是 PDF 内嵌的文本层。纯图片扫描没有文本层,结果会是空的。请先用 OCR 工具识别,再回来用这个工具提取。

Question 2

提取出来的内容会保留粗体、斜体、分栏、表格等格式吗?

Accepted Answer

不会。输出只是纯文本。PDF 文本引擎只汇报字符和位置信息,可靠地还原粗体或表格结构难度高很多。多栏内容一般按阅读顺序排列,复杂版式可能需要人工再整理。

Question 3

为什么提取的文字间距很怪,有的还把单词连在一起?

Accepted Answer

PDF 把文字按字形(glyph)的位置存储,不存储逻辑单词。有的编码器在每个字形之间都插空格,有的完全不插。工具用空格拼接片段,所以密排的 PDF 经常需要做一次查找替换来清理多余空格。

Question 4

提取速度怎样?能处理 200 页的报告吗?

Accepted Answer

可以。20 页的论文不到一秒就能提取完;200 页的文档需要几秒钟。速度取决于 PDF 是怎么生成的:Word 或 LaTeX 导出的比扫描后 OCR、嵌入了大量字体的快得多。

Question 5

加密或带密码的 PDF 怎么办?

Accepted Answer

如果 PDF 需要密码才能打开,提取会失败并给出明确报错。请先用我们的 PDF 解锁工具(在你知道密码的情况下)去除密码,然后再回来。只是被标记加密而不是真正锁住的 PDF 可以正常提取。

PDF 文字提取

什么是PDF 文字提取？