Question 1

사실상 이미지인 스캔 PDF에도 동작하나요?

Accepted Answer

OCR이 적용된 스캔에 한해 동작합니다. 도구는 PDF에 내장된 텍스트 레이어를 읽습니다. 순수 이미지 스캔에는 텍스트 레이어가 없어서 결과가 비어 있습니다. 먼저 OCR 도구를 거친 뒤 다시 사용해 주세요.

Question 2

굵게, 기울임, 단, 표 같은 원본 서식이 결과에 남나요?

Accepted Answer

남지 않습니다. 출력은 일반 텍스트뿐입니다. PDF의 텍스트 엔진은 문자와 좌표만 알려 주고, 굵게나 표 구조를 신뢰성 있게 재구성하는 일은 훨씬 복잡합니다. 단 구성은 보통 읽는 순서로 나오지만, 복잡한 레이아웃은 수동 정리가 필요할 수 있습니다.

Question 3

추출한 텍스트의 간격이 이상하거나 단어가 붙어 나오는 이유는 뭔가요?

Accepted Answer

PDF는 텍스트를 논리적인 단어가 아니라 좌표를 가진 글리프로 저장합니다. 어떤 생성기는 글리프마다 공백을 넣고, 어떤 것은 전혀 넣지 않습니다. 도구가 공백으로 조각을 잇기 때문에 빽빽한 PDF에서는 찾아 바꾸기로 공백을 정리해야 할 때가 있습니다.

Question 4

속도는 어떤가요? 200쪽 보고서도 처리되나요?

Accepted Answer

처리됩니다. 20쪽 분량은 1초가 채 걸리지 않습니다. 200쪽 문서는 몇 초 정도 걸립니다. 속도는 PDF가 어떻게 만들어졌는지에 따라 다릅니다. Word나 LaTeX에서 내보낸 파일이, OCR과 다수의 임베디드 폰트를 가진 스캔 파일보다 빠릅니다.

Question 5

암호화되었거나 비밀번호로 보호된 PDF는 어떻게 되나요?

Accepted Answer

PDF가 열 때 비밀번호를 요구하면 추출은 명확한 오류로 실패합니다. 비밀번호를 알고 있다면 PDF 잠금 해제 도구로 먼저 비밀번호를 제거하고 다시 시도하세요. 잠금이 아닌 단순 표시만 된 PDF는 보통 그대로 처리됩니다.

PDF 텍스트 추출

PDF 텍스트 추출이란?