PDF를 HTML로 변환이란?
PDF to HTML은 PDF 파일에서 텍스트, 제목, 기본 구조를 추출하여 깔끔한 시맨틱 HTML로 변환합니다. PDF 콘텐츠를 웹에서 접근 가능하고, 편집 가능하며, 검색 가능하게 만드는 데 유용합니다.
파서는 pdf.js로 각 페이지의 텍스트 조각과 그 위치·글자 크기·굵기를 함께 뽑아냅니다. 제목 인식은 글자 크기를 문서 중앙값과 비교해서 큰 줄을 h1/h2/h3로 올리고, 본문은 p 태그가 되며 단락 구분은 세로 간격으로 결정됩니다. 깔끔한 의미 기반 HTML, 단순 단락, 페이지별로 충실한 SVG, 픽셀 단위 블록 배치 가운데 원하는 것을 골라 변환할 수 있게 여섯 가지 모드가 있습니다. 암호화된 파일도 처리되며, 필요할 때 비밀번호 입력란이 나타납니다.
사용 방법
- PDF 파일을 업로드하세요 — 도구가 각 페이지를 분석하고 위치 데이터와 함께 텍스트를 추출합니다.
- 추출된 HTML 미리보기를 확인하고 제목 감지 민감도 등의 서식 옵션을 조정하세요.
- HTML을 클립보드에 복사하거나 .html 파일로 다운로드하세요.
사용 시기
- 제품 사양서, 매뉴얼, 화이트페이퍼를 PDF에서 문서 사이트로 이전하기.
- 인쇄용 양식이나 정책 문서를 검색 가능한 웹페이지로 바꾸기.
- 논문에서 본문을 뽑아 문장을 인용하거나 주석을 달기.
결과
개발자가 12페이지 PDF로 된 제품 사양서를 받습니다. 여기에 업로드하면 적절한 제목과 단락이 포함된 깔끔한 HTML을 얻고, 팀이 참조할 수 있도록 프로젝트 위키에 붙여넣습니다.
자주 묻는 질문
- PDF의 이미지나 차트도 HTML로 옮겨지나요?
- 기본적으로 텍스트만 추출하므로 포함된 이미지, 벡터 도표, 양식 필드는 건너뜁니다. 페이지 이미지 포함을 켜면 각 페이지가 그림으로 렌더링되어 HTML에 들어가, 도표와 그래픽은 물론 스캔한 페이지까지 유지됩니다. 파일은 단독으로 완결되어 다른 곳에 호스팅되는 것이 없습니다. 이미지 품질이 높을수록 더 선명하고 파일은 더 커집니다.
- 문장 중간에 이상한 줄바꿈이 들어가는 이유는?
- 일부 PDF는 문단 경계 대신 줄 단위 하드 줄바꿈으로 텍스트를 저장합니다. 「레이아웃 유지」를 끄면 수직 간격을 기준으로 줄을 단락으로 다시 묶습니다. 두 단 레이아웃에서도 이 옵션을 꺼야 합니다.
- 제목 감지가 늘 정확한가요?
- 제목에 큰 글꼴이나 굵은 글꼴을 쓰는 일반적인 PDF에서는 잘 맞습니다. 색상이나 위치로만 제목을 구분하고 크기가 같은 문서는 감지가 어렵습니다—「제목 감지」를 끄면 전부 p 태그로 나오고 직접 마크업하면 됩니다.
- 출력된 HTML을 바로 게시할 수 있나요?
- 출력은 인라인 자바스크립트, 외부 스크립트, 인라인 스타일이 없는 시맨틱 HTML입니다. 어떤 CMS나 정적 사이트 생성기에든 붙여넣고, 자체 템플릿으로 감싸면 끝입니다.
- 암호로 보호된 PDF는 어떻게 되나요?
- 비밀번호 보호 PDF가 이제 지원됩니다. 파일이 암호화돼 있으면 업로드 후 비밀번호 입력란이 나타나며, 입력하면 이 페이지 안에서 잠금 해제와 변환이 함께 이뤄집니다. 비밀번호는 어떤 서버에도 전송되지 않습니다.