Question 1

OCR 엔진은 어떤 언어를 인식하나요?

Accepted Answer

영어, 스페인어, 프랑스어, 독일어, 이탈리아어, 네덜란드어, 포르투갈어, 폴란드어, 스웨덴어, 터키어, 러시아어, 아랍어, 힌디어, 태국어, 베트남어, 중국어 간체/번체, 일본어, 한국어, 인도네시아어까지 모두 20개를 지원합니다. 이미지와 가장 비슷한 언어를 고르세요. 다국어 혼합 텍스트라면 가장 많은 비중을 차지하는 문자 체계를 고르면 좋습니다.

Question 2

어느 정도 정확도를 기대할 수 있나요?

Accepted Answer

300 dpi 이상의 깔끔한 인쇄물(스크린샷, 스캔 PDF)에서는 대체로 95% 이상입니다. 손글씨, 낮은 대비, 흔들림, 비뚤어진 사진에서는 정확도가 크게 떨어집니다. 결과 옆 신뢰도 점수가 Tesseract의 확신 정도를 알려 줍니다.

Question 3

왜 처음 언어를 바꿀 때 몇 초가 걸리나요?

Accepted Answer

Tesseract의 각 언어 모델은 10~20 MB 정도라서 그 언어를 처음 선택할 때 다운로드됩니다. 이후에는 브라우저 캐시에 남아 같은 언어로 다시 인식할 때는 거의 즉시 시작됩니다.

Question 4

파일 업로드 대신 클립보드에서 스크린샷을 붙여 넣을 수 있나요?

Accepted Answer

가능합니다. Win+Shift+S(윈도) 또는 Cmd+Ctrl+Shift+4(맥)로 캡처한 뒤 ‘이미지 붙여넣기’를 누르세요. 도구는 클립보드에서 바로 읽으며 디스크에 저장하지 않습니다.

Question 5

내 이미지가 서버로 전송되나요?

Accepted Answer

아닙니다. Tesseract는 WebAssembly로 페이지 내부에서만 동작하고, 이미지 바이트는 기기를 벗어나지 않습니다. 개발자 도구에서 네트워크를 끄고도 인식이 정상적으로 완료되는 것을 확인할 수 있습니다.

이미지 텍스트 추출

이미지 텍스트 추출이란?

사용 방법

사용 시기

결과

자주 묻는 질문

관련 도구

PDF 북마크 편집기

PDF 평탄화

리치 텍스트 에디터

Markdown를 PDF로 변환

PDF 자르기

PDF 페이지 정렬

이미지 텍스트 추출