Question 1

Какие языки распознаёт OCR-движок?

Accepted Answer

Английский, испанский, французский, немецкий, итальянский, нидерландский, португальский, польский, шведский, турецкий, русский, арабский, хинди, тайский, вьетнамский, китайский упрощённый и традиционный, японский, корейский, индонезийский — всего 20. Выбирайте ближайший к содержимому. Для многоязычных изображений берите ту письменность, что покрывает большую часть текста.

Question 2

На какую точность можно рассчитывать?

Accepted Answer

На чистой полиграфии 300 dpi и выше (скриншоты, сканы PDF) точность обычно 95% и больше. Рукописи, низкий контраст, смазы и наклонные кадры её существенно снижают. Рядом с результатом показан показатель уверенности — насколько Tesseract уверен в распознавании.

Question 3

Почему языковой пакет грузится несколько секунд в первый раз?

Accepted Answer

Каждая модель Tesseract весит 10–20 МБ и скачивается при первом выборе данного языка. Затем она остаётся в кэше браузера, и последующие распознавания на этом же языке запускаются почти моментально.

Question 4

Можно вставить скриншот из буфера обмена, не загружая файл?

Accepted Answer

Можно. Сделайте скриншот (Win+Shift+S в Windows, Cmd+Ctrl+Shift+4 в macOS) и нажмите «Вставить изображение». Инструмент считает картинку прямо из буфера обмена, без сохранения на диск.

Question 5

Мои изображения куда-то отправляются?

Accepted Answer

Нет. Tesseract работает внутри страницы через WebAssembly, и байты изображения не покидают устройство. Проверить просто: отключите сеть в DevTools и убедитесь, что распознавание всё равно завершается.

Распознавание текста на изображениях

Что такое Распознавание текста на изображениях?

Как использовать

Когда использовать

Результат

Частые вопросы

Похожие инструменты

Редактор закладок PDF

Сведение PDF

Текстовый редактор

Markdown в PDF

Обрезка PDF

Сортировка страниц PDF

Распознавание текста на изображениях