O que é OCR de imagem para texto?

Extraia texto de imagens, capturas de tela, documentos digitalizados e fotos usando o Tesseract OCR rodando inteiramente de forma privada. Suporta múltiplos idiomas e gera texto editável que você pode copiar ou baixar. Nenhum arquivo sai do seu dispositivo — todo o processamento acontece localmente.

A ferramenta vem com o Tesseract OCR compilado em WebAssembly e 20 pacotes de idioma treinados (inglês, espanhol, francês, alemão, italiano, holandês, português, polonês, sueco, turco, russo, árabe, hindi, tailandês, vietnamita, chinês simplificado/tradicional, japonês, coreano, indonésio). Cada pacote é baixado uma vez no primeiro uso e fica em cache depois. Você pode carregar uma imagem ou um PDF de uma página, girar fotos tortas e selecionar uma região antes de reconhecer, e então salvar o resultado como texto puro ou documento do Word. A precisão é boa em capturas, digitalizações a 300 dpi e recibos nítidos; espere 95% ou mais em texto impresso e menos em manuscrito ou fotos inclinadas.

Como usar

  1. Envie uma imagem (PNG, JPG, BMP ou WebP) ou um PDF de uma página com o texto que quer extrair, ou cole uma captura da área de transferência. É a primeira vez? Toque em Testar exemplo para ver funcionando em um caso pronto.
  2. Selecione o idioma do texto na imagem para melhor precisão no reconhecimento. Clique em 'Extrair Texto' para iniciar o processamento OCR.
  3. Revise o texto extraído, corrija os erros e copie-o ou baixe-o como arquivo .txt ou Word (.docx).

Quando usar

  • Extrair texto editável de uma captura de chat, slide ou PDF que não permite copiar.
  • Transcrever os itens de uma nota fiscal em papel para uma planilha de despesas.
  • Digitalizar anotações de aula manuscritas ou impressas para conseguir buscar depois.

Resultado

Envie a foto de um recibo de restaurante: o OCR lê cada linha, como 'Salada Caesar — R$62,50' e 'Água com Gás — R$15,00', e devolve um texto limpo para colar direto numa planilha.

Perguntas frequentes

Quais idiomas o motor OCR reconhece?
Inglês, espanhol, francês, alemão, italiano, neerlandês, português, polonês, sueco, turco, russo, árabe, hindi, tailandês, vietnamita, chinês simplificado e tradicional, japonês, coreano e indonésio — 20 no total. Escolha o mais próximo do conteúdo da imagem. Em textos multilíngues, prefira o sistema de escrita que cobre a maior parte do conteúdo.
Que tipo de precisão dá para esperar?
Em impressos limpos a 300 dpi ou mais (capturas, PDF escaneado), a precisão fica geralmente em 95% ou mais. Manuscritos, baixo contraste, motion blur ou fotos tortas derrubam o resultado. A pontuação de confiança ao lado do resultado mostra o quanto o Tesseract está seguro.
Por que o pacote de idioma demora alguns segundos na primeira vez?
Cada modelo de idioma do Tesseract tem entre 10 e 20 MB e é baixado na primeira vez que você o seleciona. Depois ele fica em cache no navegador, então reconhecimentos seguintes no mesmo idioma rodam quase na hora.
Posso colar uma captura da área de transferência em vez de enviar arquivo?
Pode. Tire a captura (Win+Shift+S no Windows, Cmd+Ctrl+Shift+4 no macOS) e clique em Colar imagem. A ferramenta lê direto da área de transferência sem precisar salvar arquivo no disco.
Minhas imagens são enviadas para algum servidor?
Não. O Tesseract roda dentro da página via WebAssembly. Os bytes da imagem não saem do seu dispositivo. Para confirmar, desligue a rede no DevTools e veja que o reconhecimento continua funcionando.

Ferramentas relacionadas