O que é OCR de imagem para texto?
Extraia texto de imagens, capturas de tela, documentos digitalizados e fotos usando o Tesseract OCR rodando inteiramente de forma privada. Suporta múltiplos idiomas e gera texto editável que você pode copiar ou baixar. Nenhum arquivo sai do seu dispositivo — todo o processamento acontece localmente.
A ferramenta vem com o Tesseract OCR compilado em WebAssembly e 20 pacotes de idioma treinados (inglês, espanhol, francês, alemão, italiano, holandês, português, polonês, sueco, turco, russo, árabe, hindi, tailandês, vietnamita, chinês simplificado/tradicional, japonês, coreano, indonésio). Cada pacote é baixado uma vez no primeiro uso e fica em cache depois. Você pode carregar uma imagem ou um PDF de uma página, girar fotos tortas e selecionar uma região antes de reconhecer, e então salvar o resultado como texto puro ou documento do Word. A precisão é boa em capturas, digitalizações a 300 dpi e recibos nítidos; espere 95% ou mais em texto impresso e menos em manuscrito ou fotos inclinadas.
Como usar
- Envie uma imagem (PNG, JPG, BMP ou WebP) ou um PDF de uma página com o texto que quer extrair, ou cole uma captura da área de transferência. É a primeira vez? Toque em Testar exemplo para ver funcionando em um caso pronto.
- Selecione o idioma do texto na imagem para melhor precisão no reconhecimento. Clique em 'Extrair Texto' para iniciar o processamento OCR.
- Revise o texto extraído, corrija os erros e copie-o ou baixe-o como arquivo .txt ou Word (.docx).
Quando usar
- Extrair texto editável de uma captura de chat, slide ou PDF que não permite copiar.
- Transcrever os itens de uma nota fiscal em papel para uma planilha de despesas.
- Digitalizar anotações de aula manuscritas ou impressas para conseguir buscar depois.
Resultado
Envie a foto de um recibo de restaurante: o OCR lê cada linha, como 'Salada Caesar — R$62,50' e 'Água com Gás — R$15,00', e devolve um texto limpo para colar direto numa planilha.
Perguntas frequentes
- Quais idiomas o motor OCR reconhece?
- Inglês, espanhol, francês, alemão, italiano, neerlandês, português, polonês, sueco, turco, russo, árabe, hindi, tailandês, vietnamita, chinês simplificado e tradicional, japonês, coreano e indonésio — 20 no total. Escolha o mais próximo do conteúdo da imagem. Em textos multilíngues, prefira o sistema de escrita que cobre a maior parte do conteúdo.
- Que tipo de precisão dá para esperar?
- Em impressos limpos a 300 dpi ou mais (capturas, PDF escaneado), a precisão fica geralmente em 95% ou mais. Manuscritos, baixo contraste, motion blur ou fotos tortas derrubam o resultado. A pontuação de confiança ao lado do resultado mostra o quanto o Tesseract está seguro.
- Por que o pacote de idioma demora alguns segundos na primeira vez?
- Cada modelo de idioma do Tesseract tem entre 10 e 20 MB e é baixado na primeira vez que você o seleciona. Depois ele fica em cache no navegador, então reconhecimentos seguintes no mesmo idioma rodam quase na hora.
- Posso colar uma captura da área de transferência em vez de enviar arquivo?
- Pode. Tire a captura (Win+Shift+S no Windows, Cmd+Ctrl+Shift+4 no macOS) e clique em Colar imagem. A ferramenta lê direto da área de transferência sem precisar salvar arquivo no disco.
- Minhas imagens são enviadas para algum servidor?
- Não. O Tesseract roda dentro da página via WebAssembly. Os bytes da imagem não saem do seu dispositivo. Para confirmar, desligue a rede no DevTools e veja que o reconhecimento continua funcionando.
Ferramentas relacionadas
Editor de marcadores de PDF
Adicione e edite marcadores em arquivos PDF
Achatar PDF
Achate campos de formulário e anotações em PDFs
Editor de Texto Rico
Escreva e formate documentos com um editor WYSIWYG
Markdown para PDF
Converta arquivos Markdown em documentos PDF estilizados
Recortar PDF
Recorte e ajuste as margens de páginas PDF
Reordenar páginas de PDF
Arraste e solte para reordenar páginas do PDF