¿Qué es OCR de imagen a texto?
Extrae texto de imágenes, capturas de pantalla, documentos escaneados y fotos mediante Tesseract OCR ejecutándose completamente de forma privada. Admite múltiples idiomas y genera texto editable que puedes copiar o descargar. Ningún archivo sale de tu dispositivo — todo el procesamiento es local.
La herramienta incluye Tesseract OCR compilado en WebAssembly y 20 paquetes de idioma entrenados (inglés, español, francés, alemán, italiano, neerlandés, portugués, polaco, sueco, turco, ruso, árabe, hindi, tailandés, vietnamita, chino simplificado/tradicional, japonés, coreano, indonesio). Cada paquete se descarga una vez al usarlo por primera vez y luego queda en caché. Puedes cargar una imagen o un PDF de una página, girar fotos torcidas y seleccionar una zona antes de reconocer, y después guardar el resultado como texto plano o documento de Word. La precisión es buena en capturas, escaneos a 300 ppp y recibos nítidos; espera un 95% o más en texto impreso, y menos en escritura a mano o fotos inclinadas.
Cómo usar
- Sube una imagen (PNG, JPG, BMP o WebP) o un PDF de una página con el texto que quieres extraer, o pega una captura desde el portapapeles. ¿Es tu primera vez? Pulsa Probar ejemplo para verlo funcionar con un caso de muestra.
- Selecciona el idioma del texto en la imagen para mejorar la precisión del reconocimiento. Haz clic en «Extraer texto» para iniciar el procesamiento OCR.
- Revisa el texto extraído, corrige los errores y cópialo o descárgalo como archivo .txt o Word (.docx).
Cuándo usar
- Sacar texto editable de una captura de chat, diapositiva o PDF que no permite copiar.
- Transcribir las líneas de un ticket de papel a una hoja de cálculo de gastos.
- Digitalizar apuntes de clase manuscritos o impresos para poder buscarlos después.
Resultado
Sube la foto de un recibo de restaurante: el OCR lee cada línea, como «Ensalada César — 12,50 $» y «Agua con gas — 3,00 $», y te da un texto limpio para pegar directamente en una hoja de cálculo.
Preguntas frecuentes
- ¿Qué idiomas reconoce el motor OCR?
- Inglés, español, francés, alemán, italiano, neerlandés, portugués, polaco, sueco, turco, ruso, árabe, hindi, tailandés, vietnamita, chino simplificado y tradicional, japonés, coreano e indonesio: 20 en total. Elige el más parecido al de la imagen. Con texto multilingüe, escoge el sistema de escritura que cubra la mayor parte.
- ¿Qué precisión puedo esperar?
- Con texto impreso limpio a 300 dpi o más (capturas, PDF escaneado), la precisión suele rondar el 95% o superior. Manuscritos, bajo contraste, desenfoque de movimiento o fotos torcidas la bajan bastante. La puntuación de confianza junto al resultado te dice cuán seguro está Tesseract.
- ¿Por qué tarda unos segundos el paquete de idioma la primera vez?
- Cada modelo de idioma de Tesseract pesa entre 10 y 20 MB y se descarga la primera vez que lo eliges. Después queda en la caché del navegador, así que los reconocimientos siguientes en ese idioma son casi instantáneos.
- ¿Puedo pegar una captura desde el portapapeles en lugar de subir un archivo?
- Sí. Haz la captura (Win+Mayús+S en Windows, Cmd+Ctrl+Mayús+4 en macOS) y pulsa Pegar imagen. La herramienta lee la imagen directamente del portapapeles sin guardarla en disco.
- ¿Se envían mis imágenes a algún servidor?
- No. Tesseract corre dentro de la página gracias a WebAssembly. Los bytes de la imagen no salen de tu dispositivo. Puedes confirmarlo desactivando la red en DevTools y comprobando que el reconocimiento sigue funcionando.
Herramientas relacionadas
Editor de marcadores PDF
Añade y edita marcadores en archivos PDF
Aplanar PDF
Aplana campos de formulario y anotaciones en PDFs
Editor de Texto Enriquecido
Escribe y formatea documentos con un editor WYSIWYG
Markdown a PDF
Convierte archivos Markdown en documentos PDF con estilo
Recortar PDF
Recorta y ajusta los márgenes de páginas PDF
Reordenar páginas PDF
Arrastra y suelta para reordenar páginas de un PDF