Qu'est-ce que OCR image vers texte ?

Extrayez du texte depuis des images, captures d'écran, documents numérisés et photos grâce au moteur Tesseract OCR fonctionnant entièrement sur votre appareil. Prend en charge plusieurs langues et produit du texte modifiable que vous pouvez copier ou télécharger. Aucun fichier ne quitte votre appareil — tout le traitement se fait localement.

L'outil intègre Tesseract OCR compilé en WebAssembly et 20 modèles de langue (anglais, espagnol, français, allemand, italien, néerlandais, portugais, polonais, suédois, turc, russe, arabe, hindi, thaï, vietnamien, chinois simplifié/traditionnel, japonais, coréen, indonésien). Chaque modèle se télécharge une seule fois à la première utilisation, puis reste en cache. Vous pouvez charger une image ou un PDF d'une page, redresser les photos de travers et sélectionner une zone avant la reconnaissance, puis enregistrer le résultat en texte brut ou en document Word. La précision est bonne sur les captures, les scans à 300 ppp et les reçus nets ; comptez 95 % ou plus sur du texte imprimé, moins sur l'écriture manuscrite ou les photos inclinées.

Comment utiliser

  1. Importez une image (PNG, JPG, BMP ou WebP) ou un PDF d'une page contenant le texte à extraire, ou collez une capture depuis le presse-papiers. Première fois ? Cliquez sur Tester un exemple pour le voir fonctionner sur un cas type.
  2. Sélectionnez la langue du texte dans l'image pour améliorer la précision de la reconnaissance. Cliquez sur 'Extraire le texte' pour lancer le traitement OCR.
  3. Vérifiez le texte extrait, corrigez les erreurs, puis copiez-le ou téléchargez-le au format .txt ou Word (.docx).

Quand l'utiliser

  • Extraire du texte modifiable d'une capture de discussion, d'une diapo ou d'un PDF qui bloque le copier-coller.
  • Transcrire les lignes d'un ticket papier dans un tableur de dépenses.
  • Numériser des notes de cours manuscrites ou imprimées pour pouvoir les rechercher plus tard.

Résultat

Importez la photo d'un ticket de restaurant : l'OCR lit chaque ligne, comme 'Salade César — 12,50 €' et 'Eau pétillante — 3,00 €', et vous rend un texte propre à coller directement dans un tableur.

FAQ

Quelles langues le moteur OCR reconnaît-il ?
Anglais, espagnol, français, allemand, italien, néerlandais, portugais, polonais, suédois, turc, russe, arabe, hindi, thaï, vietnamien, chinois simplifié et traditionnel, japonais, coréen, indonésien — 20 au total. Choisissez la plus proche du contenu. Pour un texte multilingue, optez pour le système d'écriture qui couvre la majeure partie.
À quel niveau de précision faut-il s'attendre ?
Sur un imprimé propre à 300 dpi ou plus (captures d'écran, PDF scannés), la précision est généralement de 95 % ou plus. Manuscrits, faible contraste, flou de bougé ou clichés de travers font nettement baisser le résultat. Le score de confiance affiché à côté indique à quel point Tesseract est sûr.
Pourquoi le paquet de langue met-il quelques secondes la première fois ?
Chaque modèle Tesseract pèse de 10 à 20 Mo et n'est téléchargé qu'à la première sélection. Il reste ensuite en cache dans le navigateur, ce qui rend les reconnaissances suivantes dans la même langue quasi instantanées.
Peut-on coller une capture depuis le presse-papiers au lieu d'envoyer un fichier ?
Oui. Faites la capture (Win+Maj+S sous Windows, Cmd+Ctrl+Maj+4 sous macOS) puis cliquez sur Coller l'image. L'outil lit l'image directement depuis le presse-papiers, sans l'enregistrer sur le disque.
Mes images sont-elles envoyées sur un serveur ?
Non. Tesseract tourne dans la page via WebAssembly. Les octets de l'image ne quittent pas votre appareil. Pour vérifier, coupez le réseau dans les outils de développement et constatez que la reconnaissance continue.

Outils similaires