Technique

OCR

Aussi appelé : Reconnaissance Optique de Caractères · Optical Character Recognition

Technologie qui transforme une image numérisée (scan, photo) en texte structuré indexable et éditable.

L'OCR (Optical Character Recognition) est la technologie qui permet d'extraire le contenu textuel d'une image. Il combine analyse de layout (détection des blocs de texte, colonnes, tableaux), reconnaissance de caractères (via réseaux de neurones comme Tesseract LSTM) et post-traitement linguistique (correction basée sur un dictionnaire).

Dans une GED moderne, l'OCR est couplé à une classification IA (LLM) qui déduit le type de document, les entités nommées (dates, montants, noms) et la pertinence sectorielle. La recherche full-text devient alors possible sur l'ensemble du corpus même si les documents ont été scannés.

Points clés à retenir

  • Reconnaissance multi-pages, multi-langues, multi-scripts (latin, arabe).
  • Précision > 99 % sur texte imprimé net, > 95 % sur texte manuscrit selon qualité.
  • Indispensable pour dématérialisation massive d'archives papier.
  • Couplé à un LLM local pour classification et extraction d'entités.
  • Moteurs open-source : Tesseract, PaddleOCR, EasyOCR ; solutions commerciales : ABBYY, Google Vision.

Termes liés

FAQ

Les questions qu'on nous pose le plus souvent

Logiciels sur mesure, offshoring IT, conformité NF Z42-020 et interventions en Afrique de l'Ouest — les réponses directes aux interrogations récurrentes de nos clients européens et ouest-africains.

La GED (Gestion Électronique de Documents) gère la vie opérationnelle des documents : capture, OCR, classification, recherche full-text, workflow de validation et signature. Le coffre-fort numérique (CFN) prend le relais à la signature pour sceller le document en archivage légal immuable, conforme NF Z42-020 et eIDAS, avec chiffrement AES-256, horodatage qualifié et versioning WORM. Chez SoftValley Labs, la GED bascule automatiquement vers le CFN à la signature.