L'OCR (Optical Character Recognition) est la technologie qui permet d'extraire le contenu textuel d'une image. Il combine analyse de layout (détection des blocs de texte, colonnes, tableaux), reconnaissance de caractères (via réseaux de neurones comme Tesseract LSTM) et post-traitement linguistique (correction basée sur un dictionnaire).
Dans une GED moderne, l'OCR est couplé à une classification IA (LLM) qui déduit le type de document, les entités nommées (dates, montants, noms) et la pertinence sectorielle. La recherche full-text devient alors possible sur l'ensemble du corpus même si les documents ont été scannés.