Un LLM local (Large Language Model on-premise) est un modèle d'IA générative déployé dans l'infrastructure du client — serveur interne, edge device, ou cloud privé — sans jamais appeler d'API externe. Il offre deux avantages majeurs : confidentialité totale (aucune donnée ne quitte le périmètre) et prédictibilité des coûts (pas de tarif au token).
Les modèles open-source populaires incluent Llama 3 (Meta), Mistral (Mistral AI), Qwen (Alibaba), Phi (Microsoft), Gemma (Google). Ils sont exécutés via des runtimes optimisés comme Ollama, vLLM, llama.cpp. Pour des usages GED (classification de documents, extraction d'entités), un modèle 7B à 13B paramètres tourne sur un serveur équipé d'une GPU A100 ou même sur un CPU récent.