Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Souveraineté de l'IA et déploiement local des LLM
- Risques des LLM cloud : rétention des données, formation sur les entrées, juridiction étrangère.
- Architecture d'Ollama : serveur de modèles, registre et API compatible OpenAI.
- Comparaison avec vLLM, llama.cpp et Text Generation Inference.
- Licences des modèles : conditions d'utilisation de Llama, Mistral, Qwen et Gemma.
Installation et configuration matérielle
- Installation d'Ollama sur Linux avec prise en charge de CUDA et ROCm.
- Solution de repli uniquement sur CPU et optimisation AVX/AVX2.
- Déploiement Docker et mappage des volumes persistants.
- Configuration multi-GPU et stratégies d'allocation de la VRAM.
Gestion des modèles
- Téléchargement de modèles depuis le registre Ollama : ollama pull llama3.
- Importation de modèles GGUF depuis HuggingFace et TheBloke.
- Niveaux de quantification : compromis entre Q4_K_M, Q5_K_M et Q8_0.
- Commutation de modèles et limites de chargement simultané des modèles.
Fichiers Modelfile personnalisés
- Syntaxe des fichiers Modelfile : FROM, PARAMETER, SYSTEM, TEMPLATE.
- Ajustement de la température, top_p et de la pénalité de répétition.
- Ingénierie des invites système pour un comportement spécifique au rôle.
- Création et publication de modèles personnalisés dans le registre local.
Intégration de l'API
- Point de terminaison /v1/chat/completions compatible OpenAI.
- Réponses en streaming et mode JSON.
- Intégration avec LangChain, LlamaIndex et applications personnalisées.
- Authentification et limitation du débit via un proxy inversé.
Optimisation des performances
- Taille de la fenêtre contextuelle et gestion du cache KV.
- Inférence par lots et gestion des requêtes parallèles.
- Allocation des threads CPU et prise en compte du NUMA.
- Surveillance de l'utilisation du GPU et de la pression mémoire.
Sécurité et conformité
- Isolation réseau pour les points de terminaison de service des modèles.
- Filtres d'entrée et pipelines de modération des sorties.
- Journalisation des invites et des complétions pour la traçabilité.
- Provenance des modèles et vérification des hachages.
Pré requis
- Compétences intermédiaires en administration Linux et des conteneurs.
- Compréhension de haut niveau des modèles d'apprentissage automatique et des transformers.
- Familiarité avec les API REST et le format JSON.
Audience
- Ingénieurs IA et développeurs remplaçant les API de LLM cloud.
- Organisations soucieuses de la sensibilité des données, empêchant l'utilisation de modèles cloud.
- Équipes gouvernementales et de défense nécessitant des modèles linguaires isolés du réseau (air-gapped).
14 Heures