Prenez contact avec nous

Plan du cours

Souveraineté de l'IA et déploiement local des LLM

  • Risques des LLM cloud : rétention des données, formation sur les entrées, juridiction étrangère.
  • Architecture d'Ollama : serveur de modèles, registre et API compatible OpenAI.
  • Comparaison avec vLLM, llama.cpp et Text Generation Inference.
  • Licences des modèles : conditions d'utilisation de Llama, Mistral, Qwen et Gemma.

Installation et configuration matérielle

  • Installation d'Ollama sur Linux avec prise en charge de CUDA et ROCm.
  • Solution de repli uniquement sur CPU et optimisation AVX/AVX2.
  • Déploiement Docker et mappage des volumes persistants.
  • Configuration multi-GPU et stratégies d'allocation de la VRAM.

Gestion des modèles

  • Téléchargement de modèles depuis le registre Ollama : ollama pull llama3.
  • Importation de modèles GGUF depuis HuggingFace et TheBloke.
  • Niveaux de quantification : compromis entre Q4_K_M, Q5_K_M et Q8_0.
  • Commutation de modèles et limites de chargement simultané des modèles.

Fichiers Modelfile personnalisés

  • Syntaxe des fichiers Modelfile : FROM, PARAMETER, SYSTEM, TEMPLATE.
  • Ajustement de la température, top_p et de la pénalité de répétition.
  • Ingénierie des invites système pour un comportement spécifique au rôle.
  • Création et publication de modèles personnalisés dans le registre local.

Intégration de l'API

  • Point de terminaison /v1/chat/completions compatible OpenAI.
  • Réponses en streaming et mode JSON.
  • Intégration avec LangChain, LlamaIndex et applications personnalisées.
  • Authentification et limitation du débit via un proxy inversé.

Optimisation des performances

  • Taille de la fenêtre contextuelle et gestion du cache KV.
  • Inférence par lots et gestion des requêtes parallèles.
  • Allocation des threads CPU et prise en compte du NUMA.
  • Surveillance de l'utilisation du GPU et de la pression mémoire.

Sécurité et conformité

  • Isolation réseau pour les points de terminaison de service des modèles.
  • Filtres d'entrée et pipelines de modération des sorties.
  • Journalisation des invites et des complétions pour la traçabilité.
  • Provenance des modèles et vérification des hachages.

Pré requis

  • Compétences intermédiaires en administration Linux et des conteneurs.
  • Compréhension de haut niveau des modèles d'apprentissage automatique et des transformers.
  • Familiarité avec les API REST et le format JSON.

Audience

  • Ingénieurs IA et développeurs remplaçant les API de LLM cloud.
  • Organisations soucieuses de la sensibilité des données, empêchant l'utilisation de modèles cloud.
  • Équipes gouvernementales et de défense nécessitant des modèles linguaires isolés du réseau (air-gapped).
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires