Prenez contact avec nous

Plan du cours

Introduction à Apache Airflow

  • Qu'est-ce que l'orchestration de workflows ?
  • Fonctionnalités clés et avantages d'Apache Airflow
  • Améliorations d'Airflow 2.x et aperçu de l'écosystème

Architecture et concepts fondamentaux

  • Planificateur (Scheduler), serveur web et processus workers
  • DAG, tâches et opérateurs
  • Executors et backends (Local, Celery, Kubernetes)

Installation et configuration

  • Installation d'Airflow dans des environnements locaux et cloud
  • Configuration d'Airflow avec différents executors
  • Mise en place des bases de données métadonnées et des connexions

Navigation dans l'interface utilisateur et la CLI d'Airflow

  • Exploration de l'interface web d'Airflow
  • Surveillance des exécutions de DAG, des tâches et des journaux
  • Utilisation de la CLI d'Airflow pour l'administration

Rédaction et gestion des DAG

  • Création de DAG avec l'API TaskFlow
  • Utilisation des opérateurs, capteurs et hooks
  • Gestion des dépendances et des intervalles de planification

Intégration d'Airflow avec les services de données et cloud

  • Connexion aux bases de données, API et files d'attente de messages
  • Exécution de pipelines ETL avec Airflow
  • Intégrations cloud : opérateurs AWS, GCP, Azure

Surveillance et observabilité

  • Journaux des tâches et surveillance en temps réel
  • Métriques avec Prometheus et Grafana
  • Alertes et notifications par e-mail ou Slack

Sécurisation d'Apache Airflow

  • Contrôle d'accès basé sur les rôles (RBAC)
  • Authentification avec LDAP, OAuth et SSO
  • Gestion des secrets avec Vault et les magasins de secrets cloud

Mise à l'échelle d'Apache Airflow

  • Parallélisme, concurrence et files d'attente de tâches
  • Utilisation de CeleryExecutor et KubernetesExecutor
  • Déploiement d'Airflow sur Kubernetes avec Helm

Bonnes pratiques pour la production

  • Contrôle de version et CI/CD pour les DAG
  • Tests et débogage des DAG
  • Maintenance de la fiabilité et des performances à grande échelle

Résolution de problèmes et optimisation

  • Débogage des DAG et tâches échoués
  • Optimisation des performances des DAG
  • Pièges courants et comment les éviter

Résumé et prochaines étapes

Pré requis

  • Expérience en programmation Python
  • Familiarité avec les concepts d'ingénierie des données ou DevOps
  • Compréhension de l'ETL ou de l'orchestration de workflows

Public cible

  • Data scientists
  • Data engineers
  • Ingénieurs DevOps et infrastructure
  • Développeurs logiciels
 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (7)

Cours à venir

Catégories Similaires