Plan du cours
PySpark & Machine Learning
Module 1 : Fondamentaux du Big Data & Spark
- Aperçu de l'écosystème Big Data et du rôle de Spark dans les plateformes de données modernes
- Compréhension de l'architecture de Spark : driver, exécutants, gestionnaire de cluster, évaluation paresseuse, DAG et planification de l'exécution
- Différences entre les API RDD et DataFrame et quand utiliser chacune des approches
- Création et configuration de SparkSession et compréhension des fondamentaux de la configuration d'application
Module 2 : DataFrames PySpark
- Lecture et écriture de données provenant de sources et formats enterprise (CSV, JSON, Parquet, Delta)
- Manipulation des DataFrames PySpark : transformations, actions, expressions de colonnes, filtrage, jointures et agrégations
- Mise en œuvre d'opérations avancées telles que les fonctions fenêtrées, la manipulation de timestamps et le travail avec des données imbriquées
- Application de contrôles de qualité des données et rédaction de code PySpark réutilisable et maintenable
Module 3 : Traitement efficace de grands jeux de données
- Compréhension des fondamentaux de la performance : stratégies de partitionnement, comportement du shuffle, mise en cache et persistance
- Utilisation de techniques d'optimisation incluant les jointures broadcast et l'analyse du plan d'exécution
- Traitement efficace de grands volumes de données et bonnes pratiques pour des flux de données évolutifs
- Compréhension de l'évolution du schéma et des formats de stockage modernes utilisés dans les environnements d'entreprise
Module 4 : Ingénierie des caractéristiques à grande échelle
- Réalisation d'ingénierie des caractéristiques avec Spark MLlib : gestion des valeurs manquantes, encodage des variables catégorielles et mise à l'échelle des caractéristiques
- Conception d'étapes de prétraitement réutilisables et préparation des jeux de données pour les pipelines de Machine Learning
- Introduction à la sélection des caractéristiques et gestion des jeux de données déséquilibrés
Module 5 : Machine Learning avec Spark MLlib
- Compréhension de l'architecture de MLlib et du modèle Estimator/Transformer
- Entraînement de modèles de régression et de classification à grande échelle (Régression Linéaire, Régression Logistique, Arbres de décision, Forêts Aléatoires)
- Comparaison des modèles et interprétation des résultats dans des workflows de Machine Learning distribués
Module 6 : Pipelines ML de bout en bout
- Création de pipelines de Machine Learning complets combinant prétraitement, ingénierie des caractéristiques et modélisation
- Application des stratégies de division des données en ensembles d'entraînement, de validation et de test
- Réalisation de validation croisée et de réglage d'hyperparamètres en utilisant la recherche par grille et la recherche aléatoire
- Structuration d'expériences de Machine Learning reproductibles
Module 7 : Évaluation des modèles & Prise de décision pratique en ML
- Application des métriques d'évaluation appropriées pour les problèmes de régression et de classification
- Identification du surajustement et du sous-ajustement, et prise de décisions pratiques pour la sélection des modèles
- Interprétation de l'importance des caractéristiques et compréhension du comportement du modèle
Module 8 : Pratiques de production & Enterprise
- Persistance et chargement des modèles dans Spark
- Mise en œuvre de workflows d'inférence par lot sur de grands jeux de données
- Compréhension du cycle de vie du Machine Learning dans les environnements d'entreprise
- Introduction au versionnement, aux concepts de suivi des expériences et aux stratégies de test élémentaires
Résultat pratique
- Capacité à travailler de manière autonome avec PySpark
- Capacité à traiter efficacement de grands volumes de données
- Capacité à réaliser de l'ingénierie des caractéristiques à grande échelle
- Capacité à construire des pipelines de Machine Learning évolutifs
Pré requis
Les participants doivent posséder les connaissances suivantes :
Des bases en programmation Python, incluant l'utilisation de fonctions, de structures de données et de bibliothèques
Une compréhension fondamentale des concepts d'analyse de données tels que les jeux de données, les transformations et les agrégations
Des connaissances de base en SQL et en concepts de données relationnelles
Une compréhension introductive des concepts du Machine Learning, tels que les jeux de données d'entraînement, les caractéristiques (features) et les métriques d'évaluation
Une familiarité avec les environnements en ligne de commande et les pratiques élémentaires de développement logiciel est recommandée
Une expérience avec Pandas, NumPy ou des bibliothèques similaires de traitement de données est utile mais non obligatoire.
Nos clients témoignent (1)
J'ai aimé qu'il soit pratique. J'ai adoré appliquer les connaissances théoriques avec des exemples pratiques.
Aurelia-Adriana - Allianz Services Romania
Formation - Python and Spark for Big Data (PySpark)
Traduction automatique