Formation SMACK Stack pour la Science des Données
SMACK est une collection de logiciels de plateforme de données, à savoir Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra et Apache Kafka. En utilisant la pile SMACK, les utilisateurs peuvent créer et faire évoluer des plateformes de traitement de données.
Cette formation dirigée par un instructeur (en ligne ou sur site) est destinée aux scientifiques des données qui souhaitent utiliser la pile SMACK pour construire des plateformes de traitement de données pour les solutions Big Data.
À la fin de cette formation, les participants seront en mesure de :
- Mettre en œuvre une architecture de pipeline de données pour le traitement des big data.
- Développer une infrastructure de cluster avec Apache Mesos et Docker.
- Analyser les données avec Spark et Scala.
- Gérer les données non structurées avec Apache Cassandra.
Format du cours
- Conférence interactive et discussion.
- Nombreux exercices et pratiques.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.
Plan du cours
Introduction
Vue d'ensemble de la pile SMACK
- Qu'est-ce qu'Apache Spark ? Caractéristiques d'Apache Spark
- Qu'est-ce qu'Apache Mesos ? Caractéristiques d'Apache Mesos
- Qu'est-ce qu'Apache Akka ? Caractéristiques d'Apache Akka
- Qu'est-ce qu'Apache Cassandra ? Caractéristiques d'Apache Cassandra
- Qu'est-ce qu'Apache Kafka ? Caractéristiques d'Apache Kafka
Langage Scala
- Syntaxe et structure de Scala
- Structures de contrôle en Scala
Préparation de l'environnement de développement
- Installation et configuration de la pile SMACK
- Installation et configuration de Docker
Apache Akka
- Utilisation des acteurs
Apache Cassandra
- Création d'une base de données pour les opérations en lecture
- Travail avec les sauvegardes et la récupération
Connecteurs
- Création d'un flux
- Construction d'une application Akka
- Stockage des données avec Cassandra
- Examen des connecteurs
Apache Kafka
- Travail avec les clusters
- Création, publication et consommation de messages
Apache Mesos
- Allocation des ressources
- Exécution de clusters
- Travail avec Apache Aurora et Docker
- Exécution de services et de tâches
- Déploiement de Spark, Cassandra et Kafka sur Mesos
Apache Spark
- Gestion des flux de données
- Travail avec les RDDs et les dataframes
- Analyse des données
Dépannage
- Gestion des échecs de services et des erreurs
Résumé et conclusion
Pré requis
- Une compréhension des systèmes de traitement de données
Audience
- Data Scientists
Les formations ouvertes requièrent plus de 3 participants.
Formation SMACK Stack pour la Science des Données - Réservation
Formation SMACK Stack pour la Science des Données - Enquiry
SMACK Stack pour la Science des Données - Demande d'informations consulting
Demande d'informations consulting
Nos clients témoignent (1)
très interactif...
Richard Langford
Formation - SMACK Stack for Data Science
Traduction automatique
Cours à venir
Cours Similaires
Anaconda Ecosystem pour les Scientifiques des Données
14 HeuresCette formation en direct avec instructeur en Belgique (en ligne ou sur site) s'adresse aux data scientists qui souhaitent utiliser l'écosystème Anaconda pour capturer, gérer et déployer des packages et des workflows d'analyse de données dans une plateforme unique.
A la fin de cette formation, les participants seront capables de :
- Installer et configurer les composants et les bibliothèques Anaconda.
- Comprendre les concepts de base, les fonctionnalités et les avantages de Anaconda.
- Gérer les paquets, les environnements et les canaux à l'aide du Anaconda Navigator.
- Utiliser Conda, R et les paquets Python pour la science des données et l'apprentissage automatique.
- Connaître des cas d'utilisation pratiques et des techniques pour gérer des environnements de données multiples.
Fournisseurs de services pour Telecom et les fournisseurs de services Communication
35 HeuresRésumé
Les fournisseurs de services (CSP) sont confrontés à une pression pour réduire les coûts et maximiser le revenu moyen par utilisateur (ARPU), tout en assurant une excellente expérience client, mais les volumes de données continuent de croître. Le trafic mondial de données mobiles va croître à un taux de croissance annuel combiné (CAGR) de 78 % à 2016, atteignant 10,8 exabytes par mois.
Pendant ce temps, les CSP génèrent de grands volumes de données, y compris les enregistrements détaillés des appels (CDR), les données réseau et les données client. Les entreprises qui exploitent pleinement ces données gagnent une limite concurrentielle. Selon une récente enquête de The Economist Intelligence Unit, les entreprises qui utilisent la prise de décision basée sur les données bénéficient d’une augmentation de productivité de 5-6%. Cependant, 53% des entreprises n’utilisent que la moitié de leurs données précieuses, et un quart des répondants a noté que de vastes quantités de données utiles ne sont pas utilisées. Les volumes de données sont si élevés que l'analyse manuelle est impossible, et la plupart des systèmes logiciels héréditaires ne peuvent pas se maintenir, ce qui entraîne que les données précieuses sont déchirées ou ignorées.
Avec Big Data & Analytics’ logiciel de big data à grande vitesse, scalable, les CSPs peuvent miner tous leurs données pour une meilleure prise de décision en moins de temps. Différents Big Data produits et techniques fournissent une plate-forme logicielle end-to-end pour la collecte, la préparation, l'analyse et la présentation d'informations sur les grandes données. Les domaines d'application comprennent la surveillance des performances du réseau, la détection de fraudes, la détection du client et l'analyse du risque de crédit. Big Data & Scale des produits d'analyse pour gérer des terabytes de données mais la mise en œuvre de ces outils nécessite un nouveau type de système de base de données basé sur le cloud comme Hadoop ou un processeur de calcul parallèle à grande échelle (KPU, etc.)
Ce cours travaille sur Big Data BI pour Telco couvre toutes les nouvelles zones émergentes dans lesquelles les CSP investissent pour augmenter la productivité et ouvrir de nouveaux flux de revenus d'affaires. Le cours fournira une vue complète de 360 degrés sur Big Data BI à Telco afin que les décideurs et les gestionnaires puissent avoir un aperçu très large et complet des possibilités de Big Data BI à Telco pour la productivité et l'amélioration des revenus.
Objectifs du cours
L'objectif principal du cours est d'introduire de nouvelles Big Data techniques d'intelligence d'affaires dans 4 secteurs de Telecom Business (Marketing/Ventes, Opération réseau, Opération financière et Relation client Management). Les étudiants seront introduits à suivre :
- Introduction à Big Data-ce qui est 4Vs (volume, vitesse, variété et veracité) dans Big Data- Génération, extraction et gestion de la perspective Telco
- Comment Big Data l'analytique diffère de l'analytique des données d'héritage
- La justification intérieure de la Big Data -Telco perspective
- Introduction à Hadoop Écosystème- familiarité avec tous les Hadoop outils tels que Hive, Pig, SPARC – quand et comment ils sont utilisés pour résoudre Big Data problème
- Comment Big Data est extrait pour l'analyse pour les outils d'analyse-comment Business Analysis’s peuvent réduire leurs points de douleur de collecte et d'analyse des données grâce à une approche intégrée Hadoop de tableau de bord
- Introduction fondamentale de l'analyse Insight, de l'analyse de la visualisation et de l'analyse prédictive pour Telco
- L'analyse client Churn et Big Data-comment Big Data peut réduire l'analyse client Churn et l'insatisfaction des clients dans les études de cas Telco
- Analyse d'échecs réseau et d'échecs de service à partir des méta-data réseau et IPDR
- Analyse financière-fraude, fraude et estimation du ROI à partir des ventes et des données opérationnelles
- Problème d'acquisition client-Marketing cible, segmentation client et cross-sales à partir des données de vente
- Introduction et résumé de tous Big Data produits d'analyse et où ils s'adaptent à l'espace d'analyse Telco
- Conclusion-comment prendre une approche étape par étape pour introduire Big Data Business Intelligence dans votre organisation
Audience cible
- Opération réseau, gestionnaires financiers, gestionnaires CRM et gestionnaires informatiques de premier plan dans le bureau du CIO de Telco.
- Business Analystes à Telco
- Gestionnaire de bureau / analystes
- gestionnaires opérationnels
- Général QA
Une introduction pratique à la science des données
35 HeuresLes participants qui suivent cette formation acquièrent une compréhension pratique et concrète du Data Science et des technologies, méthodologies et outils qui y sont associés.
Les participants auront l'occasion de mettre en pratique ces connaissances par le biais d'exercices pratiques. L'interaction en groupe et le retour d'information de l'instructeur constituent une composante importante du cours.
Le cours commence par une introduction aux concepts élémentaires de Data Science, puis progresse vers les outils et méthodologies utilisés dans Data Science.
Public
- Développeurs
- Analystes techniques
- Consultants en informatique
Format du cours
- En partie conférence, en partie discussion, exercices et pratique intensive.
Remarque
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter.
Programme de Sciences des Données
245 HeuresL'explosion de l'information et des données dans le monde d'aujourd'hui est sans précédent, notre capacité à innover et à repousser les limites du possible croît plus rapidement que jamais. Le rôle de Data Scientist est aujourd’hui l’une des compétences les plus demandées dans l’industrie.
Nous offrons bien plus que l’apprentissage par la théorie ; nous fournissons des compétences pratiques et commercialisables qui comblent le fossé entre le monde universitaire et les exigences de l'industrie.
Ce programme de 7 semaines peut être adapté aux besoins spécifiques de votre secteur. Veuillez nous contacter pour plus d'informations ou visiter le site Web du Nobleprog Institute.
Public:
Ce programme s'adresse aux diplômés de troisième cycle ainsi qu'à toute personne possédant les compétences préalables requises qui seront déterminées par une évaluation et un entretien.
Livraison:
La prestation du cours sera un mélange de cours dirigés par un instructeur en classe et dirigés par un instructeur en ligne ; généralement, la 1ère semaine sera « dirigée en classe », les semaines 2 à 6 « en classe virtuelle » et la semaine 7 sera de retour « dirigée en classe ».
Science des données pour l'analyse de big data
35 HeuresLes données volumineuses sont des ensembles de données si volumineux et complexes qu'un logiciel de traitement de données traditionnel ne permet pas de les traiter. Les défis du Big Data incluent la capture, le stockage, l'analyse, la recherche, le partage, le transfert, la visualisation, l'interrogation, la mise à jour et la confidentialité des informations.
Science des données essentielle pour les professionnels du Marketing/ventes
21 HeuresCe cours est destiné aux professionnels du marketing et des ventes qui souhaitent approfondir l'application de la data science dans le marketing et les ventes. Le cours couvre en détail différentes techniques de data science utilisées pour le "up-selling", le "cross-selling", la segmentation de marché, le branding et la valeur à vie du client (CLV).
Différence entre Marketing et Ventes - En quoi les ventes et le marketing sont-ils différents ?
Pour simplifier, on peut dire que les ventes se concentrent sur des individus ou de petits groupes. Le marketing, quant à lui, vise un groupe plus large ou le public en général. Le marketing inclut la recherche (identification des besoins du client), le développement de produits (création de produits innovants) et la promotion du produit (par le biais de publicités) pour créer une prise de conscience du produit parmi les consommateurs. Ainsi, le marketing signifie la génération de leads ou de prospects. Une fois que le produit est sur le marché, c'est au vendeur de persuader le client d'acheter le produit. Les ventes consistent à convertir les leads en achats et commandes, tandis que le marketing a des objectifs à long terme, alors que les ventes sont liées à des objectifs à court terme.
Jupyter pour les équipes de science des données
7 HeuresCette formation en direct (en ligne ou sur site) animée par un formateur introduit l'idée du développement collaboratif dans le domaine de la science des données et démontre comment utiliser Jupyter pour suivre et participer en équipe au "cycle de vie d'une idée computationnelle". Elle guide les participants à travers la création d'un projet de science des données basé sur l'écosystème Jupyter.
À la fin de cette formation, les participants seront capables de :
- Installer et configurer Jupyter, y compris la création et l'intégration d'un dépôt d'équipe sur Git.
- Utiliser des fonctionnalités de Jupyter telles que les extensions, les widgets interactifs, le mode multi-utilisateur et plus encore pour permettre une collaboration sur le projet.
- Créer, partager et organiser des carnets Jupyter avec les membres de l'équipe.
- Choisir entre Scala, Python, R, pour écrire et exécuter du code contre des systèmes de grandes données tels que Apache Spark, tout en passant par l'interface Jupyter.
Kaggle
14 HeuresCette formation en Belgique (en ligne ou sur site) est destinée aux data scientists et aux développeurs qui souhaitent apprendre et développer leur carrière dans Data Science en utilisant Kaggle.
A l'issue de cette formation, les participants seront capables de :
- S'informer sur la science des données et l'apprentissage automatique.
- Explorer l'analyse des données.
- En savoir plus sur Kaggle et son fonctionnement.
Fondamentaux de MATLAB, Sciences des Données et Génération de Rapports
35 HeuresDans la première partie de cette formation, nous couvrons les fondamentaux de MATLAB et sa fonction à la fois comme langage et comme plateforme. Cette discussion comprend une introduction à la syntaxe de MATLAB, aux tableaux et aux matrices, à la visualisation de données, au développement de scripts et aux principes orientés objet.
Dans la deuxième partie, nous montrons comment utiliser MATLAB pour l'exploration de données, l'apprentissage automatique et l'analyse prédictive. Pour donner aux participants une perspective claire et pratique de l'approche et de la puissance de MATLAB, nous établissons des comparaisons entre l'utilisation de MATLAB et l'utilisation d'autres outils tels que les tableurs, le C, C++ et Visual Basic.
Dans la troisième partie de la formation, les participants apprennent à rationaliser leur travail en automatisant le traitement des données et la génération de rapports.
Tout au long de la formation, les participants mettront en pratique les idées apprises au moyen d'exercices pratiques dans un environnement de laboratoire. À la fin de la formation, les participants auront une connaissance approfondie des capacités de MATLAB et seront en mesure de l'utiliser pour résoudre des problèmes réels de science des données ainsi que pour rationaliser leur travail grâce à l'automatisation.
Des évaluations seront effectuées tout au long du cours pour mesurer les progrès réalisés.
Format du cours
- Le cours comprend des exercices théoriques et pratiques, y compris des discussions de cas, l'inspection d'exemples de code, et la mise en œuvre pratique.
Remarque
- Les sessions pratiques seront basées sur des modèles de rapports de données préétablis. Si vous avez des besoins spécifiques, veuillez nous contacter pour convenir d'un arrangement.
Machine Learning pour Data Science avec Python
21 HeuresCette formation en direct, animée par un formateur (en ligne ou sur site) s'adresse aux analystes de données intermédiaires, développeurs ou futurs scientifiques des données qui souhaitent appliquer les techniques d'apprentissage automatique dans Python pour extraire des insights, faire des prédictions et automatiser les décisions basées sur les données.
À la fin de cette formation, les participants seront capables de :
- Comprendre et différencier les principaux paradigmes d'apprentissage automatique.
- Explorer les techniques de prétraitement des données et les métriques d'évaluation des modèles.
- Appliquer des algorithmes d'apprentissage automatique pour résoudre des problèmes de données du monde réel.
- Utiliser les bibliothèques Python et les carnets Jupyter pour le développement pratique.
- Construire des modèles pour la prédiction, la classification, la recommandation et le regroupement.
Accélération des Flux de Travail Python Pandas avec Modin
14 HeuresCette formation en direct avec instructeur dans Belgique (en ligne ou sur site) est destinée aux scientifiques des données et aux développeurs qui souhaitent utiliser Modin pour construire et mettre en œuvre des calculs parallèles avec Pandas afin d'accélérer l'analyse des données.
A la fin de cette formation, les participants seront capables de :
- Mettre en place l'environnement nécessaire pour commencer à développer des flux de travail Pandas à l'échelle avec Modin.
- Comprendre les caractéristiques, l'architecture et les avantages de Modin.
- Connaître les différences entre Modin, Dask et Ray.
- Effectuer des opérations Pandas plus rapidement avec Modin.
- Mettre en œuvre l'ensemble de l'API et des fonctions Pandas.
Programmation Python pour la Finance
35 HeuresPython est un langage de programmation qui a acquis une énorme popularité dans le secteur financier. Adopté par les plus grandes banques d’investissement et les hedge funds, il est utilisé pour créer un large éventail d’applications financières allant des programmes de négociation centraux aux systèmes de gestion des risques.
Dans cette formation en direct animée par un instructeur, les participants apprendront à utiliser Python pour développer des applications pratiques permettant de résoudre un certain nombre de problèmes spécifiques liés à la finance.
À la fin de cette formation, les participants seront en mesure de:
- Comprendre les fondamentaux du langage de programmation Python
- Télécharger, installer et maintenir les meilleurs outils de développement pour créer des applications financières en Python
- Sélectionner et utiliser les packages et techniques de programmation Python les plus appropriés pour organiser, visualiser et analyser les données financières provenant de diverses sources (CSV, Excel, bases de données, web, etc.)
- Développer des applications qui résolvent des problèmes liés à l’allocation d’actifs, à l’analyse des risques, à la performance des investissements et plus encore
- Déboguer, intégrer, déployer et optimiser une application Python
Public
- Développeurs
- Analystes
- Quants
Format du cours
- Partie magistrale, partie discussion, exercices et pratique intensive
Remarque
- Cette formation vise à fournir des solutions à certains des principaux problèmes rencontrés par les professionnels de la finance. Cependant, si vous avez un sujet, un outil ou une technique particulier(ère) que vous souhaitez approfondir ou élaborer, n’hésitez pas à nous contacter pour en discuter.
Science des Données avec GPU et NVIDIA RAPIDS
14 HeuresCette formation dirigée par un instructeur (en ligne ou sur site) est destinée aux scientifiques des données et développeurs qui souhaitent utiliser RAPIDS pour créer des pipelines de données, des workflows et des visualisations accélérés par GPU, en appliquant des algorithmes d'apprentissage automatique tels que XGBoost, cuML, etc.
À la fin de cette formation, les participants seront capables de :
- Configurer l'environnement de développement nécessaire pour créer des modèles de données avec NVIDIA RAPIDS.
- Comprendre les fonctionnalités, les composants et les avantages de RAPIDS.
- Tirer parti des GPU pour accélérer les pipelines de données et d'analyse de bout en bout.
- Implémenter la préparation de données et l'ETL accélérés par GPU avec cuDF et Apache Arrow.
- Apprendre à effectuer des tâches d'apprentissage automatique avec les algorithmes XGBoost et cuML.
- Créer des visualisations de données et exécuter des analyses graphiques avec cuXfilter et cuGraph.
Python et Spark pour les Grandes Données (PySpark)
21 HeuresAu cours de cette formation en direct avec instructeur à Belgique, les participants apprendront à utiliser Python et Spark ensemble pour analyser les données volumineuses (big data) en travaillant sur des exercices pratiques.
A la fin de cette formation, les participants seront capables de :
- Apprendre à utiliser Spark avec Python pour analyser Big Data.
- Travailler sur des exercices qui imitent des cas réels.
- Utiliser différents outils et techniques pour l'analyse des big data en utilisant PySpark.
Stratio : Modules Rocket et Intelligence avec PySpark
14 HeuresStratio est une plateforme centrée sur les données qui intègre le big data, l'IA et la gouvernance dans une seule solution. Ses modules Rocket et Intelligence permettent une exploration rapide des données, leur transformation et des analyses avancées dans les environnements d’entreprise.
Cette formation dispensée par un formateur (en ligne ou sur site) s'adresse aux professionnels de niveau intermédiaire en données qui souhaitent utiliser efficacement les modules Rocket et Intelligence de Stratio avec PySpark, en se concentrant sur les structures de boucle, les fonctions définies par l'utilisateur et la logique des données avancée.
À la fin de cette formation, les participants pourront :
- Naviguer et travailler au sein de la plateforme Stratio en utilisant les modules Rocket et Intelligence.
- Appliquer PySpark dans le contexte d'ingestion, de transformation et d'analyse des données.
- Utiliser des boucles et une logique conditionnelle pour contrôler les flux de travail des données et les tâches d'ingénierie des fonctionnalités.
- Créer et gérer des fonctions définies par l'utilisateur (UDFs) pour les opérations réutilisables des données dans PySpark.
Format de la Formation
- Cours interactif et discussion.
- De nombreuses exercices et pratiques.
- Implémentation pratique dans un environnement de laboratoire en direct.
Options de Personnalisation du Cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour en faire la demande.