Les formations Big Data

Les formations Big Data

Le terme BigData vise l'ensemble des solutions liées au stockage et au traitement d'un ensemble considérable de données. Les solutions BigData ont été initialement développées par Google, cependant, désormais, beaucoup d'implémentations open-source sont disponibles, dont Apache Hadoop, Cassandra ou Cloudera Impala. Selon des rapports de Gartner, BigData est la prochaine étape au niveau des technologies de l'information, aprés le Cloud Computing et sera la nouvelle tendance pour les prochaine années.

Nos Clients témoignent

★★★★★
★★★★★

Plans de cours Big Data

Title
Duration
Overview
Title
Duration
Overview
14 hours
Overview
Objectif:

Apprendre à travailler avec SPSS au niveau de l'indépendance

Les destinataires:

Les analystes, les chercheurs, les scientifiques, les étudiants et tous ceux qui souhaitent acquérir la capacité d’utiliser le progiciel SPSS et d’apprendre les techniques d’exploration de données les plus courantes.
14 hours
Overview
Datameer est une plateforme de business intelligence et d'analyse basée sur Hadoop Il permet aux utilisateurs finaux d'accéder, d'explorer et de mettre en corrélation des données à grande échelle, structurées, semi-structurées et non structurées de manière simple Dans cette formation en ligne, les participants apprendront à utiliser Datameer pour surmonter la courbe d'apprentissage abrupte d'Hadoop à mesure qu'ils progressent dans la configuration et l'analyse d'une série de sources de données volumineuses À la fin de cette formation, les participants seront en mesure de: Créer, organiser et explorer de manière interactive un lac de données d'entreprise Accéder aux entrepôts de données de Business Intelligence, aux bases de données transactionnelles et aux autres magasins analytiques Utiliser une interface utilisateur de feuille de calcul pour concevoir des pipelines de traitement de données endtoend Accéder à des fonctions prédéfinies pour explorer des relations de données complexes Utilisez les assistants draganddrop pour visualiser les données et créer des tableaux de bord Utiliser des tableaux, des graphiques, des graphiques et des cartes pour analyser les résultats de la requête Public Analystes de données Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
35 hours
Overview
Les progrès technologiques et la quantité croissante d'informations transforment la façon dont les organismes d'application de la loi sont menés Les défis que pose le Big Data sont presque aussi décourageants que la promesse de Big Data Stocker des données efficacement est l'un de ces défis; l'analyser efficacement en est une autre Dans cette formation en ligne, les participants apprendront la manière d'aborder les technologies Big Data, évalueront leur impact sur les processus et politiques existants et mettront en œuvre ces technologies dans le but d'identifier les activités criminelles et de prévenir le crime Des études de cas provenant d'organismes d'application de la loi du monde entier seront examinées afin de mieux comprendre leurs approches, défis et résultats en matière d'adoption À la fin de cette formation, les participants seront en mesure de: Combinez la technologie Big Data avec des processus de collecte de données traditionnels pour reconstituer une histoire au cours d'une enquête Mettre en œuvre des solutions industrielles de stockage et de traitement de Big Data pour l'analyse de données Préparer une proposition pour l'adoption des outils et des processus les plus adéquats pour permettre une approche de l'enquête criminelle axée sur les données Public Spécialistes de l'application de la loi avec un bagage technique Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
16 hours
Overview
Pour répondre à la conformité des régulateurs, les fournisseurs de services de communication (CSP) peuvent exploiter Big Data Analytics qui non seulement les aide à respecter la conformité, mais dans le cadre de la même projet, ils peuvent augmenter la satisfaction du client et ainsi réduire le taux de désabonnement En fait depuis la conformité est liée à la qualité de service liée à un contrat, toute initiative visant à conformité, améliorera «l'avantage concurrentiel» des DSP Par conséquent, il est important que Les régulateurs devraient être en mesure de conseiller / orienter un ensemble de pratiques analytiques Big Data pour les CSP qui seront être mutuellement bénéfique entre les régulateurs et les DSP 2 jours de cours: 8 modules, 2 heures chacun = 16 heures .
28 hours
Overview
Un grand nombre de problèmes du monde réel peuvent être décrits en termes de graphiques Par exemple, le graphique Web, le graphique du réseau social, le graphique du réseau ferroviaire et le graphique du langage Ces graphiques ont tendance à être extrêmement volumineux; Leur traitement nécessite un ensemble spécialisé d'outils et de processus Ces outils et processus peuvent être appelés Graph Computing (également appelé Graph Analytics) Dans cette formation en ligne, les participants apprendront sur les offres technologiques et les approches de mise en œuvre pour le traitement des données graphiques L'objectif est d'identifier les objets du monde réel, leurs caractéristiques et relations, puis de modéliser ces relations et de les traiter comme des données en utilisant une approche de calcul graphique Nous commençons par un large aperçu et nous nous concentrons sur des outils spécifiques au fur et à mesure que nous progressons dans une série d'études de cas, d'exercices pratiques et de déploiements en direct À la fin de cette formation, les participants seront en mesure de: Comprendre comment les données graphiques sont persistantes et traversées Sélectionnez le meilleur framework pour une tâche donnée (des bases de données graphiques aux frameworks de traitement par lots) Implémenter Hadoop, Spark, GraphX ​​et Pregel pour effectuer le calcul graphique sur plusieurs machines en parallèle Voir les problèmes de big data de realworld en termes de graphiques, de processus et de traversées Public Développeurs Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
21 hours
Overview
L'analyse prédictive est le processus d'utilisation de l'analyse de données pour faire des prédictions sur le futur Ce processus utilise des données ainsi que des techniques d'exploration de données, de statistiques et d'apprentissage automatique pour créer un modèle prédictif de prévision d'événements futurs Dans cette formation en ligne, les participants apprendront à utiliser Matlab pour créer des modèles prédictifs et les appliquer à de grands ensembles de données pour prédire les événements futurs en fonction des données À la fin de cette formation, les participants seront en mesure de: Créer des modèles prédictifs pour analyser les modèles dans les données historiques et transactionnelles Utiliser la modélisation prédictive pour identifier les risques et les opportunités Construire des modèles mathématiques qui capturent les tendances importantes Utiliser les données des appareils et des systèmes d'entreprise pour réduire le gaspillage, gagner du temps ou réduire les coûts Public Développeurs Ingénieurs Les experts du domaine Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
7 hours
Overview
Apache NiFi (Hortonworks DataFlow) est une plate-forme de traitement des données intégrée en temps réel et simple qui permet le déplacement, le suivi et l’automatisation des données entre les systèmes. Il est écrit en utilisant la programmation basée sur le flux et fournit une interface utilisateur basée sur le Web pour gérer les flux de données en temps réel.

dans cette formation en direct, dirigée par un instructeur, les participants apprendront les principes fondamentaux de la programmation basée sur les flux, car ils développent un certain nombre d’extensions de démo, de composants et de processeurs à l’aide d’Apache NiFi.

à la fin de cette formation, les participants pourront:

- comprendre les concepts d’architecture et de flux de données de NiFi & #39; s.
- développez des extensions à l’aide de NiFi et d’API tierces.
- Custom développent leur propre processeur Apache Nifi.
- ingest et traitez des données en temps réel à partir de formats de fichiers et de sources de données disparates et rares.

format du cours

- conférence interactive et discussion.
- beaucoup d’exercices et de la pratique.
implémentation de - Hands-on dans un environnement Live-Lab.

cours options de personnalisation

- pour demander une formation personnalisée pour ce cours, s’il vous plaît nous contacter pour organiser.
21 hours
Overview
Apache NiFi (Hortonworks DataFlow) est une plate-forme de traitement de données et de logistique de données intégrée en temps réel qui permet le déplacement, le suivi et l'automatisation des données entre les systèmes Il est écrit en utilisant la programmation basée sur les flux et fournit une interface utilisateur basée sur le Web pour gérer les flux de données en temps réel Dans cette formation en ligne, les participants apprendront comment déployer et gérer Apache NiFi dans un environnement de laboratoire en direct À la fin de cette formation, les participants seront en mesure de: Installez et configurez Apachi NiFi Source, transformer et gérer les données à partir de sources de données dispersées et disparates, y compris des bases de données et des lacs de données volumineuses Automatiser les flux de données Activer l'analyse en continu Appliquer différentes approches pour l'ingestion de données Transformez les Big Data et les informations sur les entreprises Public Administrateurs système Les ingénieurs de données Développeurs DevOps Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
14 hours
Overview
Apache SolrCloud est un moteur de traitement de données distribué qui facilite la recherche et l'indexation de fichiers sur un réseau distribué Dans cette formation en ligne, les participants apprendront comment configurer une instance SolrCloud sur Amazon AWS À la fin de cette formation, les participants seront en mesure de: Comprendre les fonctionnalités de SolCloud et comment elles se comparent à celles des clusters masterslave conventionnels Configurer un cluster centralisé SolCloud Automatisez les processus tels que la communication avec les partitions, l'ajout de documents aux partitions, etc Utilisez Zookeeper conjointement avec SolrCloud pour automatiser davantage les processus Utiliser l'interface pour gérer les rapports d'erreurs Équilibrer la charge d'une installation SolrCloud Configurer SolrCloud pour un traitement continu et un basculement Public Développeurs Solr Chefs de projet Administrateurs système Analystes de recherche Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
28 hours
Overview
La modélisation du coffre-fort de données est une technique de modélisation de base de données qui fournit un stockage historique à long terme des données provenant de plusieurs sources Un coffre de données stocke une seule version des faits, ou "toutes les données, tout le temps" Sa conception flexible, évolutive, cohérente et adaptable englobe les meilleurs aspects de la 3ème forme normale (3NF) et du schéma en étoile Dans cette formation en ligne, les participants apprendront comment créer un coffre-fort de données À la fin de cette formation, les participants seront en mesure de: Comprendre les concepts d'architecture et de conception derrière Data Vault 20, et son interaction avec Big Data, NoSQL et AI Utiliser des techniques de stockage de données pour activer l'audit, le suivi et l'inspection des données historiques dans un entrepôt de données Développer un processus ETL (Extract, Transform, Load) cohérent et reproductible Construire et déployer des entrepôts hautement évolutifs et reproductibles Public Modélisateurs de données Spécialiste de l'entreposage de données Spécialistes de la Business Intelligence Les ingénieurs de données Administrateurs de base de données Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
14 hours
Overview
Tigon est un framework de traitement de flux opensource, temps réel, lowlatency, highthroughput, native natif, qui se trouve au-dessus de HDFS et de HBase pour la persistance Les applications Tigon traitent des cas d'utilisation tels que la détection et l'analyse des intrusions sur le réseau, l'analyse des marchés des médias sociaux, l'analyse de l'emplacement et les recommandations en temps réel aux utilisateurs Cette formation en ligne, introduite par un instructeur, présente l'approche de Tigon qui consiste à mélanger le traitement en temps réel et le traitement par lots tout en guidant les participants à travers la création d'un exemple d'application À la fin de cette formation, les participants seront en mesure de: Créez de puissantes applications de traitement de flux pour gérer de gros volumes de données Traiter des sources de flux telles que Twitter et Webserver Logs Utilisez Tigon pour joindre, filtrer et agréger rapidement des flux Public Développeurs Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
28 hours
Overview
Hadoop est un framework de traitement Big Data populaire Python est un langage de programmation de haut niveau connu pour sa syntaxe claire et sa lisibilité Dans cette formation en ligne, les participants apprendront à travailler avec Hadoop, MapReduce, Pig et Spark à l'aide de Python, tout en parcourant plusieurs exemples et cas d'utilisation À la fin de cette formation, les participants seront en mesure de: Comprendre les concepts de base de Hadoop, MapReduce, Pig et Spark Utilisez Python avec le système de fichiers distribués Hadoop (HDFS), MapReduce, Pig et Spark Utiliser Snakebite pour accéder par programme à HDFS dans Python Utilisez mrjob pour écrire des jobs MapReduce dans Python Écrire des programmes Spark avec Python Étendre les fonctionnalités de pig en utilisant les UDF Python Gérer les jobs MapReduce et les scripts Pig en utilisant Luigi Public Développeurs Professionnels de l'informatique Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
14 hours
Overview
Apache Ignite est une plate-forme informatique en mémoire qui se trouve entre l’application et la couche de données pour améliorer la vitesse, l’échelle et la disponibilité.

dans cette formation en direct, dirigée par un instructeur, les participants apprendront les principes derrière le stockage en mémoire persistant et pur à mesure qu’ils traversent la création d’un exemple de projet de calcul en mémoire.

à la fin de cette formation, les participants pourront:

- Utilisez Ignite pour la persistance en mémoire, sur le disque ainsi qu’une base de données en mémoire purement distribuée.
- atteindre la persistance sans synchroniser les données à une base de données relationnelle.
- Utilisez Ignite pour exécuter SQL et les jointures distribuées.
- améliorer les performances en déplaçant les données plus près de la CPU, en utilisant la RAM comme un stockage.
- Spread définit des ensembles de données sur un cluster pour obtenir une évolutivité horizontale.
- intégrez Ignite avec les processeurs RDBMS, NoSQL, Hadoop et machine learning.

format du cours

- conférence interactive et discussion.
- beaucoup d’exercices et de la pratique.
implémentation de - Hands-on dans un environnement Live-Lab.

cours options de personnalisation

- pour demander une formation personnalisée pour ce cours, s’il vous plaît nous contacter pour organiser.
14 hours
Overview
Vespa est un moteur de traitement de données et de traitement de données opensource créé par Yahoo Il est utilisé pour répondre aux requêtes des utilisateurs, faire des recommandations et fournir un contenu personnalisé et des publicités en temps réel Cette formation en ligne, instruite, introduit les défis de la diffusion de données à grande échelle et guide les participants à travers la création d'une application capable de calculer les réponses aux demandes des utilisateurs, sur de grands ensembles de données en temps réel À la fin de cette formation, les participants seront en mesure de: Utilisez Vespa pour calculer rapidement les données (stocker, rechercher, classer, organiser) au moment du service pendant qu'un utilisateur attend Implémenter Vespa dans des applications existantes impliquant la recherche de fonctionnalités, les recommandations et la personnalisation Intégrez et déployez Vespa avec les systèmes Big Data existants tels que Hadoop et Storm Public Développeurs Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
21 hours
Overview
Apache Apex est une plate-forme YARNnative qui unifie le traitement des flux et des lots Il traite les données importantes de manière évolutive, performante, tolérante, dynamique, distribuée et facilement exploitable Cette formation en ligne, en mode instructeur, présente l'architecture de traitement de flux unifié d'Apache Apex et guide les participants à travers la création d'une application distribuée utilisant Apex sur Hadoop À la fin de cette formation, les participants seront en mesure de: Comprendre les concepts de pipeline de traitement de données tels que les connecteurs pour les sources et les puits, les transformations de données communes, etc Construire, dimensionner et optimiser une application Apex Traiter les flux de données en temps réel de manière fiable et avec une latence minimale Utilisez Apex Core et la bibliothèque Apex Malhar pour accélérer le développement d'applications Utiliser l'API Apex pour écrire et réutiliser le code Java existant Intégrer Apex dans d'autres applications en tant que moteur de traitement Régler, tester et mettre à l'échelle les applications Apex Public Développeurs Architectes d'entreprise Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
7 hours
Overview
Alexio est un système de stockage distribué virtuel opensource qui unifie les systèmes de stockage disparates et permet aux applications d'interagir avec les données à la vitesse de la mémoire Il est utilisé par des sociétés telles que Intel, Baidu et Alibaba Dans cette formation en ligne, les participants apprendront à utiliser Alexio pour rapprocher différents cadres de calcul avec des systèmes de stockage et gérer efficacement des données à l'échelle de plusieurs octets au fur et à mesure de la création d'une application avec Alluxio À la fin de cette formation, les participants seront en mesure de: Développer une application avec Alluxio Connectez des systèmes et applications Big Data tout en préservant un espace de nom Extraction efficace de la valeur de Big Data dans n'importe quel format de stockage Améliorer les performances de la charge de travail Déployer et gérer Alluxio autonome ou en cluster Public Data scientist Développeur Administrateur du système Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
28 hours
Overview
Apache Flink est un framework opensource pour le traitement de données de flux et de lots évolutif Cette formation en ligne, introduite par un instructeur, présente les principes et les approches qui sous-tendent le traitement distribué des données par lots et par lots, et guide les participants à travers la création d'une application de streaming de données en temps réel À la fin de cette formation, les participants seront en mesure de: Mettre en place un environnement pour développer des applications d'analyse de données Intégrez, exécutez et surveillez les applications de streaming de données basées sur Flinkbased, faulttolerant Gérer des charges de travail diverses Effectuer des analyses avancées à l'aide de Flink ML Configurer un cluster Flink multinoeud Mesurer et optimiser les performances Intégrez Flink avec différents systèmes Big Data Comparez les capacités de Flink avec celles d'autres grands frameworks de traitement de données Public Développeurs Architectes Les ingénieurs de données Les professionnels de l'analyse Directeurs techniques Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
14 hours
Overview
Apache Samza est une architecture computationnelle asynchrone, nearrealtime, opensource pour le traitement de flux Il utilise Apache Kafka pour la messagerie et Apache Hadoop YARN pour la tolérance aux pannes, l'isolation du processeur, la sécurité et la gestion des ressources Cette formation en direct instruite introduit les principes qui sous-tendent les systèmes de messagerie et le traitement des flux distribués, tout en guidant les participants à travers la création d'un exemple de projet Samzabased et d'exécution de tâches À la fin de cette formation, les participants seront en mesure de: Utilisez Samza pour simplifier le code nécessaire pour produire et consommer des messages Découpler la gestion des messages d'une application Utilisez Samza pour implémenter le calcul asynchrone nearrealtime Utilisez le traitement de flux pour fournir un plus haut niveau d'abstraction sur les systèmes de messagerie Public Développeurs Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
14 hours
Overview
Apache Zeppelin est un bloc-notes basé sur le Web pour la capture, l'exploration, la visualisation et le partage de données basées sur Hadoop et Spark Cette formation en ligne, introduite en classe, présente les concepts de l'analyse interactive des données et guide les participants à travers le déploiement et l'utilisation de Zeppelin dans un environnement à utilisateur unique ou multi-utilisateur À la fin de cette formation, les participants seront en mesure de: Installer et configurer Zeppelin Développer, organiser, exécuter et partager des données dans une interface basée sur un navigateur Visualisez les résultats sans faire référence à la ligne de commande ou aux détails du cluster Exécuter et collaborer sur de longs workflows Travailler avec un certain nombre de plugin language / dataprocessingbackends, tels que Scala (avec Apache Spark), Python (avec Apache Spark), SQL Spark, JDBC, Markdown et Shell Intégrez Zeppelin avec Spark, Flink et Map Reduce Instances multi-utilisateurs sécurisées de Zeppelin avec Apache Shiro Public Les ingénieurs de données Analystes de données Les scientifiques de données Les développeurs de logiciels Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
14 hours
Overview
Magellan est un moteur d'exécution distribuée opensource pour l'analyse géospatiale sur Big Data Implémenté au-dessus d'Apache Spark, il étend Spark SQL et fournit une abstraction relationnelle pour l'analyse géospatiale Cette formation en ligne, introduite en classe, présente les concepts et les approches pour la mise en œuvre de l'analyse géospaciale et guide les participants à travers la création d'une application d'analyse prédictive à l'aide de Magellan sur Spark À la fin de cette formation, les participants seront en mesure de: Interrogez, analysez et joignez efficacement les ensembles de données géospatiales à l'échelle Implémenter des données géospatiales dans les applications de business intelligence et d'analyse prédictive Utiliser le contexte spatial pour étendre les capacités des appareils mobiles, des capteurs, des journaux et des accessoires connectés Public Les développeurs d'applications Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
21 hours
Overview
Hortonworks Data Platform est une plate-forme de support Apache Hadoop opensource qui fournit une base stable pour le développement de solutions Big Data sur l'écosystème Apache Hadoop Cette formation en direct instruit présente Hortonworks et les participants à la marche à travers le déploiement de la solution Spark + Hadoop À la fin de cette formation, les participants seront en mesure de: Utilisez Hortonworks pour exécuter Hadoop de manière fiable à grande échelle Unifiez les capacités de sécurité, de gouvernance et d'opérations de Hadoop grâce aux flux de travail analytiques agiles de Spark Utiliser Hortonworks pour étudier, valider, certifier et supporter chacun des composants d'un projet Spark Traitez différents types de données, notamment les données structurées, non structurées, inmotion et atrest Public Les administrateurs Hadoop Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
21 hours
Overview
Python est un langage de programmation de haut niveau connu pour sa syntaxe claire et sa lisibilité Spark est un moteur de traitement de données utilisé dans l'interrogation, l'analyse et la transformation de Big Data PySpark permet aux utilisateurs d'interfacer Spark avec Python Dans cette formation en ligne, les participants apprendront à utiliser Python et Spark ensemble pour analyser les données volumineuses lorsqu'ils travaillent sur des exercices handson À la fin de cette formation, les participants seront en mesure de: Apprenez à utiliser Spark avec Python pour analyser les données volumineuses Travailler sur des exercices qui imitent les circonstances du monde réel Utilisez différents outils et techniques pour l'analyse de données volumineuses à l'aide de PySpark Public Développeurs Professionnels de l'informatique Data Scientists Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
28 hours
Overview
MemSQL est un système de gestion de bases de données SQL distribué, inmémoire, pour le cloud et les applications C'est un entrepôt de données en temps réel qui fournit immédiatement des informations à partir de données en direct et historiques Dans cette formation en ligne, les participants apprendront l'essentiel de MemSQL pour le développement et l'administration À la fin de cette formation, les participants seront en mesure de: Comprendre les concepts clés et les caractéristiques de MemSQL Installer, concevoir, maintenir et utiliser MemSQL Optimiser les schémas dans MemSQL Améliorer les requêtes dans MemSQL Performances de référence dans MemSQL Construire des applications de données en temps réel en utilisant MemSQL Public Développeurs Administrateurs Ingénieurs d'opération Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
28 hours
Overview
Talend Open Studio pour l'intégration de données est un produit d'intégration de données opensource utilisé pour combiner, convertir et mettre à jour des données dans divers endroits d'une entreprise Dans cette formation en ligne, les participants apprendront comment utiliser l'outil Talend ETL pour effectuer la transformation des données, l'extraction des données et la connectivité avec Hadoop, Hive et Pig À la fin de cette formation, les participants pourront Expliquer les concepts derrière ETL (Extract, Transform, Load) et la propagation Définir des méthodes ETL et des outils ETL pour se connecter à Hadoop Amassez, récupérez, digérez, consommez, transformez et façonnez efficacement les données volumineuses en fonction des exigences métier Téléchargement et extraction de grands enregistrements à partir des bases de données Hadoop (facultatif), Hive (facultatif) et NoSQL Public Professionnels de l'intelligence d'affaires Chefs de projet Professionnels Développeurs SQL Développeurs ETL Architectes de solutions Architectes de données Professionnels de l'entreposage de données Administrateurs système et intégrateurs Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson Remarque Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser .
7 hours
Overview
Spark SQL est le module d'Apache Spark pour travailler avec des données structurées et non structurées Spark SQL fournit des informations sur la structure des données ainsi que sur le calcul en cours Cette information peut être utilisée pour effectuer des optimisations Deux utilisations courantes de Spark SQL sont: exécuter des requêtes SQL lire les données d'une installation Hive existante Dans le cadre de cette formation en ligne (sur site ou à distance), les participants apprendront à analyser différents types d'ensembles de données à l'aide de Spark SQL À la fin de cette formation, les participants seront en mesure de: Installez et configurez Spark SQL Effectuez l'analyse des données à l'aide de Spark SQL Interrogez les ensembles de données dans différents formats Visualisez les données et les résultats de la requête Public Analystes de données Les scientifiques de données Les ingénieurs de données Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson Remarques Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser .
14 hours
Overview
cette formation dirigée par un instructeur, en direct (sur site ou à distance) s'adresse aux analystes de données et aux scientifiques de données qui souhaitent implémenter des techniques d'analyse de données plus avancées pour l'exploration de données à l'aide de Python.

à la fin de cette formation, les participants pourront:

- comprendre les domaines importants de l'exploration de données, y compris l'exploration des règles d'association, l'analyse du sentiment textuel, la synthèse automatique des textes et la détection des anomalies de données.
- comparez et implémentez diverses stratégies pour résoudre des problèmes réels d'exploration de données.
- comprendre et interpréter les résultats.

format du cours

- conférence interactive et discussion.
- beaucoup d'exercices et de la pratique.
implémentation de - Hands-on dans un environnement Live-Lab.

cours options de personnalisation

- pour demander une formation personnalisée pour ce cours, s'il vous plaît nous contacter pour organiser.
21 hours
Overview
Apache Spark's learning curve is slowly increasing at the begining, it needs a lot of effort to get the first return. This course aims to jump through the first tough part. After taking this course the participants will understand the basics of Apache Spark , they will clearly differentiate RDD from DataFrame, they will learn Python and Scala API, they will understand executors and tasks, etc. Also following the best practices, this course strongly focuses on cloud deployment, Databricks and AWS. The students will also understand the differences between AWS EMR and AWS Glue, one of the lastest Spark service of AWS.

AUDIENCE:

Data Engineer, DevOps, Data Scientist
21 hours
Overview
L'analyse des données volumineuses implique le processus consistant à examiner de grandes quantités d'ensembles de données variés afin de découvrir des corrélations, des modèles cachés et d'autres informations utiles L'industrie de la santé a des quantités massives de données médicales et cliniques hétérogènes complexes L'application de l'analyse des données volumineuses aux données sur la santé présente un énorme potentiel pour obtenir des informations sur l'amélioration de la prestation des soins de santé Cependant, l'énormité de ces ensembles de données pose de grands défis dans les analyses et les applications pratiques à un environnement clinique Dans le cadre de cette formation en ligne (à distance), les participants apprendront à effectuer des analyses de données volumineuses en matière de santé au cours d'une série d'exercices pratiques À la fin de cette formation, les participants seront en mesure de: Installer et configurer des outils d'analyse de Big Data tels que Hadoop MapReduce et Spark Comprendre les caractéristiques des données médicales Appliquer des techniques de big data pour traiter les données médicales Étudier les systèmes de données volumineuses et les algorithmes dans le contexte des applications de santé Public Développeurs Data Scientists Format du cours Partie conférence, discussion partielle, exercices et pratique lourde de handson Remarque Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser .
14 hours
Overview
Apache Arrow est un framework de traitement de données inmemory opensource Il est souvent utilisé avec d'autres outils de science des données pour accéder à des bases de données disparates à des fins d'analyse Il s'intègre bien avec d'autres technologies telles que les bases de données GPU, les bibliothèques et outils d'apprentissage automatique, les moteurs d'exécution et les frameworks de visualisation de données Dans le cadre de cette formation en ligne, les participants apprendront à intégrer Apache Arrow à divers frameworks Data Science pour accéder aux données provenant de sources de données disparates À la fin de cette formation, les participants seront en mesure de: Installer et configurer Apache Arrow dans un environnement en cluster distribué Utilisez Apache Arrow pour accéder aux données provenant de sources de données disparates Utilisez Apache Arrow pour contourner le besoin de construire et de maintenir des pipelines ETL complexes Analyser des données sur des sources de données disparates sans avoir à les consolider dans un référentiel centralisé Public Les scientifiques de données Les ingénieurs de données Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson Remarque Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser .
14 hours
Overview
Sqoop est un outil logiciel open source permettant de transférer des données entre Hadoop et des bases de données relationnelles ou des mainframes Il peut être utilisé pour importer des données à partir d'un système de gestion de base de données relationnelle (SGBDR) tel que MySQL ou Oracle ou un ordinateur central dans le système de fichiers distribués Hadoop (HDFS) Par la suite, les données peuvent être transformées dans Hadoop MapReduce, puis réexportées dans un SGBDR Dans cette formation en ligne, les participants apprendront comment utiliser Sqoop pour importer des données d'une base de données relationnelle traditionnelle vers un stockage Hadoop tel que HDFS ou Hive et vice versa À la fin de cette formation, les participants seront en mesure de: Installez et configurez Sqoop Importer des données de MySQL vers HDFS et Hive Importer des données de HDFS et Hive vers MySQL Public Administrateurs système Les ingénieurs de données Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson Remarque Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser .

Prochains cours Big Data

Weekend Big Data cours, Soir Big Data formation, Big Data stage d’entraînement, Big Data formateur à distance, Big Data formateur en ligne, Big Data formateur Online, Big Data cours en ligne, Big Data cours à distance, Big Data professeur à distance, Big Data visioconférence, Big Data stage d’entraînement intensif, Big Data formation accélérée, Big Data formation intensive, Formation inter Big Data, Formation intra Big Data, Formation intra Enteprise Big Data, Formation inter Entreprise Big Data, Weekend Big Data formation, Soir Big Data cours, Big Data coaching, Big Data entraînement, Big Data préparation, Big Data instructeur, Big Data professeur, Big Data formateur, Big Data stage de formation, Big Data cours, Big Data sur place, Big Data formations privées, Big Data formation privée, Big Data cours particulier, Big Data cours particuliers

Réduction spéciale

Newsletter offres spéciales

Nous respectons le caractère privé de votre adresse mail. Nous ne divulguerons ni ne vendrons votre adresse email à quiconque
Vous pouvez toujours modifier vos préférences ou vous désinscrire complètement.

Nos clients

is growing fast!

We are looking to expand our presence in Belgium!

As a Business Development Manager you will:

  • expand business in Belgium
  • recruit local talent (sales, agents, trainers, consultants)
  • recruit local trainers and consultants

We offer:

  • Artificial Intelligence and Big Data systems to support your local operation
  • high-tech automation
  • continuously upgraded course catalogue and content
  • good fun in international team

If you are interested in running a high-tech, high-quality training and consulting business.

Apply now!