Cursusaanbod

Elke sessie duurt 2 uur

Dag-1: Sessie -1: Bedrijfsinleiding van Waarom Big Data Business Intelligence in de overheid

  • Case studies van NIH, DoE
  • Aanpassingsratio van Big Data in overheidsinstanties en hoe ze hun toekomstige operaties op Big Data Predictive Analytics richten
  • Brede toepassingsgebieden bij DoD, NSA, IRS, USDA etc.
  • Koppeling van Big Data met legacy-gegevens
  • Basisbegrip van de technologieën die predictieve analytics mogelijk maken
  • Gegevensintegratie en dashboardvisualisatie
  • Fruadebeheer
  • Generatie van zakelijke regels/fraude-detectie
  • Detectie en profiling van bedreigingen
  • Kosten-batenanalyse voor de implementatie van Big Data

Dag-1: Sessie-2 : Inleiding tot Big Data-1

  • Hoofdkenmerken van Big Data - volume, variëteit, snelheid en betrouwbaarheid. MPP-architectuur voor volume.
  • Datawarehouses - statisch schema, langzaam evoluerende dataset
  • MPP-databases zoals Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Hadoop-gebaseerde oplossingen - geen voorwaarden voor de structuur van de dataset.
  • Typisch patroon: HDFS, MapReduce (vermalen), ophalen uit HDFS
  • Batch - geschikt voor analytisch/niet-interactief
  • Volume: CEP streaming data
  • Typische keuzes - CEP-producten (bijv. Infostreams, Apama, MarkLogic etc)
  • Minder productiebereid - Storm/S4
  • NoSQL-databases - (kolom- en sleutel-waarde): Best geschikt als analytische aanvulling op datawarehouse/database

Dag-1 : Sessie -3: Inleiding tot Big Data-2

NoSQL-oplossingen

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarchisch) - GT.m, Cache
  • KV Store (Gerangschikt) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Object Database - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variëteit van gegevens: Inleiding tot het probleem van gegevensreiniging in Big Data

  • RDBMS - statische structuur/schema, bevordert geen agile, verkennende omgeving.
  • NoSQL - semi-gestructureerd, genoeg structuur om gegevens op te slaan zonder exact schema voordat gegevens worden opgeslagen
  • Problemen met gegevensreiniging

Dag-1 : Sessie-4: Inleiding tot Big Data-3: Hadoop

  • Wanneer moet je Hadoop kiezen?
  • GESTRUCTUREERD - Bedrijfsdatawarehouses/databases kunnen enorme hoeveelheden gegevens opslaan (tegen een kosten), maar leggen structuur op (niet goed voor actieve verkenning)
  • SEMI-GESTRUCTUREERDE data - moeilijk met traditionele oplossingen (DW/DB)
  • Warehousing van gegevens = enorme inspanning en statisch zelfs na implementatie
  • Voor de variëteit en het volume van gegevens, verwerkt op commoditeitshardware - HADOOP
  • Commoditeits H/W nodig om een Hadoop-cluster te creëren

Inleiding tot Map Reduce /HDFS

  • MapReduce - verdelen van berekeningen over meerdere servers
  • HDFS - maakt gegevens lokaal beschikbaar voor het berekeningsproces (met redundantie)
  • Gegevens - kan ongestructureerd/schema-loos zijn (in tegenstelling tot RDBMS)
  • Ontwikkelaarsverantwoordelijkheid om zin te maken uit gegevens
  • Programmeren van MapReduce = werken met Java (voors en tegens), handmatig laden van gegevens in HDFS

Dag-2: Sessie-1: Big Data Ecosystem - Opbouwen van Big Data ETL: Universe van Big Data Tools - welke en wanneer gebruiken?

  • Hadoop versus andere NoSQL-oplossingen
  • Voor interactieve, toevallige toegang tot gegevens
  • Hbase (kolomgerichte database) op Hadoop
  • Toevallige toegang tot gegevens maar beperkingen opgelegd (max. 1 PB)
  • Niet geschikt voor ad-hoc-analyse, goed voor logging, telling, time-series
  • Sqoop - Importeren van databases naar Hive of HDFS (JDBC/ODBC-toegang)
  • Flume - Stream data (bijv. loggegevens) naar HDFS

Dag-2: Sessie-2: Big Data Management System

  • Dynamische onderdelen, compute-nodes starten/falieden: ZooKeeper - voor configuratie/coördinatie/benamingsservices
  • Complexe pipeline/workflow: Oozie - beheer workflow, afhankelijkheden, ketting
  • Deployen, configureren, clusterbeheer, upgraden etc (sys admin): Ambari
  • In de cloud: Whirr

Dag-2: Sessie-3: Predictieve analytics in Business Intelligence -1: Fundamentele technieken & Machine learning gebaseerde BI:

  • Inleiding tot machine learning
  • Leer classificatiemethoden
  • Bayesiaanse voorspelling - voorbereiden van trainingbestand
  • Support Vector Machine (SVM)
  • KNN p-Tree Algebra & verticaal mining
  • Neuraal netwerk
  • Big Data groot variabel probleem - Random forest (RF)
  • Big Data automatiseringsprobleem - Multi-model ensemble RF
  • Automatisering via Soft10-M
  • Tekstanalysistoestel - Treeminer
  • Agile learning
  • Agent-based learning
  • Gedistribueerd leren
  • Inleiding tot open source tools voor predictieve analytics: R, Rapidminer, Mahout

Dag-2: Sessie-4 Predictieve analysee ecosystem -2: Gemeenschappelijke predictieve analyticproblemen in de overheid

  • Insight-analyse
  • Visualisatie-analyse
  • Gestuctureerde predictieve analyse
  • Ongestructureerde predictieve analyse
  • Bedreigings/fraude-/leverancier profiling
  • Aanbevelingssysteem
  • Patroondetectie
  • Regel/scenario-detectie - fouten, fraude, optimalisatie
  • Oorzaakdetectie
  • Sentimentanalyse
  • CRM-analyse
  • Netwerkanalyse
  • Tekstanalyse
  • Technologie-assisterd onderzoek
  • Fraude-analyse
  • Real-time analyse

Dag-3: Sessie-1: Real-time en schaalbare analyse over Hadoop

  • Waarom falen algemene analysetechnieken in Hadoop/HDFS
  • Apache Hama - voor bulk synchrone gedistribueerde berekening
  • Apache SPARK - voor clusterberekening voor real-time analyse
  • CMU Graphics Lab2 - Grafiekgebaseerde asynchrone aanpak voor gedistribueerde berekening
  • KNN p-Algebra-gebaseerde aanpak van Treeminer voor verminderde hardwarekosten

Dag-3: Sessie-2: Tools voor eDiscovery en Forensics

  • eDiscovery over Big Data vs. Legacy-gegevens - een vergelijking van kosten en prestaties
  • Predictieve codering en technologie-assisterd onderzoek (TAR)
  • Live demo van een TAR-product (vMiner) om te begrijpen hoe TAR werkt voor snellere ontdekking
  • Snellere indexing via HDFS - snelheid van gegevens
  • NLP of Natuurlijke Taalverwerking - verschillende technieken en open source-producten
  • eDiscovery in vreemde talen - technologie voor verwerking van vreemde talen

Dag-3: Sessie 3: Big Data BI voor Cyber Security - Begrijpen van een volledig 360 graden overzicht van snel gegevensverzameling tot bedreigingsidentificatie

  • Basisbegrip van beveiligingsanalyse - aanvalsvlak, beveiligingmisconfiguratie, host-defensies
  • Netwerkinfrastructuur/groot datapijp/Response ETL voor real-time analyse
  • Voorschriften vs voorspellend - vastgestelde regelgebaseerd vs automatische detectie van bedreigingsregels uit metagegevens

Dag-3: Sessie 4: Big Data bij USDA : Toepassing in de landbouw

  • Inleiding tot IoT (Internet of Things) voor de landbouw - sensorgestuurde Big Data en controle
  • Inleiding tot satellietbeeldvorming en haar toepassing in de landbouw
  • Integratie van sensoren en beeldgegevens voor bodemvruchtbaarheid, aanbevelingen voor verbouwing en voorspellingen
  • Landbouwverzekering en Big Data
  • Voorspelling van gewasverlies

Dag-4: Sessie-1: Bedrijfsinleiding tot fraudepreventie BI uit Big Data in de overheid - Fraudeanalyse:

  • Basisclassificatie van fraudemanalyse - regelgebaseerd vs voorspellende analytics
  • Supervised vs unsupervised machine learning voor detectie van fraudepatronen
  • Leveranciersfraude/overfacturering voor projecten
  • Medicare en Medicaid-fraude - fraudedetectietecnieken voor claimverwerking
  • Reisvergoedingfrauden
  • IRS-terugstortingfrauden
  • Case studies en live demo's zullen worden gegeven waar data beschikbaar is.

Dag-4: Sessie-2: Sociale mediabedrijfsinformatie - Intelligence verzamelen en analyseren

  • Big Data ETL API voor het extraheren van sociale media-gegevens
  • Tekst, afbeelding, metagegevens en video
  • Sentimentanalyse uit sociale mediastreams
  • Contextuele en niet-contextuele filtering van sociale mediastreams
  • Sociale media-dashboard om diverse sociale media te integreren
  • Automatische profiling van sociale mediaprofielen
  • Live demo's van elke analyse zullen worden gegeven via het Treeminer-toestel.

Dag-4: Sessie-3: Big Data-analyse in afbeeldingen en videostreams

  • Afbeeldingopslagtechnieken in Big Data - oplossingen voor gegevens die petabytes overtreffen
  • LTFS en LTO
  • GPFS-LTFS (Laagoplossing voor grote afbeeldingsgegevens)
  • Fundamentele aspecten van beeldanalyse
  • Objectherkenning
  • Afbeeldingsegmentering
  • Bewegingstracking
  • 3D-afbeeldingsreconstructie

Dag-4: Sessie-4: Big Data-toepassingen in NIH:

  • Opkomende gebieden van bio-informatiekunde
  • Meta-genomics en Big Data mining-uitdagingen
  • Voorspellende analyse voor pharmacogenomica, metabolomica en proteomica met Big Data
  • Big Data in downstream genoomica-processen
  • Toepassing van voorspellende Big Data-analyse in de volksgezondheid

Big Data-dashboard voor snel toegang tot diverse gegevens en weergave:

  • Integratie van bestaande applicatieplatformen met Big Data-dashboard
  • Big Data-beheer
  • Case study van Big Data-dashboard: Tableau en Pentaho
  • Gebruik Big Data-app voor het aanbieden van locatiegebaseerde diensten in de overheid
  • Volgsysteem en beheer

Dag-5: Sessie-1: Hoe te rechtvaardigen Big Data BI-implementatie binnen een organisatie:

  • Definiëren van ROI voor Big Data-implementatie
  • Case studies voor het besparen van analisttijd bij het verzamelen en voorbereiden van gegevens - verhoogde productieopbrengst
  • Case studies van opbrengsten uit besparingen op de kosten van licentiedatabases
  • Opbrengst uit locatiegebaseerde diensten
  • Besparing door fraudepreventie
  • Een geïntegreerd spreadsheetbenadering om ongeveer kosten vs. opbrengst/besparingen van Big Data-implementatie te berekenen.

Dag-5: Sessie-2: Stap voor stap procedure om legacy-gegevenssysteem te vervangen door Big Data-systeem:

  • Inzicht in de praktische Big Data-migratiestrategie
  • Wat zijn de belangrijkste informatie die nodig zijn voordat je een Big Data-implementatie ontwerpt?
  • Op welke manieren kun je het volume, de snelheid, variëteit en betrouwbaarheid van gegevens berekenen?
  • Hoe schat je de groei van gegevens in?
  • Case studies

Dag-5: Sessie 4: Overzicht van Big Data-leveranciers en beoordeling van hun producten. V&A-sessie:

  • Accenture
  • APTEAN (voorheen CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (voorheen 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (onderdeel van EMC)

Vereisten

  • Basisbegrip van bedrijfsoperaties en gegevenssystemen in de overheid binnen hun domein
  • Basisbegrip van SQL/Oracle of relationele databases
  • Basisbegrip van Statistiek (op spreadsheetniveau)
 35 Uren

Aantal deelnemers


Prijs Per Deelnemer

Getuigenissen (1)

Voorlopige Aankomende Cursussen

Gerelateerde categorieën