Course Outline

=====
Dag 01
=====
Overzicht van Big Data Business Inlichtingen voor analyse van criminele inlichtingen

  • Casestudies van wetshandhaving - voorspellend politiewerk
  • Big Data adoptiepercentage bij wetshandhavingsinstanties en hoe zij hun toekomstige activiteiten afstemmen op Big Data Predictive Analytics
  • Opkomende technologische oplossingen zoals geweerschotsensoren, bewakingsvideo en sociale media
  • Het gebruik van Big Data technologie om de informatie-overload te verminderen
  • Interface Big Data met oudere gegevens
  • Basiskennis van ondersteunende technologieën in voorspellende analyses
  • Data Integration & Dashboardvisualisatie
  • Fraudebeheer
  • Business Regels en fraudedetectie
  • Bedreigingsdetectie en profilering
  • Kosten-batenanalyse voor Big Data implementatie

Inleiding tot Big Data

  • Belangrijkste kenmerken van Big Data - Volume, variëteit, snelheid en waarheidsgetrouwheid.
  • MPP-architectuur (Massively Parallel Processing).
  • Data Warehouses – statisch schema, langzaam evoluerende dataset
  • MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica enz.
  • Hadoop Gebaseerde oplossingen – geen voorwaarden aan de structuur van de dataset.
  • Typisch patroon: HDFS, MapReduce (crunch), ophalen uit HDFS
  • Apache Spark voor streamverwerking
  • Batch-geschikt voor analytisch/niet-interactief
  • Volume: CEP-streaminggegevens
  • Typische keuzes – CEP-producten (bijv. Infostreams, Apama, MarkLogic enz.)
  • Minder productieklaar – Storm/S4
  • NoSQL Databases – (kolommen en sleutelwaarde): Meest geschikt als analytische aanvulling op datawarehouse/database

NoSQL oplossingen

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Winkel - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (hiërarchisch) - GT.m, cache
  • KV Store (besteld) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Opnieuw gecached, Coherentie, Infinispan, EXtremeScale, JBossCache, Snelheid, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Object Database - ZopeDB, DB40, Shoal
  • Documentopslag - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Brede zuilvormige winkel - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Soorten gegevens: inleiding tot Data Cleaning kwesties in Big Data

  • RDBMS – statische structuur/schema, bevordert geen flexibele, verkennende omgeving.
  • NoSQL – semi-gestructureerd, voldoende structuur om gegevens op te slaan zonder exact schema voordat gegevens worden opgeslagen
  • Problemen met het opschonen van gegevens

Hadoop

  • Wanneer moet u Hadoop selecteren?
  • GESTRUCTUREERD - Datawarehouses/databases voor ondernemingen kunnen enorme hoeveelheden gegevens opslaan (tegen een vergoeding), maar structuur opleggen (niet goed voor actieve verkenning)
  • SEMI GESTRUCTUREERDE data – moeilijk uit te voeren met traditionele oplossingen (DW/DB)
  • Gegevens opslaan = ENORME inspanning en statisch, zelfs na implementatie
  • Voor verscheidenheid en volume aan gegevens, verwerkt op standaardhardware – HADOOP
  • Commodity H/W was nodig om een cluster Hadoop te creëren

Inleiding tot Map Reduce /HDFS

  • MapReduce – distribueer computergebruik over meerdere servers
  • HDFS – gegevens lokaal beschikbaar maken voor het computerproces (met redundantie)
  • Gegevens – kunnen ongestructureerd/schemaloos zijn (in tegenstelling tot RDBMS)
  • De verantwoordelijkheid van ontwikkelaars om betekenis te geven aan data
  • Programming MapReduce = werken met Java (voor-/nadelen), gegevens handmatig in HDFS laden

=====
Dag 02
=====
Big Data Ecosysteem -- Bouwen Big Data ETL (Extract, Transform, Load) -- Welke Big Data Tools moet ik gebruiken en wanneer?

  • Hadoop versus andere NoSQL oplossingen
  • Voor interactieve, willekeurige toegang tot gegevens
  • Hbase (kolomgeoriënteerde database) bovenop Hadoop
  • Willekeurige toegang tot gegevens maar opgelegde beperkingen (max. 1 PB)
  • Niet goed voor ad-hocanalyses, goed voor loggen, tellen, tijdreeksen
  • Sqoop - Importeren uit databases naar Hive of HDFS (JDBC/ODBC-toegang)
  • Flume – Stream gegevens (bijv. loggegevens) naar HDFS

Big Data Management Systeem

  • Bewegende delen, rekenknooppunten starten/mislukken: ZooKeeper - Voor configuratie-/coördinatie-/naamgevingsservices
  • Complexe pijplijn/workflow: Oozie – beheer workflow, afhankelijkheden, serieschakeling
  • Implementeren, configureren, clusterbeheer, upgrade enz. (sys admin):Ambari
  • In de cloud: zoem

Predictive Analytics -- Fundamentele technieken en Machine Learning gebaseerde Business intelligentie

  • Inleiding tot Machine Learning
  • Classificatietechnieken leren
  • Bayesiaanse voorspelling: een trainingsbestand voorbereiden
  • Ondersteuning van vectormachine
  • KNN p-Tree Algebra en verticale mijnbouw
  • Neural Networks
  • Big Data groot variabel probleem -- Willekeurig bos (RF)
  • Big Data Automatiseringsprobleem – Multi-modellenensemble RF
  • Automatisering via Soft10-M
  • Tekstanalysetool-Treeminer
  • Agile leren
  • Agent-gebaseerd leren
  • Gedistribueerd leren
  • Inleiding tot open source-tools voor voorspellende analyses: R, Python, Rapidminer, Mahut

Predictive Analytics Ecosysteem en de toepassing ervan in de analyse van criminele inlichtingen

  • Technologie en het onderzoeksproces
  • Inzicht analytisch
  • Visualisatie-analyse
  • Gestructureerde voorspellende analyses
  • Ongestructureerde voorspellende analyses
  • Dreiging/fraudeur/leveranciersprofilering
  • Aanbevelingsmotor
  • Patroondetectie
  • Ontdekking van regels/scenario’s – mislukking, fraude, optimalisatie
  • Ontdekking van de oorzaak
  • Sentiment analyse
  • CRM-analyses
  • Netwerkanalyse
  • Tekstanalyse voor het verkrijgen van inzichten uit transcripties, getuigenverklaringen, internetgebabbel, enz.
  • Technologieondersteunde beoordeling
  • Fraudeanalyse
  • Realtime analyse

=====
Dag 03
=====
Realtime en Scalableke analyses meer dan Hadoop

  • Waarom algemene analytische algoritmen falen in Hadoop/HDFS
  • Apache Hama- voor bulksynchrone, gedistribueerde computing
  • Apache SPARK- voor clustercomputing en realtime analyse
  • CMU Graphics Lab2 - Op grafieken gebaseerde asynchrone benadering van gedistribueerd computergebruik
  • KNN p - Op algebra gebaseerde aanpak van Treeminer voor lagere hardwarekosten

Hulpmiddelen voor eDiscovery en forensisch onderzoek

  • eDiscovery over Big Data versus oudere gegevens – een vergelijking van kosten en prestaties
  • Voorspellende codering en Technology Assisted Review (TAR)
  • Live demo van vMiner om te begrijpen hoe TAR snellere detectie mogelijk maakt
  • Snellere indexering via HDFS – Snelheid van gegevens
  • NLP (Natural Language processing) – open source producten en technieken
  • eDiscovery in vreemde talen - technologie voor de verwerking van vreemde talen

Big Data BI voor Cyber Security – Een 360-gradenoverzicht krijgen, snelle gegevensverzameling en identificatie van bedreigingen

  • Inzicht in de basisprincipes van beveiligingsanalyses: aanvalsoppervlak, verkeerde configuratie van de beveiliging, hostverdediging
  • Netwerkinfrastructuur / Grote datapipe / Response ETL voor realtime analyse
  • Prescriptief versus voorspellend – Vaste, op regels gebaseerde versus automatische detectie van bedreigingsregels uit metagegevens

Het verzamelen van uiteenlopende gegevens voor de analyse van criminele inlichtingen

  • IoT (Internet of Things) gebruiken als sensoren voor het vastleggen van gegevens
  • Gebruik van satellietbeelden voor binnenlandse surveillance
  • Gebruik van bewakings- en beeldgegevens voor strafrechtelijke identificatie
  • Andere technologieën voor gegevensverzameling: drones, lichaamscamera's, GPS-taggingsystemen en warmtebeeldtechnologie
  • Het combineren van geautomatiseerd ophalen van gegevens met gegevens verkregen van informanten, ondervragingen en onderzoek
  • Forecasting criminele activiteiten

=====
Dag 04
=====
Fraudepreventie BI uit Big Data in Fraud Analytics

  • Basisclassificatie van fraudeanalyse: op regels gebaseerde versus voorspellende analyses
  • Onder toezicht versus onbewaakt Machine learning voor detectie van fraudepatronen
  • Business tot bedrijfsfraude, fraude met medische claims, verzekeringsfraude, belastingontduiking en het witwassen van geld

Social Media Analytics - Verzamelen en analyseren van inlichtingen

  • Hoe Social Media door criminelen wordt gebruikt om zich te organiseren, te rekruteren en te plannen
  • Big Data ETL API voor het extraheren van sociale mediagegevens
  • Tekst, beeld, metadata en video
  • Sentimentanalyse van social media-feed
  • Contextueel en niet-contextueel filteren van sociale media-feeds
  • Social Media Dashboard om diverse sociale media te integreren
  • Geautomatiseerde profilering van sociale mediaprofielen
  • Live demo van elke analyse wordt gegeven via Treeminer Tool

Big Data Analyses in beeldverwerking en videofeeds

  • Beeldopslagtechnieken in Big Data -- Opslagoplossing voor gegevens groter dan petabytes
  • LTFS (Linear Tape File System) en LTO (Lineair Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) - gelaagde opslagoplossing voor grote afbeeldingsgegevens
  • Grondbeginselen van beeldanalyse
  • Object herkenning
  • Segmentatie van afbeeldingen
  • Beweging volgen
  • 3D-beeldreconstructie

Biometrieken, DNA en identificatieprogramma's van de volgende generatie

  • Meer dan vingerafdrukken en gezichtsherkenning
  • Spraakherkenning, toetsaanslag (analyse van het typpatroon van een gebruiker) en CODIS (gecombineerd DNA Index System)
  • Verder dan DNA-matching: forensische DNA-fenotypering gebruiken om een gezicht te construeren uit DNA-monsters

Big Data Dashboard voor snelle toegankelijkheid van diverse gegevens en weergave:

  • Integratie van bestaand applicatieplatform met Big Data Dashboard
  • Big Data beheer
  • Casestudy van Big Data Dashboard: Tableau en Pentaho
  • Gebruik de app Big Data om locatiegebaseerde services in Govt te pushen.
  • Volgsysteem en beheer

=====
Dag 05
=====
Hoe Big Data BI-implementatie binnen een organisatie rechtvaardigen:

  • Het definiëren van de ROI (Return on Investment) voor implementatie Big Data
  • Casestudies om analistentijd te besparen bij het verzamelen en voorbereiden van gegevens – waardoor de productiviteit toeneemt
  • Inkomstenwinst door lagere licentiekosten voor databases
  • Inkomstenwinst uit locatiegebaseerde diensten
  • Kostenbesparingen door fraudepreventie
  • Een geïntegreerde spreadsheetbenadering voor het berekenen van geschatte kosten versus inkomstenwinst/besparingen uit Big Data implementatie.

Stapsgewijze procedure voor het vervangen van een verouderd datasysteem door een Big Data-systeem

  • Big Data Routekaart voor migratie
  • Welke kritische informatie is nodig voordat een Big Data systeem wordt ontworpen?
  • Wat zijn de verschillende manieren om het volume, de snelheid, de variëteit en de waarheidsgetrouwheid van gegevens te berekenen
  • Hoe de datagroei te schatten
  • Casestudies

Beoordeling van Big Data leveranciers en beoordeling van hun producten.

  • Accenture
  • APTEAN (voorheen CDC-software)
  • Cisco Systemen
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guaves
  • Hitachi-datasystemen
  • Hortonwerken
  • PK
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Voorheen 10Gen)
  • MU Sigma
  • Netapp
  • Opera-oplossingen
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackruimte
  • Revolutieanalyse
  • Salesforce
  • SAP
  • SAS Instituut
  • Sisense
  • Software AG/Terracotta
  • Soft10-automatisering
  • Splunk
  • Sqrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Denk aan grote analyses
  • Getijdenmarkeringssystemen
  • Boommijnwerker
  • VMware (Onderdeel van EMC)

Vraag/A-sessie

Requirements

  • Kennis van rechtshandhavingsprocessen en datasystemen
  • Basiskennis van SQL/Oracle of relationele databases
  • Basiskennis van statistieken (op spreadsheetniveau)
 35 Hours

Number of participants



Price per participant

Getuigenissen (4)

Related Courses

Data Analysis with Redash

14 Hours

Business Intelligence and Data Analysis with Metabase

14 Hours

QlikView for Business Users

7 Hours

QlikView for Developers

14 Hours

Google Sheets for Excel Users

14 Hours

Cognos 11

14 Hours

IBM Cognos Analytics

14 Hours

Alteryx Advanced

14 Hours

Alteryx for Data Analysis

7 Hours

Alteryx for Developers

14 Hours

Data Preparation with Alteryx

7 Hours

Algorithmic Trading with Python and R

14 Hours

Stata: Beginner to Advanced

14 Hours

Statistical Analysis with Stata and R

35 Hours

Cluster Analysis with R and SAS

14 Hours

Related Categories

1