Cursusaanbod
Dag 01
Overzicht van Big Data Business Intelligence voor Criminal Intelligence Analysis
- Case Studies van de politie - Predictive Policing
- Big Data adoptiegraad in overheidsinstanties en hoe ze hun toekomstige werkzaamheden rondom Big Data Predictive Analytics afstemmen
- Opkomende technologische oplossingen zoals geweersensoren, bewakingsvideo en sociale media
- Gebruik van Big Data technologie om informatica te verzachten
- Interfacing Big Data met Legacy-gegevens
- Basiskennis van technologieën die nodig zijn voor predictive analytics
- Data Integration & Dashboardvisualisatie
- Fraudebeheer
- Business Rules en fraudedetectie
- Dreigingsdetectie en profilering
- Kosten-batenanalyse voor Big Data implementatie
Inleiding tot Big Data
- Hoofdeigenschappen van Big Data - Volume, Variëteit, Snelheid en Waarheidsgetrouwheid.
- MPP (Massively Parallel Processing) architectuur
- Data Warehouses - statisch schema, langzaam evoluerende dataset
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica, enz.
- Hadoop op basis van oplossingen - geen voorwaarden voor de structuur van de dataset.
- Typisch patroon: HDFS, MapReduce (verpulveren), ophalen van HDFS
- Apache Spark voor stroomverwerking
- Batch- geschikt voor analytische/non-interactieve
- Volume: CEP-streaminggegevens
- Typische keuzes - CEP-producten (bijv. Infostreams, Apama, MarkLogic, enz.)
- Minder productieklare systemen - Storm/S4
- NoSQL Databases - (kolom- en sleutel-waarde): Het beste geschikt als analytische aanvulling op de datawarehouse/database
NoSQL oplossingen
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hiërarchisch) - GT.m, Cache
- KV Store (Geordend) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Object Database - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Soorten gegevens: inleiding tot Data Cleaning kwesties in Big Data
- RDBMS – statische structuur/schema, bevordert geen agile, verkennende omgeving.
- NoSQL – semi-gestructureerd, genoeg structuur om gegevens op te slaan zonder exact schema voordat gegevens worden opgeslagen
- Data-schoonmaakproblemen
Hadoop
- Wanneer Hadoop te selecteren?
- GEStructureerd - Enterprise data warehouses/databases kunnen enorme gegevens opslaan (tegen een prijs) maar stellen structuur (niet goed voor actieve verkenning) verplicht
- SEMI GEStructureerde gegevens - moeilijk uit te voeren met traditionele oplossingen (DW/DB)
- Gegevens in de opslagplaatsen = ENORME inspanning en statisch zelfs na implementatie
- Voor variëteit en volume van gegevens, geperst op gewone hardware - HADOOP
- Gewone H/W is nodig om een Hadoop Cluster te maken
Inleiding tot Map Reduce /HDFS
- MapReduce - verdeel de computing over meerdere servers
- HDFS - maak gegevens lokaal beschikbaar voor het computingproces (met redundanties)
- Data - kan ongestructureerd/schema-loos zijn (in tegenstelling tot RDBMS)
- De verantwoordelijkheid van de ontwikkelaar om gegevens zinvol te maken
- Programming MapReduce = werken met Java (voor- en nadelen), gegevens handmatig in HDFS laden
Dag 02
Big Data Ecosysteem - Big Data ETL (Extract, Transform, Load) bouwen - Welke Big Data Tools te gebruiken en wanneer?
- Hadoop vs. Andere NoSQL oplossingen
- Voor interactieve, willekeurige toegang tot gegevens
- Hbase (kolomgerichte database) bovenop Hadoop
- Willekeurige toegang tot gegevens, maar met opgelegde beperkingen (max 1 PB)
- Niet goed voor ad-hoc analytics, goed voor logging, telling, tijdreeksen
- Sqoop - Importeren van databases naar Hive of HDFS (JDBC/ODBC-toegang)
- Flume - Stream gegevens (bijv. loggegevens) in HDFS
Big Data Management Systeem
- Bewegende delen, compute nodes starten/falen: ZooKeeper - Voor configuratie/coördinatie/naming services
- Complexe pipeline/workflow: Oozie - workflow beheren, afhankelijkheden, daisy chain
- Deployen, configureren, clusterbeheer, upgraden, enz. (systeembeheer): Ambari
- In Cloud: Whirr
Predictive Analytics -- Fundamentele technieken en Machine Learning gebaseerde Business intelligentie
- Inleiding tot Machine Learning
- Leren classificatietechnieken
- Bayesiaanse voorspelling - een trainingsbestand voorbereiden
- Support Vector Machine
- KNN p-Tree Algebra & verticale mining
- Neural Networks
- Big Data groot variabelenprobleem - Random forest (RF)
- Big Data Automation-probleem - Multi-model ensemble RF
- Automatisering via Soft10-M
- tekstanalytisch hulpmiddel-Treeminer
- Agile leren
- Agentgebaseerd leren
- Gedistriculeerd leren
- Introductie tot open source Tools voor predictive analytics: R, Python, Rapidminer, Mahut
Predictive Analytics Ecosysteem en de toepassing ervan in de analyse van criminele inlichtingen
- Technologie en het onderzoeksproces
- Insight analytics
- Visualisatie-analytics
- Gestructuraliseerde voorspellende analytics
- Ongestructured predictive analytics
- Dreigings-/fraudster/profieleren van leveranciers
- Recommendation Engine
- Pattern detection
- Rule/Scenario-ontdekking - falen, fraude, optimalisatie
- Ontdekking van de hoofdoorzaak
- Sentimentanalyse
- CRM-analytics
- Netwerkanalytics
- Text analytics om inzichten te verkrijgen uit transcripts, getuigenverklaringen, internetgepraat, enz.
- Technologie-assisted review
- Fraude analytics
- Realtime Analytic
Dag 03
Echte tijd en Scalable Analytics Over Hadoop
- Waarom gewone analytische algoritmen falen in Hadoop/HDFS
- Apache Hama - voor Bulk Synchronous distributed computing
- Apache SPARK - voor cluster computing en realtime analytics
- CMU Graphics Lab2 - Grafen gebaseerde asynchrone aanpak voor gedistribueerde computing
- KNN p - Algebra gebaseerde aanpak van Treeminer voor verminderde hardwarekosten van de operatie
Hulpmiddelen voor eDiscovery en forensisch onderzoek
- eDiscovery over Big Data vs. Legacy-gegevens - een vergelijking van kosten en prestaties
- Predictive coding en Technology Assisted Review (TAR)
- Live demo van vMiner om te begrijpen hoe TAR snellere ontdekking mogelijk maakt
- Sneller indexeren via HDFS - Velocity van gegevens
- NLP (Natural Language processing) - open source producten en technieken
- eDiscovery in vreemde talen - technologie voor het verwerken van vreemde talen
Big Data BI voor Cyber Security – Een 360-gradenoverzicht krijgen, snelle gegevensverzameling en identificatie van bedreigingen
- De basis van beveiligingsanalytics begrijpen - aanvalsvlak, beveiligingsconfiguratie, hostverdedigingen
- Netwerkstructuur / Grote datapipe / Response ETL voor realtime analytics
- Prescriptief vs. voorspellend - Vaste regelgebaseerde vs. autodetectie van dreigingsregels uit metadata
Het verzamelen van uiteenlopende gegevens voor de analyse van criminele inlichtingen
- IoT (Internet of Things) gebruiken als sensoren voor het vastleggen van gegevens
- Sattelietbeelden gebruiken voor binnenlandse surveillance
- Bewakings- en afbeeldinggegevens gebruiken voor criminele identificatie
- Andere technologieën voor gegevensverzameling - drones, bodycamera's, GPS-tagging-systemen en thermische beeldtechnologie
- Geautomatiseerde gegevensretrieval combineren met gegevens verkregen van informanten, ondervraging en onderzoek
- Forecasting criminele activiteit
Dag 04
Fraude-bewaking BI van Big Data in Fraud Analytics
- Basisclassificatie van Fraud Analytics - regels gebaseerde vs. voorspellende analytics
- Gecontroleerd vs. ongereguleerd machine leren voor fraude patroon detectie
- Business naar zakelijke fraude, medische claims fraude, verzekeringsfraude, belastingontduiking en witwassen van geld
Social Media Analytics - Verzamelen en analyseren van inlichtingen
- Hoe Social Media door criminelen wordt gebruikt om te organiseren, rekruteren en plannen
- Big Data ETL API voor het extraheren van gegevens uit sociale media
- Tekst-, beeld-, meta-gegevens en video
- Sentimentanalyse uit sociale media feed
- Contextueel en niet-contextueel filteren van sociale media feed
- Social Media Dashboard om verschillende sociale media te integreren
- Geautomatiseerde profilering van sociale mediaprofi
- Live demo van elke analyse zal worden gegeven via de Treeminer Tool
Big Data Analyses in beeldverwerking en videofeeds
- Image Storage-technieken in Big Data -- Opslagoplossing voor gegevens die petabytes overschrijden
- LTFS (Linear Tape File System) en LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) - gelaagde opslagoplossing voor Big image data
- Fundamentals of image analytics
- Objectherkenning
- Beeldsegmentatie
- Motion tracking
- 3-D beeld reconstructie
Biometrieken, DNA en identificatieprogramma's van de volgende generatie
- Voorbij vingerafdrukken en gezichtsherkenning
- Spraakherkenning, toetsaanslagen (het analyseren van het typpatroon van een gebruiker) en CODIS (combined DNA Index System)
- Voorbij DNA-matching: het gebruiken van forensische DNA-fenotypering om een gezicht te reconstrueren van DNA-monsters
Big Data Dashboard voor snelle toegankelijkheid van diverse gegevens en weergave:
- Integratie van het bestaande applicatieplatform met Big Data Dashboard
- Big Data beheer
- Case Study van Big Data Dashboard: Tableau en Pentaho
- Gebruik Big Data app om locatiegebaseerde services in Govt. te pushen
- Tracking systeem en management
Dag 05
Hoe de implementatie van Big Data BI binnen een organisatie te rechtvaardigen:
- De ROI (Return on Investment) voor het implementeren van Big Data definiëren
- Case studies voor het besparen van Analyst-tijd bij het verzamelen en voorbereiden van gegevens - de productiviteit verhogen
- Omzetverhoging door lagere licentiekosten voor databases
- Omzetverhoging door locatiegebaseerde diensten
- Kostensbesparingen door fraude te voorkomen
- Een geïntegreerde spreadsheetbenadering voor het berekenen van de geschatte uitgaven versus de omzetverhoging/besparingen van Big Data implementatie.
Stapsgewijze procedure voor het vervangen van een verouderd datasysteem door een Big Data-systeem
- Big Data Migration Roadmap
- Welke kritieke informatie is nodig voordat een Big Data systeem wordt ontworpen?
- Wat zijn de verschillende manieren om het volume, de snelheid, de variëteit en de waarheidsgetrouwheid van gegevens te berekenen
- Hoe gegevensgroei te schatten
- Case studies
Beoordeling van Big Data leveranciers en beoordeling van hun producten.
- Accenture
- APTEAN (voorheen CDC Software)
- Cisco Systemen
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (voorheen 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Instituut
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (onderdeel van EMC)
Vraag/A-sessie
Vereisten
- Kennis van processen en dat systemen voor wetshandhaving
- Basis begrip van SQL/Oracle of relationele database
- Basis begrip van statistiek (op Spreadsheet niveau)
Doelgroep
- Specialisten in de Handhaving met een technische achtergrond
Getuigenissen (2)
Moeilijke onderwerpen op eenvoudige, gebruiksvriendelijke manier gepresenteerd
Marcin - GE Medical Systems Polska Sp. z o.o.
Cursus - Introduction to Predictive AI
Automatisch vertaald
De diversiteit van de behandelde onderwerpen
Romaric - Vacher
Cursus - Business Intelligence and Data Analysis with Metabase
Automatisch vertaald