Schița de curs
Ziua 01
Prezentare generală a Big Data Business Intelligence pentru analiza informațiilor criminale
- Studii de caz din domeniul aplicării legii - Poliția predictivă
- Rata de adopție a Big Data în agențiile de aplicare a legii și modul în care acestea își aliniază viitoarele operațiuni în jurul Big Data Predictive Analytics
- Soluții tehnologice emergente, cum ar fi senzorii de focuri de armă, supravegherea video și social media
- Utilizarea tehnologiei Big Data pentru a atenua supraîncărcarea cu informații
- Interfața Big Data cu datele anterioare
- Înțelegerea de bază a tehnologiilor generice în analiza predictivă
- Data Integration și vizualizarea tablourilor de bord
- Gestionarea fraudelor
- Business Rules și detectarea fraudelor
- Detectarea și profilarea amenințărilor
- Analiza cost-beneficiu pentru implementarea Big Data
Introducere în Big Data
- Principalele caracteristici ale Big Data -- Volum, Varietate, Viteză și Veridicitate.
- Arhitectura MPP (Massively Parallel Processing)
- Data Warehouses - schemă statică, set de date cu evoluție lentă
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Soluții bazate pe Hadoop - nicio condiție privind structura setului de date.
- Model tipic : HDFS, MapReduce (crunch), preluare din HDFS
- Apache Spark pentru procesarea fluxurilor
- Batch- potrivite pentru prelucrarea analitică/non-interactivă
- Volum : Flux de date CEP
- Alegeri tipice - produse CEP (de exemplu, Infostreams, Apama, MarkLogic etc.)
- Mai puțin pregătite pentru producție - Storm/S4
- NoSQL Databases - (columnare și cheie-valoare): Mai potrivite ca adjuvant analitic pentru depozitul de date/bază de date
NoSQL soluții
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Magazin KV (ierarhic) - GT.m, Cache
- Magazin KV (ordonat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Obiect Database - ZopeDB, DB40, Shoal
- Stocarea documentelor - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Magazin columnar larg - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Varietăți de date: Introducere la Data Cleaning probleme în Big Data
- RDBMS - structură/schemă statică, nu promovează mediul agile, exploratoriu.
- NoSQL - semi-structurate, structură suficientă pentru a stoca date fără o schemă exactă înainte de stocarea datelor
- Probleme de curățare a datelor
Hadoop
- Când să selectați Hadoop?
- STRUCTURAT - depozitele de date/bazele de date ale întreprinderilor pot stoca date masive (cu un cost), dar impun structura (nu sunt bune pentru explorarea activă)
- SEMI STRUCTURED date - dificil de realizat utilizând soluții tradiționale (DW/DB)
- Înmagazinarea datelor = efort ENORM și static chiar și după implementare
- Pentru varietatea și volumul de date, calculat pe hardware de bază - HADOOP
- H/W de bază necesar pentru a crea un cluster Hadoop
Introducere în Map Reduce /HDFS
- MapReduce - distribuie calculul pe mai multe servere
- HDFS - face datele disponibile local pentru procesul de calcul (cu redundanță)
- Datele - pot fi nestructurate/schema-less (spre deosebire de RDBMS)
- Responsabilitatea dezvoltatorului de a da sens datelor
- Programming MapReduce = lucrul cu Java (argumente pro/contra), încărcarea manuală a datelor în HDFS
Ziua 02
Big Data Ecosistem -- Construirea Big Data ETL (Extract, Transform, Load) -- Ce Big Data instrumente să utilizați și când?
- Hadoop vs. Alte NoSQL soluții
- Pentru accesul interactiv și aleatoriu la date
- Hbase (bază de date orientată pe coloane) peste Hadoop
- Acces aleatoriu la date, dar restricții impuse (maximum 1 PB)
- Nu este bun pentru analize ad-hoc, este bun pentru logare, numărare, serii cronologice
- Sqoop - Import din baze de date către Hive sau HDFS (acces JDBC/ODBC)
- Flume - Flux de date (de exemplu, date de jurnal) în HDFS
Big Data Management Sistem
- Părți în mișcare, noduri de calcul pornesc/pleacă :ZooKeeper - Pentru servicii de configurare/coordonare/denumire
- Conductă/flux de lucru complex: Oozie - gestionează fluxul de lucru, dependențele, lanțul de margarete
- Implementare, configurare, gestionarea clusterului, actualizare etc. (administrator de sistem) :Ambari
- În cloud : Whirr
Predictive Analytics -- Tehnici fundamentale și Machine Learning bazate pe Business Inteligență
- Introducere în Machine Learning
- Învățarea tehnicilor de clasificare
- Predicția bayesiană -- pregătirea unui fișier de antrenament
- Mașină vectorială suport
- KNN p-Tree Algebră și minerit vertical
- Neural Networks
- Big Data Problema variabilelor mari -- Random forest (RF)
- Big Data Problema automatizării - RF cu ansamblu de mai multe modele
- Automatizare prin Soft10-M
- Instrument de analiză a textului-Treeminer
- Agile învățare
- Învățare bazată pe agenți
- Învățare distribuită
- Introducere în instrumentele open source pentru analiza predictivă : R, Python, Rapidminer, Mahut
Predictive Analytics Ecosistemul și aplicarea acestuia în analiza criminalității
- Tehnologia și procesul de investigare
- Analiză de înțelegere
- Analitica de vizualizare
- Analiză predictivă structurată
- Analiză predictivă nestructurată
- Profilarea amenințărilor/fraudelor/vânzătorilor
- Motor de recomandare
- Detectarea tiparelor
- Descoperirea de reguli/scenarii - eșec, fraudă, optimizare
- Descoperirea cauzelor profunde
- Analiza sentimentelor
- Analiză CRM
- Analiza rețelelor
- Analiză de text pentru obținerea de informații din transcrieri, declarații ale martorilor, discuții pe internet etc.
- Revizuire asistată de tehnologie
- Analiza fraudelor
- Analiză în timp real
Ziua 03
Analiza în timp real și Scalable peste Hadoop
- De ce eșuează algoritmii analitici comuni în Hadoop/HDFS
- Apache Hama- pentru calcul distribuit sincron în masă
- Apache SPARK- pentru calcul în grup și analiză în timp real
- CMU Graphics Lab2- abordare asincronă bazată pe grafice pentru calculul distribuit
- KNN p -- abordare bazată pe algebră de la Treeminer pentru reducerea costurilor de operare hardware
Instrumente pentru eDiscovery și criminalistică
- eDiscovery pe Big Data vs. date moștenite - o comparație a costurilor și performanțelor
- Codarea predictivă și revizuirea asistată de tehnologie (TAR)
- Demonstrație live a vMiner pentru înțelegerea modului în care TAR permite o descoperire mai rapidă
- Indexare mai rapidă prin HDFS - Viteza datelor
- NLP (procesarea limbajului natural) - produse și tehnici open source
- eDiscovery în limbi străine - tehnologie pentru prelucrarea în limbi străine
Big Data BI pentru Cyber Security – Obținerea unei vizualizări la 360 de grade, colectarea rapidă a datelor și identificarea amenințărilor
- Înțelegerea elementelor de bază ale analizelor de securitate -- suprafața de atac, configurația greșită de securitate, apărarea gazdelor
- Infrastructura de rețea / Datapipe mare / Răspuns ETL pentru analiza în timp real
- Prescriptiv vs predictiv - bazat pe reguli fixe vs descoperirea automată a regulilor de amenințare din meta-date
Colectarea de date disparate pentru analiza de informații penale
- Utilizarea IoT (Internet of Things) ca senzori pentru captarea datelor
- Utilizarea imaginilor din satelit pentru supravegherea națională
- Utilizarea datelor de supraveghere și a imaginilor pentru identificarea infractorilor
- Alte tehnologii de colectare a datelor -- drone, camere corporale, sisteme de etichetare GPS și tehnologie de termoviziune
- Combinarea recuperării automate a datelor cu datele obținute din informatori, interogatorii și cercetări
- Forecasting activitatea infracțională
Ziua 04
Prevenirea fraudelor BI din Big Data în analiza fraudelor
- Clasificarea de bază a Fraud Analytics -- analiză bazată pe reguli vs analiză predictivă
- Învățare automată supervizată vs nesupervizată pentru detectarea modelelor de fraudă
- Business la frauda în afaceri, frauda în cererile medicale, frauda în asigurări, evaziunea fiscală și spălarea banilor
Social Media Analytics -- Colectarea și analiza informațiilor
- Modul în care Social Media este utilizat de infractori pentru a organiza, recruta și planifica
- Big Data API ETL pentru extragerea datelor din social media
- Text, imagine, metadate și video
- Analiza sentimentelor din fluxul de social media
- Filtrarea contextuală și non-contextuală a fluxului social media
- Social Media Tablou de bord pentru integrarea diverselor medii sociale
- Profilarea automată a profilului social media
- O demonstrație live a fiecărui instrument analitic va fi oferită prin intermediul Treeminer Tool
Big Data Analize în procesarea imaginilor și a fluxurilor video
- Tehnici de stocare a imaginilor în Big Data -- Soluție de stocare pentru date care depășesc petabytes
- LTFS (Linear Tape File System) și LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- soluție de stocare stratificată pentru date mari de imagine
- Elemente de bază ale analizei imaginilor
- Recunoașterea obiectelor
- Segmentarea imaginilor
- Urmărirea mișcării
- Reconstrucția imaginilor 3-D
Biometrice, ADN și programe de identificare de generație următoare
- Dincolo de amprentarea digitală și recunoașterea facială
- Recunoașterea vorbirii, tastarea (analizarea modelului de tastare al unui utilizator) și CODIS (combined DNA Index System)
- Dincolo de potrivirea ADN: utilizarea fenotipării ADN judiciare pentru a construi o față din probe ADN
Big Data Tabloul de bord pentru acces rapid la diverse date și afișare:
- Integrarea platformei de aplicații existente cu Big Data Tablou de bord
- Big Data management
- Studiu de caz al tabloului de bord Big Data: Tableau și Pentaho
- Utilizarea aplicației Big Data pentru a împinge servicii bazate pe locație în Govt.
- Sistem de urmărire și gestionare
Ziua 05
Cum să justificați implementarea Big Data BI în cadrul unei organizații:
- Definirea ROI (Return on Investment) pentru implementarea Big Data
- Studii de caz pentru economisirea timpului analiștilor în colectarea și pregătirea datelor - creșterea productivității
- Câștig de venituri din scăderea costurilor de licențiere a bazelor de date
- Obținerea de venituri din serviciile bazate pe localizare
- Economii de costuri din prevenirea fraudei
- O abordare integrată bazată pe o foaie de calcul pentru calcularea cheltuielilor aproximative în raport cu câștigul/economiile de venituri din implementarea Big Data.
Procedura pas cu pas pentru înlocuirea unui sistem de date vechi cu un sistem Big Data.
- Foaie de parcurs pentru migrare Big Data
- Ce informații critice sunt necesare înainte de arhitecturarea unui sistem Big Data?
- Care sunt diferitele modalități de calculare a volumului, vitezei, varietății și veridicității datelor
- Cum se estimează creșterea datelor
- Studii de caz
Revizuirea Big Data vânzătorilor și revizuirea produselor lor.
- Accenture
- APTEAN (anterior CDC Software)
- Cisco Sisteme
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Anterior 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revoluția analitică
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Parte a EMC)
Sesiune Q/A
Cerințe
- Cunoașterea proceselor de aplicare a legii și a sistemelor de date
- Cunoștințe de bază despre SQL/Oracle sau baze de date relaționale
- Înțelegerea de bază a statisticii (la nivel de foaie de calcul)
Audiență
- Specialiști în aplicarea legii cu pregătire tehnică
Mărturii (1)
Deepthi a fost foarte atentă la nevoile mele, a putut spune când să adauge straturi de complexitate și când să se abțină și să adopte o abordare mai structurată. Deepthi a lucrat cu adevărat în ritmul meu și sa asigurat că am fost capabil să folosesc noile funcții / instrumente eu însumi, mai întâi arătându-mi apoi permițându-mi să recreez elementele eu însumi, ceea ce a ajutat într-adevăr la încorporarea formării. Nu aș putea fi mai mulțumit de rezultatele acestui training și de nivelul de expertiză al lui Deepthi!
Deepthi - Invest Northern Ireland
Curs - IBM Cognos Analytics
Tradus de catre o masina