Technologie pro velká data - B0M33BDT

Kredity 4
Semestry zimní
Zakončení zápočet a zkouška
Jazyk výuky čeština
Rozsah výuky 2P+1C
Anotace
Předmět se zaměřuje na architekturu a aplikace systémů pro správu velkých dat. Studenti si osvojí celistvý pohled na ekosystém technologií od výběru hardware infrastruktury, procesu extrakce, transformace a načítání dat přes jejich uložení, správu a analýzu až po pokročilé metody datové vědy a strojového učení pro zpracování dat a následné aplikace výsledků v byznysu.
Cíle studia
Cílem tohoto předmětu je seznámit studenty s novými trendy a technologiemi pro uchovávání, správu a zpracování velmi rozsáhlých dat (big data).
Osnovy přednášek
1. Úvod, organizace, motivace, přehled, aplikace
2. Architektura clusteru - Hadoop (hw, distribuce, hdfs, yarn)
3. Storage (formáty ukládání a komprese dat, HIVE, Impala)
4. Map+reduce - paradigma a implementace (fáze výpočtu, schémata algoritmů)
5. Spark a zpracování streamovaných dat (RDD, DataFrames, zdroje, streaming)
6. Big Data Science (page rank, kolaborativní filtrování, SNA)
7. Datové Architektury (typické architektury Big Data řešení, dwh, data lake)
Osnovy cvičení
1. První kroky na clusteru (připojení, certifikáty, tunely, administrace, tasky, logy)
2. Hive (vytváření a rušení tabulek, interní a externí mapování, dotazy)
3. Map Reduce (java úlohy na základní map reduce programování)
4. Spark (map reduce ve sparku, práce s RDD a DF)
5. Spark (větší úloha a příprava na zápočtový test)
6. Rezerva (Spark ML a GraphiX)
Literatura
Hadoop: The Definitive Guide, 4th Edition, by Tom White
Požadavky
Cvičení budou probíhat standardním způsobem předpokládáme, že studenti si přinesou vlastní počítače pro editování skriptů. Vlastní výpočty plánujeme v počítačovém klastru se vzdáleným přístupem. Pro praktická cvičení budou studenti používat předistalovanou databázi textů. Náplní cvičení bude praktické uplatnění přednášených technologií na konkrétních příkladech. V průběhu semestru jsou plánovány dva krátké testy z dosud probrané látky.