Počet kreditů 4
Vyučováno v Zimní
Rozsah výuky 2P+1C
Garant předmětu
Přednášející
Cvičící

Předmět se zaměřuje na architekturu a aplikace systémů pro správu velkých dat. Studenti si osvojí celistvý pohled na ekosystém technologií od výběru hardware infrastruktury, procesu extrakce, transformace a načítání dat přes jejich uložení, správu a analýzu až po pokročilé metody datové vědy a strojového učení pro zpracování dat a následné aplikace výsledků v byznysu.

Cvičení budou probíhat standardním způsobem předpokládáme, že studenti si přinesou vlastní počítače pro editování skriptů. Vlastní výpočty plánujeme v počítačovém klastru se vzdáleným přístupem. Pro praktická cvičení budou studenti používat předistalovanou databázi textů. Náplní cvičení bude praktické uplatnění přednášených technologií na konkrétních příkladech. V průběhu semestru jsou plánovány dva krátké testy z dosud probrané látky.

Cílem tohoto předmětu je seznámit studenty s novými trendy a technologiemi pro uchovávání, správu a zpracování velmi rozsáhlých dat (big data).

  1. Úvod, organizace, motivace, přehled, aplikace
  2. Architektura clusteru - Hadoop (hw, distribuce, hdfs, yarn)
  3. Storage (formáty ukládání a komprese dat, HIVE, Impala)
  4. Map+reduce - paradigma a implementace (fáze výpočtu, schémata algoritmů)
  5. Spark a zpracování streamovaných dat (RDD, DataFrames, zdroje, streaming)
  6. Big Data Science (page rank, kolaborativní filtrování, SNA)
  7. Datové Architektury (typické architektury Big Data řešení, dwh, data lake)

  1. První kroky na clusteru (připojení, certifikáty, tunely, administrace, tasky, logy)
  2. Hive (vytváření a rušení tabulek, interní a externí mapování, dotazy)
  3. Map Reduce (java úlohy na základní map reduce programování)
  4. Spark (map reduce ve sparku, práce s RDD a DF)
  5. Spark (větší úloha a příprava na zápočtový test)
  6. Rezerva (Spark ML a GraphiX)

Hadoop: The Definitive Guide, 4th Edition, by Tom White

Rozvrh předmětu
Po
Út
St
Čt
PřednáškyCvičení