Statistic analysis and technological data evaluation - XP13SAV

Credits 4
Semesters Summer
Completion Assessment + Examination
Language of teaching Czech
Extent of teaching 2P+2S
Annotation
Předmět je zaměřen na vyhodnocení a zpracování technologických dat, tj. dat získaných měřením technologických (procesních) veličin, ale i dat získaných z jiných zdrojů. Studenti se seznámí s formáty dat získaných měřením v průmyslu, s jejich načtením do vhodné aplikace, zpracováním (filtrování a transformace), vyhodnocením (statisticky a graficky) a uložením těchto dat a získaných výsledků ve vhodné formě pro další zpracování. Dále se seznámí se základními statickými veličinami, které se používají při analýze dat. Také se seznámí s různými způsoby vizuálního zobrazení získaných dat (různé typy grafů). Mimo zpracování dat získaných měřením se bude předmět zabývat také získáním a zpracováním dat z Internetu, nebo dalších zdrojů, například z formátů .pdf a .docx. Předmět je založen na využití jazyka Python a vývojového prostředí Jupyter Notebook. O dalších systémech a možnostech (například Matlab, R, Julia) bude poskytnuta pouze stručná informace. K ukončení předmětu je požadována semestrální práce ve které student předvede, že umí tvůrčím a samostatným způsobem uplatnit vědomosti v něm nabyté.
Course outlines
1. Formáty měřených dat: csv, tsv, fixní data. Další formáty používané pro zpracování a archivaci: xml, json. Strukturovaná a nestrukturovaná data. Data na Internetu a v databázi. Textová data. Nástroje na prohlížení a práci s danými formáty dat.
2. Dávkové zpracování naměřených dat ve Windows a Linuxu. Skriptovací jazyky ve Windows a Linuxu. Použití příkazové řádky. Použití pipe a přesměrování v příkazové řádce. Vhodné nástroje na prohlížení a práci s datovými soubory z příkazové řádky. Příkazy: cat, less, tr, sed, grep, awk a další.
3. Jazyky užívané pro zpracování dat. Základy jazyka Python. Proměnné, pole, seznamy, slovníky a množiny. Funkce a třídy v jazyce Python. Příkazy větvení (If) a cyklu (For). Comprehense. Lambda funkce.
4. Práce s daty I. Datová věda. Co jsou to Tidy data. Co jsou normalizovaná data. Knihovna Pandas. Dataframe. Index. Výběr dat dle řádku a sloupečku.
5. Práce s daty II. Knihovna Pandas - pokračování. Výběr dle obsahu. Metoda Query. Třídění. Operace nad daty. Agregace a základní statistika.
6. Práce s daty III. Knihovna Pandas - pokračování. Detekce a filtrace NaN. Stylování buněk.
7. Statistika I. Populace a výběr. Statistické funkce v jazyce Python. Mean, průměr, rozptyl, standardní odchylka a další charakteristické hodnoty.
8. Statistika II. Korelace a kovariace. Lineární regrese. Testování hypotéz. Testy normality.
9. Vizualizace I. Vizualizace dat a jejich interpretace. Scatter diagram, boxplot, sloupcový diagram a histogram. Knihovna Matplotlib.
10. Vizualiazace II. Koláčový diagram. Další 2D a 3D diagramy. Zásady tvorby diagramů pro znázornění technologických dat. Popisy os. Volba barev. Knihovna Seaborn.
11. Extract-Transfer-Load (ETL). Exploratory data analysis (EDA). Machine learning (ML). Další knihovny na práci s daty. Interaktivní možnosti.
12. Stahování dat z webu. Extrakce dat z .pdf a .docx. Animace. Další náročnější témata.
13. Další systémy na zpracování dat, stručný přehled: Matlab, R, Mathematica, Julia, MathCAD. Možnosti Excelu.
14. Prezentace dat. Publikování dat. Open access. Autorská práva.
Literature
[1] Milan Meloun, Jiří Militký.: Statistické zpracování experimentálních dat, ars magna, 1998, Praha
[2] Václav Dupač a Marie Hušková, Pravděpodobnost a matematická statistika, Karolinum, 2009
[3] M. Navara.: Pravděpodobnost a matematická statistika. Skripta FEL ČVUT, 2007