čtvrtek 28. ledna 2016

Závěrečný projekt

Dlouho jsem přemýšlela, jaká data zvolit, jaké vůbec vybrat téma. Nemám ráda tato libovolná zadání, takže jsem hned věděla, že to pro mě bude oříšek a nejvíce času mi zabere vymyslet, z čeho vůbec budu čerpat. Nakonec se ale zadařilo, vzpomněla jsem si na krásné časy, kdy jsem psala svoji bakalářskou práci a téma bylo na světě - Audioknihy! 

Nejdříve jsem si s pomocí stránek Audiotéka.cz a nástroje Kimono vytvořila API z titulu, autora a ceny audioknih. API jsem nastavila na měsíční aktualizování. Po dlouhém čekání, kdy se mi konečně vytvořilo API, jsem si z nabízených možností vybrala formát CSV a v něm jsem si celý soubor stáhla (Kimono dále nabízí také formát RSS a JSON). 










Výsledný CSV soubor bylo zapotřebí pročistit a k tomu jsem zvolila nástroj OpenRefine (dříve Google Refine). Některé řádky bylo nutné smazat, některé pouze poupravit. U všech položek jsem si pohrála s formátem buněk, přejmenovala sloupce a sloupec s názvem Cena upravila tak, abych měla zvlášť číslice a zvlášť text (v tomto případě ,,Kč").
V této části jsem se také pokusila vytvořit regulární výraz k přečíslování řádků. Bohužel se mi to nepodařilo. To mě utvrdilo v tom, že regulární výrazy opravdu nebudou moje parketa. :-) Tudíž jsem využila možnosti OpenRefine a data upravila pomocí tohoto nástroje. Po dokončení čištění dat jsem tabulku vyexportovala do Excelu.





Pro vytvoření grafů jsem využila Power BI. Jako zdroj dat jsem použila Excelový soubor, o kterém jsem se zmínila výše. Nástroj Power BI jsem si oblíbila pro svoji přehlednost a relativně i jednoduchost. Grafy, jak je vidět níže, jsem vytvořila dva. Na prvním z nich jsou znázorněny ceny jednotlivých titulů, na druhém pak lze vidět množství prodeje jednotlivých titulů.







Závěrem použiji nástroj, který jsem měla v plánu použít již na začátku, ovšem dělalo mi malinko problém napasovat jej na téma, které jsem si zvolila :-D
Nakonec se to však podařilo. Z bestselerů, které jsem vytáhla ze stránek Audiotéka.cz jsem si vybrala jeden - Mnich, který prodal své ferrari. Největším problémem bylo najít originální text této knihy, práce s Voyant Tools už byla relativně bezproblémová. 

V první řadě jsem si vytvořila klíčová slova knihy, z kterých jsem odstranila spojky, předložky a podobně. Následně jsem vybrala několik slov, které jsem si zobrazila v grafu, aby byl jejich výskyt ještě patrnější. Logicky jsem zvolila slovo ferrari, Julian (jméno hlavní postavy) a monk (mnich). Vzhledem k tomu, že kniha je o sebepoznání a o cestě ke smysluplnému a vyrovnanému životu, vytvořila jsem na závěr graf, kde se prolíná jméno hlavní postavy a slovo mind (mysl).
Klíčová slova knihy

Výskyt slova ferrari


Výskyt slova Julian 

Výskyt slova monk


















Prolínání slov Julian a Mind (mysl)