Nástroje a metody datové analytiky: října 2015

středa 28. října 2015

Čtvrtý úkol aneb doufám, že horší už to nebude

Čtvrtá sada úkolů se týkala čištění dat z webu pomocí regulárních výrazů a musím přiznat, že mi to dalo opravdu zabrat.

1. Dohrát Regex One

No, dohrát... Žádná hra to teda nebyla. Regex One je kurz, který má sloužit k procvičování regulárních výrazů. Ano, nakonec jsem se dostala až na konec, ovšem byl to tedy boj. Pravdou je, že se některé části dali poměrně dobře obejít jednoduššími výrazy než se pak nacházely v řešení, což by se dalo považovat vlastně za chybu.

2. Regulární výrazy

Ok, absolutně nevím, proč jsem to udělala (snad, abych si přidělala práci nebo možná proto, abych se vytáhla před svým IT přítelem), ale v rámci této části úkolu jsem vytvořila hned dvě verze. Jednu vždy v aplikaci Sublime Text Editor, druhou pak v RegExr.

Parsování čísel

Nalezení e-mailových adres v HTML stránce

Nalezení URLs v HTML kódu

Odstranění všech XML elementů z RSS feedu v Sublime

Jestli tohle není dobře, asi se zabiju! :-D

3. Kimonolabs.com

Tato aplikace umožňuje převod libovolné webové stránky do API, aniž by uživatel zvládal programování.

4. Import.io

Pokusila jsem se importovat data z webu České filmové databáze. Jak je vidět na obrázku, po zadání webové adresy do vyhledávače aplikace Import.io mi vyskočilo 11 filmů z roku 2015, čili ty filmy, které se zobrazují na úvodní stránce ČSFD.

PS: Nerada bych, aby tento příspěvek působil jako jeden velký HATE na regulární výrazy, a proto to uzavřu tím, že můj šálek kávy to teda rozhodně nebyl, není a asi nikdy nebude :-)

středa 21. října 2015

Třetí sada úkolů aneb nakonec to bylo celkem fajn

Dalším úkolem bylo naučit se pracovat s Google Spreadsheet, na což jsem se nejdříve těšila, pak jsem to nesnášela a nakonec mi to vlastně nevadilo. I když vím, že Spreadsheet toho umí hodně, je zároveň o mnoho složitější, a proto bezpečně vím, že zůstanu věrná Excelu.

Dashboard

Na základě tématu svojí bakalářské práce jsem se rozhodla pro tentokrát pracovat s daty týkajícími se audioknih.

Z Heureka.cz jsem ,,vytáhla" data pomocí funkce IMPORTXML a Google rozšíření XPath Helper a použila je k vytvoření čtyř grafů.

První z nich se týkal hodnocení nejoblíbenějších audioknih. U tohoto prvního grafu jsem měla trochu problém přeorientovat se na Spreadsheet a nepřemýšlet ,,Excelově". Jakmile jsem si na to však zvykla, bylo to už téměř bez problémů.

Druhý graf znázorňoval počet recenzí jednotlivých audioknih.

Třetím grafem jsem chtěla znázornit, jaká je průměrná cena audioknih na internetu. Přiznám se ke dvěma věcem:

1) byla jsem občas překvapena, kam až se může cena mluveného slova vyšplhat

2) věřím, že existuje nějaká funkce na nejvyšší a nejnižší cenu v určitém rozpětí (jak tomu bylo v tomto případě), ale jelikož jsem na nic nepřišla, tupě jsem vždy nejnižší a nejnižší cenu opsala.

Poslední graf ukazoval dostupnost v internetových obchodech, která je k mé radosti poměrně dobrá

:-)

Doplňky

Druhý a třetí úkol se týkal doplňků v Google Spreadsheet. Nejdřív bylo nutno zjistit, kde doplňky vlastně najdeme. V anglické verzi je to možná trochu problém, v té české je to však naprosto triviální.

A jaký doplněk jsem si vybrala? Je to obdoba upravování textu v Excelu, která mi v Google Spreadsheet chyběla. Jmenuje se Styles a pomáhá upravovat styly textu, zvýrazňovat buňky a text v nich.

V poslední části dnešního příspěvku bych chtěla vložit odkaz na můj Google Spreadsheet, kde se Honza nebo i kdokoli jiný může podívat, jak jsem se ke všem těm grafům vlastně dostala.

středa 14. října 2015

Datové formáty aneb druhá sada úkolů

Druhý úkol se skládal hned z několika částí. I přes to, že jsem byla na začátku hodně skeptická, nakonec se mi podařilo se všemi částmi (snad bravurně) poprat.

CSV - Navrhněte formát pro Váš týdenní rozvrh

Prvním úkolem bylo navrhnout formát týdenního rozvrhu hodin ve formátu CSV pomocí programu Sublime Text. Přiznám se, že nad touto částí jsem strávila nejvíce času, ale nakonec (po urputném boji se zobrazením CSV v Excelu) se zadařilo.

Následující dva obrázky tedy ukazují zápis v programu Sublime Text a také následné zobrazení v Excelu.

XML - Vizualizujte si cestu ze školy domů

Druhým úkolem bylo vizualizovat si cestu ze školy. Postup byl následující: v Google Maps jsem nechala vyhledat trasu z ulice Arne Nováka do Zbýšova u Brna. Trasa, která se mi následně zobrazila mi poskytla záchytné body, které byly pro splnění tohoto úkolu v podstatě stěžejní.

Nejprve jsem si vyplnila hlavičku, výchozí bod a následně souřadnice všech průchozích bodů. Jak je vidět, použila jsem funkci track. V poslední fázi jsem vyplnila souřadnice koncového bodu trasy.

Jen pro zajímavost (a taky jako důkaz, že jsem látku pochopila ;)) jsem si zkusila použít také funkci route, pomocí které se trasa plánuje vlastně jen orientačně.

JSON - Tweetněte něco z konzole

Předposlední částí bylo odeslání tweetu pomocí API Console Tool. Tato část pro mě znamenala chvíli klikání metodou pokus - omyl, po pár minutách byl však testovací tweet na světě :-)

Jak komunikuje IRIS se serverem?

Posledním úkolem bylo zjistit, jak komunikuje aplikace IRIS, která zobrazuje aktuální polohu všech vozidel integrovaného dopravního systému Jihomoravského kraje, se serverem.

Základem je, že v každém vozidle MHD je zařízení, se kterým server komunikuje. Server odešle žádost a ze zařízení se mu vrátí data ve formátu .json, která obsahují např. číslo vozu, aktuální polohu, zpoždění nebo trasu spoje.

úterý 6. října 2015

Datová analýza knihy

Datová analýza (oblíbené) knihy: Fifty Shades of Grey

Když jsme na hodině datové analytiky dostali za úkol analyzovat svoji oblíbenou knihu, dlouho jsem přemýšlela, kterou zvolit. Nakonec (abych z těch mnoha oblíbených nemusela jednu upřednostnit), jsem zvolila tu, která na mě působí dojmem, že zaujala všechny, jen mě ne. Jedná se o erotický román Fifty Shades of Grey, který v poslední době otřásl světem, aniž bych věděla proč.

Analýza se skládá ze čtyř grafů:

Nejčastěji používaná slova
Frekvence výskytu slova ,,grey"
Frekvence výskytu jmen Christian a Anastasia - hlavních postav, mezi kterými se milostný poměr odehrává
Frekvence výskytu slov oh a yes - slov, která dle mě jasně vystihují pointu celé knihy :-)

Nejčastěji používaná slova

Frekvence výskytu slova grey

Frekvence výskytu jmen hlavních postav tvořících milostný pár

Frekvence výskytu slov oh, yes