středa 18. listopadu 2015

Business Intelligence aneb tohle bylo celkem fajn

Šestý úkol se skládal celkem ze tří částí, v rámci nichž jsme pracovali s nástrojem Power BI od Microsoftu. V první části jsme si měli pohrát s daty z vlastního facebooku, následně vytvořit dashboard pro libovolný volně dostupný dataset a nakonec jej zveřejnit pomocí funkce Publish.

Pohrejte si s daty z vlastního FB

Jako zdroj dat z mého facebookového profilu jsem zvolila statusy. Zajímalo mě, jaký druh příspěvků na svoji zeď dávám nejčastěji. Výsledky je možno vidět na níže uvedeném grafu. Přiznám se, že některé části grafu mě překvapily a nejsem si jistá, zda se v tomto směru dá Power BI věřit. Tato nedůvěra se následně bude projevovat i v následujících grafech.

Typy příspěvků během let

Typy příspěvků podle měsíců

Roční počet příspěvků podle typu


Vytvořte dashboard pro libovolný veřejný dataset

Největším problémem pro mě bylo najít vhodný veřejně přístupný dataset. Respektive nešlo o to nalézt dataset (na internetu je jich opravdu hodně), ale spíše o nalezení takového datasetu, který by Power BI zvládl dobře editovat a dal se tedy pro moje účely použít. Díky tomu jsem narazila na některé nedostatky tohoto nástroje (např. editování řádků). Nakonec se mi to, ale podařilo a použila jsem dataset z Českého statistického úřadu, který se týkal naděje na dožití. I přes veškerou snahu se mi nepodařilo jiné rozumné údaje získat.

Naděje na dožití - muži

Naděje na dožití - ženy


Zveřejněte dashboard do cloudu pomocí Publish v Power BI

Tato část byla vlastně nejjednodušší ze všech. V prvé řadě jsem se musela zaregistrovat, abych vůbec měla možnost něco publikovat. Níže jsou PrintScreeny zobrazující proces publikování a zde odkaz na publikovaný dashboard.
 


středa 4. listopadu 2015

Čistíme a zpracováváme data aneb kdo si počká...

Celý tento úkol byl ve znamení čekání a slova Working...

     K řešení tohoto úkolu jsme měli využít Google Refine. Jako data nám posloužil csv soubor ze stránek České obchodní inspekce. 
Prvotním úkolem bylo vyčistit data, což se po několika krocích podařilo.

     K čištění dat jsem využívala facetů a clusterů. Program je poměrně přehledný, ale zpracování velkého objemu dat mu trvá docela dlouho, což bylo celkem otravné.

     Nejdříve jsem si rozdělila všechny kraje na Čechy a Moravu, následně odstranila nechtěné údaje, jako jsou čísla popisná, mezery nebo lomítka. Dalším krokem bylo klastrování - přejmenování všech podobných názvů na jeden shodný (Nám. TGM, Náměstí TGM, Nám. T. G. Masaryka, ...).  Posledním krokem bylo sloučení Obec, Ulice. Zde jsem měla menší problém s příkazem cells["Obec"].value + ", " + cells["Ulice2"].value, po chvíli jsem ale zjistila, že stačí přejmenovat sloupec Ulice 2 na Ulice2 a vše bylo v pořádku. 


Krok 1

Krok 2

Krok 3

Krok 4

Co udělat lépe?

  • Vznikla nám v Olomouci ulice s názvem R
     Po čištění dat jsem zjistila, že v Olomouci zůstala ulice s názvem R. Původní název byl R35 a R46. Jedná se o názvy podle silnic, které jsou v blízkosti jednotlivých ulic. Vzhledem k tomu, že se jedná o skutečné názvy míst, které jsou dohledatelné na mapě, název bych neměnila a ponechala s písmenem R.
  • Některé ulice obsahují ?, !, %*^& …
V tomto případě existují dvě řešení. Buď projdeme data řádek po řádku a takovéto chyby ručně odstraníme nebo se jistě dá použít patřičný regulátor. Jelikož však v tomto ještě nejsem natolik sběhlá, žádný jsem bohužel nedokázala vymyslet.
  • Je vhodné sloučit Prahu 1 a Prahu 5?
     Po vyčlenění si pouze Prahy 1 a Prahy 5 a následném seřazení ulic podle abecedy jsem zjistila, že sloučit tyto dvě pražské části určitě vhodné není. Jak je vidět na obrázku níže, ulice se stejným názvem (Archeologická) se vyskytuje jak v Praze 1, tak i 5.