Nástroje a metody datové analytiky: Čistíme a zpracováváme data aneb kdo si počká...

Celý tento úkol byl ve znamení čekání a slova Working...

K řešení tohoto úkolu jsme měli využít Google Refine. Jako data nám posloužil csv soubor ze stránek České obchodní inspekce.
Prvotním úkolem bylo vyčistit data, což se po několika krocích podařilo.

K čištění dat jsem využívala facetů a clusterů. Program je poměrně přehledný, ale zpracování velkého objemu dat mu trvá docela dlouho, což bylo celkem otravné.

Nejdříve jsem si rozdělila všechny kraje na Čechy a Moravu, následně odstranila nechtěné údaje, jako jsou čísla popisná, mezery nebo lomítka. Dalším krokem bylo klastrování - přejmenování všech podobných názvů na jeden shodný (Nám. TGM, Náměstí TGM, Nám. T. G. Masaryka, ...). Posledním krokem bylo sloučení Obec, Ulice. Zde jsem měla menší problém s příkazem cells["Obec"].value + ", " + cells["Ulice2"].value, po chvíli jsem ale zjistila, že stačí přejmenovat sloupec Ulice 2 na Ulice2 a vše bylo v pořádku.

Krok 1

Krok 2

Krok 3

Krok 4

Co udělat lépe?

Vznikla nám v Olomouci ulice s názvem R

Po čištění dat jsem zjistila, že v Olomouci zůstala ulice s názvem R. Původní název byl R35 a R46. Jedná se o názvy podle silnic, které jsou v blízkosti jednotlivých ulic. Vzhledem k tomu, že se jedná o skutečné názvy míst, které jsou dohledatelné na mapě, název bych neměnila a ponechala s písmenem R.

Některé ulice obsahují ?, !, %*^& …

V tomto případě existují dvě řešení. Buď projdeme data řádek po řádku a takovéto chyby ručně odstraníme nebo se jistě dá použít patřičný regulátor. Jelikož však v tomto ještě nejsem natolik sběhlá, žádný jsem bohužel nedokázala vymyslet.

Je vhodné sloučit Prahu 1 a Prahu 5?

Po vyčlenění si pouze Prahy 1 a Prahy 5 a následném seřazení ulic podle abecedy jsem zjistila, že sloučit tyto dvě pražské části určitě vhodné není. Jak je vidět na obrázku níže, ulice se stejným názvem (Archeologická) se vyskytuje jak v Praze 1, tak i 5.

Nástroje a metody datové analytiky

středa 4. listopadu 2015

Čistíme a zpracováváme data aneb kdo si počká...

Co udělat lépe?

Žádné komentáře:

Okomentovat