Czyszczenie danych

Początkowym etapem każdej z analiz jest „poznanie danych” oraz tzw. preprocesing, w skład którego wchodzi proces oczyszczania i standaryzacji danych (ang. data cleansing, data scrubbing). Bez nie tego nie jesteśmy w stanie wydobyć cennej informacji.
Szybko i solidnie „oczyszczamy” dane.
Proces czyszczenia danych realizujemy w następujących etapach:

  • analiza danych – określenie problemów jakości danych i określenie strategii dalszych faz czyszczenia,
  • standaryzacja danych – parsowanie, poprawienie i standaryzacja danych, możliwość wykorzystania słownika, narzędzi informatycznych
  • dopasowanie – identyfikacja duplikatów,
  • agregacja danych – usunięcie duplikatów