Początkowym etapem każdej z analiz jest „poznanie danych” oraz tzw. preprocesing, w skład którego wchodzi proces oczyszczania i standaryzacji danych (ang. data cleansing, data scrubbing). Bez nie tego nie jesteśmy w stanie wydobyć cennej informacji.
Szybko i solidnie „oczyszczamy” dane.
Proces czyszczenia danych realizujemy w następujących etapach:
- analiza danych – określenie problemów jakości danych i określenie strategii dalszych faz czyszczenia,
- standaryzacja danych – parsowanie, poprawienie i standaryzacja danych, możliwość wykorzystania słownika, narzędzi informatycznych
- dopasowanie – identyfikacja duplikatów,
- agregacja danych – usunięcie duplikatów