Analiza danych - DCAD Center of Analysis

Czym jest data mining?

Jedną z bardziej wyczerpujących definicji pojęcia przytacza Paolo Giudici:
„Data mining to proces selekcji, eksploracji i modelowania dużych ilości danych, który służy odkrywaniu regularności i związków występujących w nich, ale początkowo nie znanych. Jego celem jest uzyskanie wyników użytecznych dla właściciela danych.”
Data mining jest to więc pewien proces, w którego skład wchodzi kilka etapów. Proces ten pozwala na odkrywanie pewnych związków i regularności zachodzących między danymi, które nie są ani wyraźne, ani oczywiste. I to nie tylko dlatego, że analizowane dane charakteryzują się zarówno znaczną objętością, jak i często również wielowymiarowością. Także dlatego, iż wykorzystując i łącząc metody analiz pochodzące z różnych dziedzin, jak np. statystyka i sztuczna inteligencja, pozwala na formułowanie problemów, z którymi każda z tych metod oddzielnie nie potrafiłaby sobie poradzić.
I mimo, że odpowiedzi, jakie daje data mining, należy traktować raczej jako domniemania niż kategoryczne stwierdzenia, to przy właściwym sformułowaniu pytania, odkrywają one często cenne informacje.

A czym dla nas jest data mining?

Data mining dla nas to różnorodne działania integrujące wiedzę i doświadczenie różnych dyscyplin nauki, których celem jest wydobycie wiedzy ukrytej w danych. Nasza filozofia bazuje na twórczym połączeniu klasycznych, powszechnie stosowanych technik analitycznych data mining z obliczeniowymi i interpretacyjnymi metodami dostępnymi w różnych dziedzinach nauki. Połączenie to jest elastyczne i jego konfiguracja dobierana jest w zależności od potrzeb realizowanego projektu.

Różnice między data mining a innymi metodami wydobywania wiedzy z baz danych

Podstawowym sposobem uzyskiwania wiedzy z baz danych jest zadawanie zapytań, np. w języku SQL, opracowywanie odpowiedzi i przedstawianie ich w formie raportów. W ten sposób można np. poznać dane osobowe wszystkich klientów, którzy kupili produkt A i B co najmniej jeden raz, ale w tym właśnie porządku. Aby zadać takie pytanie, należy mieć jednak świadomość lub przypuszczenie istnienia dokładnie tego związku między dokładnie tymi produktami, a więc posługiwać się pewną wiedzą a priori. Techniki data mining pozwalają zaś na odkrycie związków, których nie trzeba precyzyjnie definiować w momencie przeprowadzania analiz. Należy za to założyć występowanie tylko ogólnego rodzaju zależności, nie ograniczającego się do wskazywania konkretnych produktów.
Podążając za poprzednim przykładem: lista nazwisk znaleziona w powyższy sposób mogłaby posłużyć jako grupa docelowa kampanii reklamowej. Spowodowałoby to wzrost sprzedaży produktu w stosunku do sytuacji, gdyby kampania skierowana została do przypadkowych odbiorców. Nie da się jednak przewidzieć procentu wzrostu sprzedaży przy takim podejściu. Technik data mining pozwalają natomiast, w oparciu o dane dostępne w bazie, na ocenienie stopnia efektywności podjętej decyzji.
Nie należy mylić również data miningu z OLAPem. OLAP (online analytical processing) to narzędzie ukazujące, przeważnie w formie wielowymiarowych raportów graficznych bądź tabelarycznych, związki między kilkoma zmiennymi. Ten ważny dla analiz biznesowych sposób analizy danych pokazuje, dlaczego zależności w danych występują. Użytkownik stawia hipotezę, a następnie szuka jej potwierdzenia, obserwując dane. Chcąc więc np. dowiedzieć się dlaczego pewne kredyty nie zostają spłacane, może przypuścić, że istnieje związek między dochodami, ilością zawartych umów kredytowych a także niewypłacalnością. OLAP, przedstawiając zależność między odpowiednimi zmiennymi – dzięki wielowymiarowej kostce – pozwala na potwierdzenie lub odrzucenie tej hipotezy.
OLAP jest więc użytecznym narzędziem, ale nie zastępuje data miningu. Podobnie jak przy raportowaniu, tak i tutaj wymagane jest najpierw zdefiniowanie hipotezy. Oznacza to, że należy przynajmniej podejrzewać istnienie związku. Ponadto, mimo że OLAP bardzo dobrze nadaje się do analizowania baz o raczej niewielkiej ilości zmiennych, to przy ich liczbie dochodzącej do dziesiątek i setek pojawiają się już pewne problemy. Skonstruowanie bowiem hipotezy o zależnościach między tak wieloma zmiennymi nie jest zadaniem łatwym. Dla data miningu zaś, o czym już wspomniano wcześniej, nie jest wymagane istnienie hipotezy początkowej, a co za tym idzie, nie ma ograniczeń co do liczby analizowanych zmiennych.
W rezultacie, zarówno OLAP, jak i raporty tworzone z zapytań do bazy stanowią dobry wstęp do poznania i zrozumienia danych analizowanych metodami data miningu.
Często wiązanym z data miningiem pojęciem jest też hurtownia danych. Hurtownie, zawierające dane pochodzące z różnych źródeł, w dużych ilościach i przechowując je w sposób ustandaryzowany i zagregowany, są bardzo dobrym dostarczycielem danych dla zastosowań data miningu. Często o wiele lepszym niż bazy danych, gdyż dane pochodzące z tych ostatnich najczęściej i tak wymagają przygotowania przed analizami, a sposób przeprowadzenia przygotowania pokrywa się w nierzadko w znacznym stopniu z przygotowaniem w celu załadowania danych do hurtowni. Należy jednak zaznaczyć, ze do przeprowadzenia analiz data mining nie jest wymagane istnienie hurtowni.
Dobrze jest więc, gdy decyzje biznesowe wspierane są wszystkimi wspomnianymi powyżej metodami. Wszystkie one bowiem we własnych różnicach odnajdują wzajemne uzupełnienie.
Czasem data mining kojarzony jest też ze statystyką, a więc w tym miejscu warto jeszcze wspomnieć o związku między tymi dwoma sposobami analizy danych. Prawdą jest, że poszczególne techniki data miningowe zawierają elementy analiz statystycznych. Data mining jednak, jako proces, charakteryzowany jest nieco inaczej. Po pierwsze, data mining skupia się na analizie dużych ilości danych. Z powodu wydajności aplikacji jednak, w wielu zastosowaniach nie jest możliwa analiza lub nawet dostęp do całej bazy danych. Dlatego też wymagane jest próbkowanie danych (sampling) w celu wyboru danych reprezentatywnych. Musi ono zaś być przeprowadzone w taki sposób, aby uwzględniać cele analiz, co często wyklucza stosowanie tradycyjnych metod statystycznych. Posłużmy się następującym przykładem. Chcąc uczulić model decyzyjny, powstały w wyniku analiz data mining, na występowanie pewnych sytuacji, np. przypadków defraudacji, z bazy danych pobrać należy dużą ilość obserwacji zawierających takie przypadki. Wynika to z samej natury zjawiska: defraudacja występuje dosyć rzadko w stosunku do przypadków prawidłowych, w związku z czym wybór grupy reprezentatywnej w sposób wyłącznie statystyczny może bardzo łatwo wyeliminować z analiz obserwacje zawierające defraudacje. Po drugie, bazy danych mogą przechowywać dane w formie nie odpowiadającej zastosowaniom do celów statystycznych, np. dane pochodzące z Internetu. W takim przypadku poszukiwane są inne metody analiz, będące często także po prostu pewną modyfikacją metod czysto statystycznych. Po trzecie, wyniki procesu data miningowego należy konfrontować z rzeczywistością i tylko dzięki w powiązaniu z wiedzą ekspercką można ocenić ich prawidłowość. Statystyka zaś, z założenia stara się zdefiniować jeden model, który niezależnie od szczególnego przypadku analizowanych danych, daje pożądane rezultaty. Na koniec warto dodać, że dane do celów analiz statystycznych mogą pochodzić z badań eksperymentalnych, podczas gdy analizy data mining zawsze skupiają się na danych rzeczywistych.

Idea systemów wspomagania decyzji

Celem systemów wspomagania decyzji (Decision Support Systems, określanych skrótem DSS) jest zapewnienie wsparcia decydentom w trakcie procesu podejmowania decyzji.
Ogólnie rzecz ujmując, przed podjęciem decyzji o jak najlepszych rezultatach, dysponować należy odpowiednimi informacjami, na których tę decyzję można oprzeć. Czasem więc podejmując decyzję można się oprzeć na danych historycznych, o ile takie są odpowiednie i dostępne, lecz czasem trzeba do tego celu dane zebrać. Wykorzystywana informacja może przybierać postać faktów, liczb, wykresów, schematów, rysunków bądź nawet dźwięków. Pochodzi ona z różnych źródeł, jest zbierana w jednym miejscu i łączona. Proces organizowania i badania informacji możliwej do wykorzystania przy rozpatrywaniu różnych opcji podejmowanej decyzji, jest nazywany w tej dziedzinie procesem modelowania. Modele tworzy się więc po to, by pomagać decydentom w zrozumieniu konsekwencji możliwych do wyboru opcji.
Jakość podejmowanej decyzji zależy od jakości dostępnej informacji, jej trafności, ilości opcji oraz odpowiedniego modelowania, jakie jest możliwe do podjęcia w czasie wystąpienia problemu decyzyjnego. W tym miejscu warto zaznaczyć, że to nie ilość dostępnej informacji jest ważna, ale właśnie jej stosowność względem rozpatrywanego problemu.
Tak więc aby polepszyć mechanizm podejmowania decyzji, polepszyć należy proces gromadzenia informacji oraz jej analiz. Jednym ze sposobów osiągnięcia tego celu jest zastosowanie systemów wspomagania decyzji (DSS). DSS to system komputerowy, który: zbiera dane pochodzące z różnych źródeł, pomaga w organizowaniu i analizie zawartych w nich informacji i ułatwia ocenę założeń leżących u podstaw użycia odpowiednich modeli.
Systemy wspomagania decyzji pozwalają więc decydentom na dostęp do wielu danych oraz na ich łatwą analizę, w sposób przydatny dla rozwiązania konkretnego problemu. Dostępne dane mogą pochodzić także spoza organizacji.
Skoro więc obecność DSS zapewnia możliwość zwiększenia wydajności procesu zbierania danych i ich analizy, to zwiększa także jakość i elastyczność podejmowanych decyzji, a co za tym idzie, zarządzanie organizacjami.
Systemy wspomagania decyzji najbardziej są przydatne wtedy, gdy nie jest oczywiste jaką informację należy dostarczyć, jakie modele zastosować, a nawet jakie kryteria są najodpowiedniejsze. Innymi słowy wtedy, gdy nie jest wiadomo a priori jaki wybór należy podjąć.

Możliwość wykorzystania data miningu w systemach wspomagania decyzji

Gdzie w systemach DSS umieścić można możliwość wykorzystania data miningu?
Jak wspomniano w rozdziale pierwszym, istnieje wiele sposobów analizy danych i data mining jest jedną z nich. Jak przedstawione zostanie w rozdziale czwartym, data mining jest sam w sobie procesem złożonym. Jego cel jest jednak zbliżony do celów charakterystycznych dla DSS: dostarczenie wyników analiz, które będą przydatne w procesie podejmowania decyzji. Wyniki te nie są arbitralne i to sam decydent, dzięki swojej wiedzy eksperckiej dotyczącej problemu, uznać musi ich przydatność dla jego rozwiązania. Data mining nie podejmuje więc decyzji, ale ją wspomaga.
Data mining jako wyniki analiz może dostarczać np. raporty tabelaryczne, graficzne, zestawienia, a także wiele innych. Spełnia więc wymagania stawiane systemom DSS. Korzysta także z danych, które mogą być pomocne w rozwiązywaniu problemów. Te jednak muszą być nie tylko wybrane spośród wszystkich dostępnych, ale również odpowiednio przygotowane. Ta ostatnia trudność musi być pokonana przy obecności czynnika ludzkiego, tj. analityka. Znając bowiem nie tylko stawiany problem ale też specyfikę algorytmów i rozpoznając właściwości samych danych, jest on w stanie odpowiednio to zrobić. Niestety, nie da się procesu przygotowania danych całkowicie zautomatyzować.