Abstract | Suvremena poduzeća traže način na koji će korištenjem ogromnih količina dostupnih
podataka steći konkurentske prednosti. Jedan od načina za ostvarenje tog cilja je korištenje
tehnika rudarenja podataka. Aktivnosti rudarenja podataka (eng. Data Mining) predstavljaju
iterativni proces usmjeren prema analizi velikih količina podataka s ciljem izvlačenja korisnih
informacija i znanja, koji se mogu pokazati korisnim za rješavanje problema i donošenje
odluka. Pri tom se koristi širokom lepezom alata kao što su asocijacije, grupiranja i stabla
odlučivanja, kako bi postiglo svoje ciljeve.
Prema CRISP-DM metodologiji, uobičajeni proces rudarenja podataka sastoji se od šest
iterativnih koraka. Prvi korak je razumijevanje poslovanja gdje je cilj shvatiti što se želi
rudarenjem podataka postići iz poslovne perspektive. Druga faza, razumijevanje podataka,
odnosi se na prikupljanje i opće sagledavanje podataka. Treća faza, priprema podataka, svodi
se na pretvaranje podataka u oblik pogodan za analizu i rudarenje. Četvrta faza, modeliranje,
sastoji se od odabira tehnika rudarenja, stvaranje modela rudarenja podataka i pokretanja tog
modela. Peta faza, procjena, utvrđuje se stupanj zadovoljavanja poslovnih ciljeva, Posljednja
faza, implementacija, identificira način na koji će se stvoreni rezultati koristiti.
Ti su teorijski koncepti praktično primijenjeni na primjeru skupa podataka o općim
karakteristikama Erasmus+ projekata. Provođenjem eksplorativne analize na primjeru dolazi
se do rezultata o učestalim karakteristikama projekata, dok se dubljim rudarenjem podataka
otkrivaju skriveni obrasci u podacima. |
Abstract (english) | Modern corporations seek for a way to use huge amounts of available data to accrue
competitive advantages. One way of doing it is by using data mining. The term data mining
refers to the overall process consisting of data gathering and analysis, development of
inductive learning models and adoption of practical decisions and consequent actions bade on
the knowledge acquired. It uses wide array of tools such as associations, clustering and
decision trees, to achieve its goals.
Usual data mining process according to the CRISP-DM methodology consists of six iterative
phases. First phase is business understanding where the goal is to understand what's expected
to accomplish from a business perspective. Second phase, data understanding, requires
acquiring the data listed in the project resources and analyse it. Third phase, data preparation,
is where the decided data is being prepared for analysis. Fourth phase, modelling, consists of
choosing modelling techniques, creating a data mining model, and running that model. Fifth
phase, evaluation, assesses the degree to which the model meets business objectives. Last
phase, deployment, identifies the way to use the produced results.
Those theoretical concepts can be practically applied on data set consisting of general
information about Erasmus+ projects. Making the exploratory analysis on example set results
with common characteristics of projects, while making a deeper, data mining analysis results
with uncovering the hidden patterns in data. |