Sadržaj se učitava...
mdi-home Početna mdi-account-multiple Djelatnici mdi-script Studiji mdi-layers Katedre mdi-calendar-clock Raspored sati FOI Nastava search apps mdi-login
Otkrivanje znanja u podacima
Data Mining
2023/2024
4 ECTSa
Informacijski i poslovni sustavi 1.1 (PDS)
Katedra za razvoj informacijskih sustava
RI
5. semestar
Osnovne informacijemdi-information-variant Izvođači nastavemdi-account-group Nastavni plan i programmdi-clipboard-text-outline Model praćenjamdi-human-male-board Ispitni rokovimdi-clipboard-check-outline Rasporedmdi-calendar-clock Konzultacijemdi-account-voice
Izvođenje kolegija
Studij Studijski program Semestar Obavezan
Informacijski i poslovni sustavi 1.1 (PDS) Poslovni sustavi 5 izborni
Informacijski i poslovni sustavi 1.1 (PDS) Informacijski sustavi 5 izborni
Cilj kolegija
Upoznavanje temeljnih principa otkrivanja znanja u podacima; upoznavanje tehnika i algoritama; upoznavanje alata SAS za tu namjenu; koraci primjene i način povezivanja s tehnologijama sustava za upravljanje bazama podataka, skladištima podataka, online obrada i statistikom; temeljne vještina analize podataka, izrada izvješća i grafičkih prikaza poslovnih izvješća; način primjene u poslovanju, bankarstvu i znanosti
Preduvjeti
Norma kolegija
Predavanja
30 sati
Vježbe u praktikumu
30 sati
Nastavnik Uloga na kolegiju Oblik nastave Tjedana Sati Grupa
Kliček Božidar Nositelj
Oreški Dijana Suradnik Predavanja 0 1 0
Sadržaj predavanja
  • Uvod
    Pregled područja: svrha, nužnost i izazovi. Proces otkrivanja znanja: glavne faze, poslovni problemi, razumijevanje i priprema podataka, postavljanje traženja znanja, traženje znanja, pročišćavanje znanja, primjena znanja za poslovne probleme, primjena. Multidisciplinarni pristupi: temelji, opći znanstveni pristup, logika (induktivni I deduktivni sustavi), filozofija znanosti, statistika, teorija informacija, baze podataka, umjetna inteligencija i strojno učenje.
  • Podaci
    Tipovi i oblici podataka: tablice, vremenski i prostorno ovisni podaci, tekstualni podaci, meta podaci. Vrste znanja: tablice, grupe, pravila, stabla odlučivanja, funkcijski odnosi, klasteri, taksonomije i koncepti hijerarhija, probabilističke mreže, neuronske mreže. Podaci i znanje u bazama podataka: relacijske baze podataka, objektno orijentirane, multimdimenzionalne baze i OLAP, deduktivne baze, paralelne baze, distribuirane I heterogene baze, upravljanje meta podacima.
  • Statistika
    Logika: propozicijska logika i logika predikata u prikazu znanja, deduktivni I induktivni sustavi, otkrivanje zakonitosti kao logički process. Statistika: definicije uzoraka, testiranje statističkih hipoteza, Bayesov pogled, neeksperimentalni podaci. Izrazita i neizrazita logika, tehnike traženja u podacima i znanju.
  • Faze otkrivanja zakonitosti u podacima
    Koraci procesa otkrivanja zakonitosti: razumijevanje poslovnog sustava, podaci, priprema podataka, modeliranje, evaluacija, dostavljanje rezultata. Skladištenje podataka (data warehousing): identifikacija I čišćenje podataka, tehnike prikupljanja podataka, redukcija podataka, vizualizacija podataka.
  • Metode rudarenja podataka
    Rudarenje podataka (data mining). Klasifikacija: opis postupka, metodologija. Stabla odlučivanja, tehnike C4.5, klasifikacijksa i regresijska stabla, napredne metode. Pravila: sekvencijalne metode. Bayesova klasifikacija. Pristupi najbližeg susjeda. Regresijske metode: empirijske, kvadratno diskriminantne, logistička regresija, kaknoske diskriminante. Neuronske mreže. Višekriterijska klasifikacija. Otkrivanje pravila: pristup izrazitih skupova, karakteristična parvila, asocijacijska pravila, pristupi induktivnog logičkog programiranja.
  • Otkrivanje podgrupa, prilagođavanje formula
    Otkrivanje podgrupa: razlog za analizu podgrupa, analiza devijacija, analiza promjena, metoda bušenja (OLAP, temeljeno na znanju). Podešavanje formula: provjera ovisnosti među varijablama, pronalaženje jedne i više formula, korištenje a priori znanja. Multidimenzionalna regresijska analiza: specifikacija modela, prilagođavanje modela.
  • Klasterifikacija
    Klasterifikacija: konceptualna klasterifikacija. Probabilističke i kauzalne mreže. Analize za vjerojatnostne mreže: uvod, Bayesov pristup za nesigurnost modela. Paralelne metode.
  • Problemi primjene
    Izbor zadaća i metoda. Znanje domene: taksonomija, ograničenja, prijašnje znanje, preference korisnika. Evaluacija znanja: statistički pristup, usporedbe, metematičko prilagođavanje, testovi slučajnosti, test minimalnog opisa. Korisnost, inovativnost I inegracija mjera zanimljivosti. Prikaz i vizualizacija. Primjena u procesu odlučivanja. Pravni aspekti. Sustavi za otkrivanje, komercijalni alati.
  • Interdisciplinarni problemi
    Interdiscipinarni problemi: statistika, poslovanje, industrija. Analize slučajeva
  • Rudarenje teksta
    Otkrivanje znanja u tekstualnim podacima: jedinstveni problemi teksta, alternativni prikazi teksta, termini, teksonomija, pronalaženje asocijativni pravila iz izbora dokumenata.
  • Analiza slučajeva
    Analize slučajeva, programski alati, primjena u procesu odlučivanja. Pregled istraživanja.
Sadržaj seminara/vježbi
  • 1. Data mining
    Osnove dana mininga. Alati SAS. Sučelja. Osnovne mogućnosti izrada modela, prikaz rezultata preko weba, razmjena dijagrama, izrada predložaka modela. Java API. Repozitorij modela i dijagrama primjeri modela, dijagrama.
  • 2. Vrste obrade i pristupa podacima
    Obrada na strani servera asinhroni model učenja nad podacima. Paralelna obrada istovremena obrada više modela. Višedretveni algoritmi. Pristup podacima struktura datoteka. Upotreba SAS-a za izradu skupova podataka za trening. Upotreba SAS-a za prikaz i povrat rezultata obrade.
  • 3. Uzorkovanje
    Pojam uzorkovanja. Potreba za uzorkovanjem. Vrste uzorkovanja. Slučajno uzorkovanje. Stratificirano uzorkovanje. Uzorkovanje prema težinama. Uzorkovanje po klasterima. Sistematsko uzorkovanje. Uzorkovanje prema redoslijedu. Uzorkovanje po rijetkim događajima. Primjeri načina uzorkovanja u SAS-u.
  • 4. Skupovi podataka
    Izrada skupova podataka skupovi podataka za učenje, za validaciju, za testiranje. Particioniranje po klasma varijabli. Transformacije. Filtriranje podatka eliminacija ekstremnih vrijednosti. Zamjena podataka.
  • 5. Deskriptivna statistika
    Statistika i grafički prikazi intervali varijabli, klase varijabli, distribucije.
  • 6. Grafički prikazi
    Vrste grafičkih prikaza u SAS-u: histogrami, višedimenzionalni grafički prikazi, pite grafički prikazi, area plots, mjehuričasti dijagrami. Izrada grafičkih prikaza. Dinamička obrada podataka i uzorkovanje podataka. Interaktivno povezivanje podataka, tabela i grafičkih prikaza.
  • 7. Primjena rudarenja nad podacima
    Primjer 1: analiza upotrebe weba traženje zakonitosti među podacima o posjećenim web stranicama. Pretraživanje linkova prema učestalosti njihovog korištenja. Primjer 2: analiza životnog stila mladih ljudi.
  • 8. Stabla odlučivanja
    Osnovno o stablima odlučivanja klasifikacija i regresija stabla odlučivanja, odabir stabla odlučivanja na temelju ciljeva i preciznosti potkresivanja (pruninga). Kriteriji prema kojima se vrši granja stabla: Hi-kvadrat, F-test, Gini, entropija, redukcija varijance. Izrada pravila na temelju stabla odlučivanja. Određivanje utjecaja varijabli. Izrada stabla odlučivanja na temelju skupa podataka.
  • 9. Neuronske mreže
    Osnovno o neuronskim mrežama neuroni, skriveni i izlazni slojevi, veze neurona, težine veza, interna aktivacija, funkcija prijenosa. Tehnike učenja neuronskih mreža u SAS Enterprise Mineru. Optimizacija. Standardizacija izlaza. Izrada modela neuronske mreže na temelju skupa podataka u alatu SAS Enterprise Miner.
  • 10. Indukcija pravila
    Indukcija pravila iz skupova podataka, stabla odlučivanja i neuronskih mreža u SAS-u.
  • 11. Modeli podataka u SAS-u
    Usporedba modela za prikaz podataka. Kriteriji za odabir modela za prikaz skupa podataka. Statistika modela. Modeli i grafički prikazi podataka. Klasifikacijske matrice. Izrada različitih modela u alatu SAS Enterprise Miner.
  • 12. Otkrivanje znanja u nestrukturiranim sadržajima
    Osnove alata SAS Text Miner. Sučelja. Povezivanje strukturiranih i nestrukturiranih sadržaja. Analiza nestrukturiranih sadržaja - teksta. Otkrivanje skrivenih veza između tekstualnih i drugih baza podataka.
  • 13. Pretraživanje nestrukturiranih sadržaja
    Čitanje nestrukturiranog sadržaja. Pronalaženje izraza i fraza u tekstovima. Definiranje rječnika ključnih riječi. Traženje odnosa između ključnih riječi, pojmova, fraza u tekstovima. Sažimanje nestrukturiranih sadržaja velike složenosti u sadržaje manje složenosti.
  • 14. Povezivanje sličnih dokumenata
    Filtriranje dokumenata. Kriteriji filtriranja pojava određenog pojma, ne postojanje određenog pojma. Filtriranje dijelova dokumenata. Povezivanje dijelova istih karakteristika u novi dokument.
  • 15. Prikaz veza
    Grafički prikaz odnosa i veza između skupine dokumenata. Pretraživanje skupa dokumenata po vezama. Utvrđivanje uzoraka na temelju veza. Pretraživanje skupa dokumenata po hijerarhijskoj strukturi pojmova. Povezivanje s alatima SAS-a. Uključivanje rezultata obrade.
Ishodi učenja kolegija
  • upoznavati temeljne principe otkrivanja znanja u podacima
  • upoznati metode i tehnike za rudarenje podataka
  • upoznati praktične realizacija tehnika u otkrivanje znanja u podacima u visokokvalitetnom alatu (SAS)
  • primjeniti otkrivanje znanja u podacima (temeljne vještina analize podataka, izrada izvješća i grafičkih prikaza poslovnih izvješća, napredne metode za analizu podataka) u poslovanju, bankarstvu i znanosti
Ishodi učenja programa
  • razumjeti stanje i trendove razvoja suvremenih informacijskih i komunikacijskih tehnologija (ICT), razumjeti njihov utjecaj na pojedinca, organizaciju i društvo te procijeniti njihovu primjenjivost u zadanom kontekstu
  • razumjeti i primijeniti ključne aspekte informacijske tehnologije (programiranje, algoritmi, strukture podataka, baze podataka i znanja
  • razumjeti i primijeniti suvremene tehničke koncepte i prakse u informacijskim tehnologijama (arhitektura računala, operacijski sustavi, mreže računala)
  • razumjeti i primijeniti matematičke metode, modele i tehnike primjerene rješavanju problema iz područja informacijskih i poslovnih sustava
  • razumjeti bitne čimbenike koji utječu na poslovanje organizacije i pojedinaca te primijeniti osnovne metode i koncepte planiranja, upravljanja i obračuna poslovanja
  • analizirati stanje, identificirati prilike i definirati probleme s kojima se susreću organizacije i pojedinci u primjeni ICT, te formulirati rješenja uz primjenu ICT
  • razumjeti osnovna vertikalna područja primjene ICT (industrija, zdravstvo, promet, turizam, država i sl.), te horizontalne aplikacije (uredski sustavi, DSS, CRM, ERP, DMS i sl.)
  • razumjeti i primijeniti suvremene metodološke pristupe razvoja organizacijskih i informacijskih sustava, te oblikovanja organizacije i organizacijske strukture
  • razumjeti suvremene organizacijske koncepte i upravljati organizacijskom kulturom
  • modelirati poslovne procese i podatke u organizacijama i primijeniti modele u razvoju informacijskih i poslovnih sustava
  • razumjeti i primijeniti metode, tehnike razvoja informacijskih i programskih sustava u suvremenim razvojnim okolinama
  • razumjeti i primijeniti procese, metode i tehnologije upravljanja IT uslugama i resursima te podrške i pružanja različitih vrsta usluga vezanih uz ICT
  • razumjeti i primijeniti etička načela, zakonsku regulativu i norme koje se primjenjuju u struci
  • razumjeti osnovna načela i metode upravljanja organizacijom i uspješno raditi u timu
  • uspješno komunicirati s klijentima, korisnicima i kolegama na verbalan i pisani način uz primjenu odgovarajuće terminologije uključujući i sposobnost komunikacije o struci na stranom jeziku
  • pratiti stručnu literaturu na hrvatskom i stranom jeziku, pripremiti i samostalno održati prezentacije na hrvatskom i stranom jeziku stručnoj i općoj publici, te kritičku evaluaciju prezentirane stručne teme
  • razumjeti i primijeniti vještine učenja potrebne za cjeloživotno učenje i nastavak obrazovanja na diplomskom studiju
  • razumjeti i primijeniti osnovne principe planiranja i razvoja karijere u struci i vlastitih poduzetničkih poduhvata
  • poznavati ključne aspekte informacijske tehnologije
  • identificirati i razumjeti bitne čimbenike koji utječu na poslovanje organizacije i pojedinaca te primijeniti osnovne metode i koncepte planiranja, upravljanja i obračuna poslovanja
  • prepoznati osnovna vertikalna područja primjene ICT (industrija, zdravstvo, promet, turizam, država i sl.), te horizontalne aplikacije (uredski sustavi, DSS, CRM, ERP, DMS i sl.)
  • razumjeti metode, tehnike razvoja informacijskih i programskih sustava u suvremenim razvojnim okolinama
  • razumjeti procese, metode i tehnologije upravljanja IT uslugama i resursima te podrške i pružanja različitih vrsta usluga vezanih uz ICT
  • identificirati ključne podatke i informacije za donošenje racionalnih poslovnih odluka
  • analizirati i vrednovati rezultat poslovanja, te predložiti unapređenje poslovnog sustava.
  • PROBAnje OPISivanja....
Osnovna literatura
  • Data mining and knowledge discovery handbook. Editors Oded Maimon, Lior Rokach. Springer, New York, 2005.
  • Bramer, M. A. Principles of data mining. Springer, London, 2007.
Dopunska literatura
  • Han, J., Kamber, M. Data mining : concepts and techniques. 2nd ed. Morgan Kaufmann, San Francisco, 2006.
  • Berry, M., Linnof, G. Data mining techniques : for marketing, sales, and customer relationship management. 2nd ed. Wiley, Indianapolis, 2004.
  • Cox, E. Fuzzy modelling and genetic algorithms for data mining and exploration. Morgan Kaufman, Amsterdam, 2005.
  • Advances in knowledge discovery and data mining. Editors Usama M. Fayyad et al. AAAI, Menlo Park, 1996.
Slični kolegiji
  • Otkrivanje znanja u bazama podataka, Ekonomski fakultet u Zagrebu [http://www.efzg.hr/default.aspx?id=5498]
  • Programski alat za razvoj najsloženijih sustava temeljenih na znanju, primjenom pravila, stabla odlučivanja, data mining indukcijom stabala odlučivanja, neizrazite logike i genetskih algoritama.
Redoviti studenti Izvanredni studenti
izvanredni rok
Datum: 14.04.2025.
Vrijeme: 16:00
Opis: Na Fakultetu
U kalendaru ispod se nalaze konzultacije predmetnih nastavnika, no za detalje o konzultacijama možete provjeriti na profilu pojedinog predmetnog nastavnika.
2024 © Fakultet organizacije i informatike, Centar za razvoj programskih proizvoda