FOI nastava
FOI logo

Lista kolegija iz:

ak.god:
2014/2015
semestar:
5. semestar

2014/2015

4ECTSa

Preddiplomski

Informacijski/Poslovni sustavi v1.1

Program Obavezan
Informacijski sustavi IS Ne
Poslovni sustavi PS Ne
5. semestar
3. nastavna godina

Otkrivanje znanja u podacima npp:72621

Engleski naziv

Eliciting Knowledge from Data

Katedra

Katedra za razvoj informacijskih sustava

Kategorija ("boja")

RI

Cilj kolegija

Upoznavanje temeljnih principa otkrivanja znanja u podacima; upoznavanje tehnika i algoritama; upoznavanje alata SAS za tu namjenu; koraci primjene i način povezivanja s tehnologijama sustava za upravljanje bazama podataka, skladištima podataka, online obrada i statistikom; temeljne vještina analize podataka, izrada izvješća i grafičkih prikaza poslovnih izvješća; način primjene u poslovanju, bankarstvu i znanosti

Nastava

Predavanje
30sati
Laboratorijske vježbe
30sati

Ishodi učenja predmeta

  • primjeniti otkrivanje znanja u podacima (temeljne vještina analize podataka, izrada izvješća i grafičkih prikaza poslovnih izvješća, napredne metode za analizu podataka) u poslovanju, bankarstvu i znanosti
  • upoznati metode i tehnike za rudarenje podataka
  • upoznati praktične realizacija tehnika u otkrivanje znanja u podacima u visokokvalitetnom alatu (SAS)
  • upoznavati temeljne principe otkrivanja znanja u podacima

Ishodi učenja programa

  • analizirati i vrednovati rezultat poslovanja, te predložiti unapređenje poslovnog sustava.analizirati i vrednovati rezultat poslovanja, te predložiti unapređenje poslovnog sustava.
  • identificirati i razumjeti bitne čimbenike koji utječu na poslovanje organizacije i pojedinaca te primijeniti osnovne metode i koncepte planiranja, upravljanja i obračuna poslovanjaidentificirati i razumjeti bitne čimbenike koji utječu na poslovanje organizacije i pojedinaca te primijeniti osnovne metode i koncepte planiranja, upravljanja i obračuna poslovanja
  • identificirati ključne podatke i informacije za donošenje racionalnih poslovnih odlukaidentificirati ključne podatke i informacije za donošenje racionalnih poslovnih odluka
  • modelirati poslovne procese i podatke u organizacijama i primijeniti modele u razvoju informacijskih i poslovnih sustavamodelirati poslovne procese i podatke u organizacijama i primijeniti modele u razvoju informacijskih i poslovnih sustava
  • razumjeti bitne čimbenike koji utječu na poslovanje organizacije i pojedinaca te primijeniti osnovne metode i koncepte planiranja, upravljanja i obračuna poslovanjarazumjeti bitne čimbenike koji utječu na poslovanje organizacije i pojedinaca te primijeniti osnovne metode i koncepte planiranja, upravljanja i obračuna poslovanja
  • razumjeti i primijeniti matematičke metode, modele i tehnike primjerene rješavanju problema iz područja informacijskih i poslovnih sustava razumjeti i primijeniti matematičke metode, modele i tehnike primjerene rješavanju problema iz područja informacijskih i poslovnih sustava

Sadržaj predavanja

  • Uvod
    Pregled područja: svrha, nužnost i izazovi. Proces otkrivanja znanja: glavne faze, poslovni problemi, razumijevanje i priprema podataka, postavljanje traženja znanja, traženje znanja, pročišćavanje znanja, primjena znanja za poslovne probleme, primjena. Multidisciplinarni pristupi: temelji, opći znanstveni pristup, logika (induktivni I deduktivni sustavi), filozofija znanosti, statistika, teorija informacija, baze podataka, umjetna inteligencija i strojno učenje.
  • Podaci
    Tipovi i oblici podataka: tablice, vremenski i prostorno ovisni podaci, tekstualni podaci, meta podaci. Vrste znanja: tablice, grupe, pravila, stabla odlučivanja, funkcijski odnosi, klasteri, taksonomije i koncepti hijerarhija, probabilističke mreže, neuronske mreže. Podaci i znanje u bazama podataka: relacijske baze podataka, objektno orijentirane, multimdimenzionalne baze i OLAP, deduktivne baze, paralelne baze, distribuirane I heterogene baze, upravljanje meta podacima.
  • Statistika
    Logika: propozicijska logika i logika predikata u prikazu znanja, deduktivni I induktivni sustavi, otkrivanje zakonitosti kao logički process. Statistika: definicije uzoraka, testiranje statističkih hipoteza, Bayesov pogled, neeksperimentalni podaci. Izrazita i neizrazita logika, tehnike traženja u podacima i znanju.
  • Faze otkrivanja zakonitosti u podacima
    Koraci procesa otkrivanja zakonitosti: razumijevanje poslovnog sustava, podaci, priprema podataka, modeliranje, evaluacija, dostavljanje rezultata. Skladištenje podataka (data warehousing): identifikacija I čišćenje podataka, tehnike prikupljanja podataka, redukcija podataka, vizualizacija podataka.
  • Metode rudarenja podataka
    Rudarenje podataka (data mining). Klasifikacija: opis postupka, metodologija. Stabla odlučivanja, tehnike C4.5, klasifikacijksa i regresijska stabla, napredne metode. Pravila: sekvencijalne metode. Bayesova klasifikacija. Pristupi najbližeg susjeda. Regresijske metode: empirijske, kvadratno diskriminantne, logistička regresija, kaknoske diskriminante. Neuronske mreže. Višekriterijska klasifikacija. Otkrivanje pravila: pristup izrazitih skupova, karakteristična parvila, asocijacijska pravila, pristupi induktivnog logičkog programiranja.
  • Otkrivanje podgrupa, prilagođavanje formula
    Otkrivanje podgrupa: razlog za analizu podgrupa, analiza devijacija, analiza promjena, metoda bušenja (OLAP, temeljeno na znanju). Podešavanje formula: provjera ovisnosti među varijablama, pronalaženje jedne i više formula, korištenje a priori znanja. Multidimenzionalna regresijska analiza: specifikacija modela, prilagođavanje modela.
  • Klasterifikacija
    Klasterifikacija: konceptualna klasterifikacija. Probabilističke i kauzalne mreže. Analize za vjerojatnostne mreže: uvod, Bayesov pristup za nesigurnost modela. Paralelne metode.
  • Problemi primjene
    Izbor zadaća i metoda. Znanje domene: taksonomija, ograničenja, prijašnje znanje, preference korisnika. Evaluacija znanja: statistički pristup, usporedbe, metematičko prilagođavanje, testovi slučajnosti, test minimalnog opisa. Korisnost, inovativnost I inegracija mjera zanimljivosti. Prikaz i vizualizacija. Primjena u procesu odlučivanja. Pravni aspekti. Sustavi za otkrivanje, komercijalni alati.
  • Interdisciplinarni problemi
    Interdiscipinarni problemi: statistika, poslovanje, industrija. Analize slučajeva
  • Rudarenje teksta
    Otkrivanje znanja u tekstualnim podacima: jedinstveni problemi teksta, alternativni prikazi teksta, termini, teksonomija, pronalaženje asocijativni pravila iz izbora dokumenata.
  • Analiza slučajeva
    Analize slučajeva, programski alati, primjena u procesu odlučivanja. Pregled istraživanja.

Sadržaj seminara/vježbi

  • 1. Data mining
    Osnove dana mininga. Alati SAS. Sučelja. Osnovne mogućnosti izrada modela, prikaz rezultata preko weba, razmjena dijagrama, izrada predložaka modela. Java API. Repozitorij modela i dijagrama primjeri modela, dijagrama.
  • 2. Vrste obrade i pristupa podacima
    Obrada na strani servera asinhroni model učenja nad podacima. Paralelna obrada istovremena obrada više modela. Višedretveni algoritmi. Pristup podacima struktura datoteka. Upotreba SAS-a za izradu skupova podataka za trening. Upotreba SAS-a za prikaz i povrat rezultata obrade.
  • 3. Uzorkovanje
    Pojam uzorkovanja. Potreba za uzorkovanjem. Vrste uzorkovanja. Slučajno uzorkovanje. Stratificirano uzorkovanje. Uzorkovanje prema težinama. Uzorkovanje po klasterima. Sistematsko uzorkovanje. Uzorkovanje prema redoslijedu. Uzorkovanje po rijetkim događajima. Primjeri načina uzorkovanja u SAS-u.
  • 4. Skupovi podataka
    Izrada skupova podataka skupovi podataka za učenje, za validaciju, za testiranje. Particioniranje po klasma varijabli. Transformacije. Filtriranje podatka eliminacija ekstremnih vrijednosti. Zamjena podataka.
  • 5. Deskriptivna statistika
    Statistika i grafički prikazi intervali varijabli, klase varijabli, distribucije.
  • 6. Grafički prikazi
    Vrste grafičkih prikaza u SAS-u: histogrami, višedimenzionalni grafički prikazi, pite grafički prikazi, area plots, mjehuričasti dijagrami. Izrada grafičkih prikaza. Dinamička obrada podataka i uzorkovanje podataka. Interaktivno povezivanje podataka, tabela i grafičkih prikaza.
  • 7. Primjena rudarenja nad podacima
    Primjer 1: analiza upotrebe weba traženje zakonitosti među podacima o posjećenim web stranicama. Pretraživanje linkova prema učestalosti njihovog korištenja. Primjer 2: analiza životnog stila mladih ljudi.
  • 8. Stabla odlučivanja
    Osnovno o stablima odlučivanja klasifikacija i regresija stabla odlučivanja, odabir stabla odlučivanja na temelju ciljeva i preciznosti potkresivanja (pruninga). Kriteriji prema kojima se vrši granja stabla: Hi-kvadrat, F-test, Gini, entropija, redukcija varijance. Izrada pravila na temelju stabla odlučivanja. Određivanje utjecaja varijabli. Izrada stabla odlučivanja na temelju skupa podataka.
  • 9. Neuronske mreže
    Osnovno o neuronskim mrežama neuroni, skriveni i izlazni slojevi, veze neurona, težine veza, interna aktivacija, funkcija prijenosa. Tehnike učenja neuronskih mreža u SAS Enterprise Mineru. Optimizacija. Standardizacija izlaza. Izrada modela neuronske mreže na temelju skupa podataka u alatu SAS Enterprise Miner.
  • 10. Indukcija pravila
    Indukcija pravila iz skupova podataka, stabla odlučivanja i neuronskih mreža u SAS-u.
  • 11. Modeli podataka u SAS-u
    Usporedba modela za prikaz podataka. Kriteriji za odabir modela za prikaz skupa podataka. Statistika modela. Modeli i grafički prikazi podataka. Klasifikacijske matrice. Izrada različitih modela u alatu SAS Enterprise Miner.
  • 12. Otkrivanje znanja u nestrukturiranim sadržajima
    Osnove alata SAS Text Miner. Sučelja. Povezivanje strukturiranih i nestrukturiranih sadržaja. Analiza nestrukturiranih sadržaja - teksta. Otkrivanje skrivenih veza između tekstualnih i drugih baza podataka.
  • 13. Pretraživanje nestrukturiranih sadržaja
    Čitanje nestrukturiranog sadržaja. Pronalaženje izraza i fraza u tekstovima. Definiranje rječnika ključnih riječi. Traženje odnosa između ključnih riječi, pojmova, fraza u tekstovima. Sažimanje nestrukturiranih sadržaja velike složenosti u sadržaje manje složenosti.
  • 14. Povezivanje sličnih dokumenata
    Filtriranje dokumenata. Kriteriji filtriranja pojava određenog pojma, ne postojanje određenog pojma. Filtriranje dijelova dokumenata. Povezivanje dijelova istih karakteristika u novi dokument.
  • 15. Prikaz veza
    Grafički prikaz odnosa i veza između skupine dokumenata. Pretraživanje skupa dokumenata po vezama. Utvrđivanje uzoraka na temelju veza. Pretraživanje skupa dokumenata po hijerarhijskoj strukturi pojmova. Povezivanje s alatima SAS-a. Uključivanje rezultata obrade.

Alati koji se koriste na predmetu

  • XpertRule Knowledge Builder
    Programski alat za razvoj najsloženijih sustava temeljenih na znanju, primjenom pravila, stabla odlučivanja, data mining indukcijom stabala odlučivanja, neizrazite logike i genetskih algoritama.
  • SAS JMP 7
    Programski alat za statističko istraživanje podataka i za data mining, kao najprikaldniji način učenja metoda poslovne inteligencija sustava SAS
  • SAS AAS - Academic Analysis Suite
    Kolekcija najnaprednijih alata za otkrivanje znanja u podacima proizvođača SAS Institute, pod nazivom SAS AAS - Academic Analysis Suite, koja sadrži data warehousing, OLAP, reporting, data i text mining, programiranje novih algoritama SAS 4GL, macro, Screen Control, IML), razvoj aplikacija (AF, FSP moduli, vizualizacija podataka, prikaz SAS rezultata na Webu, kontrola i unapređivanje kvalitete te dizajn eksperimenata, ekonometrijsko modeliranje i analiza vremenskih serija (ETS modul), operacijska istraživanja i podrška u odlučivanju (OR modul), izvršni informacijski sustavi (EIS modul), rudarenje podataka (Enterprise Miner modul), rudarenje tekstualnih podataka (Text Miner modul), podrška genetskim istraživanjima (Genetics modul).

Osnovna literatura

  • Data mining and knowledge discovery handbook. Editors Oded Maimon, Lior Rokach. Springer, New York, 2005.
  • Bramer, M. A. Principles of data mining. Springer, London, 2007.

Dopunska literatura

  • Han, J., Kamber, M. Data mining : concepts and techniques. 2nd ed. Morgan Kaufmann, San Francisco, 2006.
  • Berry, M., Linnof, G. Data mining techniques : for marketing, sales, and customer relationship management. 2nd ed. Wiley, Indianapolis, 2004.
  • Cox, E. Fuzzy modelling and genetic algorithms for data mining and exploration. Morgan Kaufman, Amsterdam, 2005.
  • Advances in knowledge discovery and data mining. Editors Usama M. Fayyad et al. AAAI, Menlo Park, 1996.

Preduvjeti

  • Baze podataka 1
    Cilj predmeta je da osposobi studente za razumijevanje tehnologije relacijskih baza podataka. Studenti će u okviru predmeta naučiti sve tri komponente sustava za upravljanje relacijskom bazom podataka (strukturna, operativna i integritetna komponenta). Također, studenti će biti osposobljeni za realizaciju i upravljanje (kreiranje, modifikacija, upiti, indeksi, sigurnost, transakcije) , koristeći SQL, relacijskom bazom podataka
  • Programiranje 2
    Kolegij se nastavlja na Programiranje I s kojim predstavlja cjelinu. Po završetku, studenti trebaju biti sposobni oblikovati, kodirati, testirati, ispravljati i dokumentirati programska, prije svega objektno orijentirana rješenja problema algoritamskog tipa. Ciljna razina složenosti programa jesu programi koji rade s više datoteka i više klasa
  • Statistika
    Cilj ovoga kolegija je naučiti studente metode i vještine koje će koristiti kao podlogu za produbljivanje novih sadržaja u kasnijim godinama studija. Nadalje, težište izučavanja ovoga kolegija je detaljno uvođenje studenata na korištenje metoda primijenjene statističke analize. Primjena ovih metoda može biti korisna već u toku studija i to kod pisanja kako seminarskih radova tako i diplomskog rada. Također, naučene metode i vještine u praksi moći će se primjenjivati kod izrade stručnih i znanstvenih radova. Isto tako mogu poslužiti i na budućem radnom mjestu

Slični predmeti

  • Otkrivanje znanja u bazama podataka, Ekonomski fakultet u Zagrebu [http://www.efzg.hr/default.aspx?id=5498]
  • Programski alat za razvoj najsloženijih sustava temeljenih na znanju, primjenom pravila, stabla odlučivanja, data mining indukcijom stabala odlučivanja, neizrazite logike i genetskih algoritama.
Nastavnik Oblik nastave Tjedana Sati tjedno Grupa
Kliček Božidar Predavanje 10 3 1
Oreški Dijana Laboratorijske vježbe 10 3 1
Nema definiranih ispitnih rokova
Predavanje Seminar Auditorne vježbe Laboratorijske vježbe Vježbe (jezici, tzk) Ispit Kolokviji Nadoknade Demonstrature
Copyright © 2015 FOI Varaždin. All Rights Reserved. Sva prava pridržana.
Povratak na vrh