FOI nastava
FOI logo

Lista kolegija iz:

ak.god:
2016/2017
semestar:
5. semestar

2016/2017

4ECTSa

Preddiplomski

Informacijski/Poslovni sustavi v1.1

Program Obavezan
Informacijski sustavi IS Ne
Poslovni sustavi PS Ne
5. semestar
3. nastavna godina

Otkrivanje znanja u podacima npp:72621

Engleski naziv

Data mining

Katedra

Katedra za razvoj informacijskih sustava

Kategorija ("boja")

RI

Cilj kolegija

Upoznavanje temeljnih principa otkrivanja znanja u podacima; upoznavanje tehnika i algoritama; upoznavanje alata SAS za tu namjenu; koraci primjene i način povezivanja s tehnologijama sustava za upravljanje bazama podataka, skladištima podataka, online obrada i statistikom; temeljne vještina analize podataka, izrada izvješća i grafičkih prikaza poslovnih izvješća; način primjene u poslovanju, bankarstvu i znanosti

Nastava

Predavanje
30sati
Laboratorijske vježbe
30sati

Ishodi učenja predmeta

  • primjeniti otkrivanje znanja u podacima (temeljne vještina analize podataka, izrada izvješća i grafičkih prikaza poslovnih izvješća, napredne metode za analizu podataka) u poslovanju, bankarstvu i znanosti
  • upoznati metode i tehnike za rudarenje podataka
  • upoznati praktične realizacija tehnika u otkrivanje znanja u podacima u visokokvalitetnom alatu (SAS)
  • upoznavati temeljne principe otkrivanja znanja u podacima

Ishodi učenja programa

  • analizirati i vrednovati rezultat poslovanja, te predložiti unapređenje poslovnog sustava.analizirati i vrednovati rezultat poslovanja, te predložiti unapređenje poslovnog sustava.
  • identificirati i razumjeti bitne čimbenike koji utječu na poslovanje organizacije i pojedinaca te primijeniti osnovne metode i koncepte planiranja, upravljanja i obračuna poslovanjaidentificirati i razumjeti bitne čimbenike koji utječu na poslovanje organizacije i pojedinaca te primijeniti osnovne metode i koncepte planiranja, upravljanja i obračuna poslovanja
  • identificirati ključne podatke i informacije za donošenje racionalnih poslovnih odlukaidentificirati ključne podatke i informacije za donošenje racionalnih poslovnih odluka
  • modelirati poslovne procese i podatke u organizacijama i primijeniti modele u razvoju informacijskih i poslovnih sustavamodelirati poslovne procese i podatke u organizacijama i primijeniti modele u razvoju informacijskih i poslovnih sustava
  • razumjeti bitne čimbenike koji utječu na poslovanje organizacije i pojedinaca te primijeniti osnovne metode i koncepte planiranja, upravljanja i obračuna poslovanjarazumjeti bitne čimbenike koji utječu na poslovanje organizacije i pojedinaca te primijeniti osnovne metode i koncepte planiranja, upravljanja i obračuna poslovanja
  • razumjeti i primijeniti matematičke metode, modele i tehnike primjerene rješavanju problema iz područja informacijskih i poslovnih sustava razumjeti i primijeniti matematičke metode, modele i tehnike primjerene rješavanju problema iz područja informacijskih i poslovnih sustava

Sadržaj predavanja

  • Uvod
    Pregled područja: svrha, nužnost i izazovi. Proces otkrivanja znanja: glavne faze, poslovni problemi, razumijevanje i priprema podataka, postavljanje traženja znanja, traženje znanja, pročišćavanje znanja, primjena znanja za poslovne probleme, primjena. Multidisciplinarni pristupi: temelji, opći znanstveni pristup, logika (induktivni I deduktivni sustavi), filozofija znanosti, statistika, teorija informacija, baze podataka, umjetna inteligencija i strojno učenje.
  • Podaci
    Tipovi i oblici podataka: tablice, vremenski i prostorno ovisni podaci, tekstualni podaci, meta podaci. Vrste znanja: tablice, grupe, pravila, stabla odlučivanja, funkcijski odnosi, klasteri, taksonomije i koncepti hijerarhija, probabilističke mreže, neuronske mreže. Podaci i znanje u bazama podataka: relacijske baze podataka, objektno orijentirane, multimdimenzionalne baze i OLAP, deduktivne baze, paralelne baze, distribuirane I heterogene baze, upravljanje meta podacima.
  • Statistika
    Logika: propozicijska logika i logika predikata u prikazu znanja, deduktivni I induktivni sustavi, otkrivanje zakonitosti kao logički process. Statistika: definicije uzoraka, testiranje statističkih hipoteza, Bayesov pogled, neeksperimentalni podaci. Izrazita i neizrazita logika, tehnike traženja u podacima i znanju.
  • Faze otkrivanja zakonitosti u podacima
    Koraci procesa otkrivanja zakonitosti: razumijevanje poslovnog sustava, podaci, priprema podataka, modeliranje, evaluacija, dostavljanje rezultata. Skladištenje podataka (data warehousing): identifikacija I čišćenje podataka, tehnike prikupljanja podataka, redukcija podataka, vizualizacija podataka.
  • Metode rudarenja podataka
    Rudarenje podataka (data mining). Klasifikacija: opis postupka, metodologija. Stabla odlučivanja, tehnike C4.5, klasifikacijksa i regresijska stabla, napredne metode. Pravila: sekvencijalne metode. Bayesova klasifikacija. Pristupi najbližeg susjeda. Regresijske metode: empirijske, kvadratno diskriminantne, logistička regresija, kaknoske diskriminante. Neuronske mreže. Višekriterijska klasifikacija. Otkrivanje pravila: pristup izrazitih skupova, karakteristična parvila, asocijacijska pravila, pristupi induktivnog logičkog programiranja.
  • Otkrivanje podgrupa, prilagođavanje formula
    Otkrivanje podgrupa: razlog za analizu podgrupa, analiza devijacija, analiza promjena, metoda bušenja (OLAP, temeljeno na znanju). Podešavanje formula: provjera ovisnosti među varijablama, pronalaženje jedne i više formula, korištenje a priori znanja. Multidimenzionalna regresijska analiza: specifikacija modela, prilagođavanje modela.
  • Klasterifikacija
    Klasterifikacija: konceptualna klasterifikacija. Probabilističke i kauzalne mreže. Analize za vjerojatnostne mreže: uvod, Bayesov pristup za nesigurnost modela. Paralelne metode.
  • Problemi primjene
    Izbor zadaća i metoda. Znanje domene: taksonomija, ograničenja, prijašnje znanje, preference korisnika. Evaluacija znanja: statistički pristup, usporedbe, metematičko prilagođavanje, testovi slučajnosti, test minimalnog opisa. Korisnost, inovativnost I inegracija mjera zanimljivosti. Prikaz i vizualizacija. Primjena u procesu odlučivanja. Pravni aspekti. Sustavi za otkrivanje, komercijalni alati.
  • Interdisciplinarni problemi
    Interdiscipinarni problemi: statistika, poslovanje, industrija. Analize slučajeva
  • Rudarenje teksta
    Otkrivanje znanja u tekstualnim podacima: jedinstveni problemi teksta, alternativni prikazi teksta, termini, teksonomija, pronalaženje asocijativni pravila iz izbora dokumenata.
  • Analiza slučajeva
    Analize slučajeva, programski alati, primjena u procesu odlučivanja. Pregled istraživanja.

Sadržaj seminara/vježbi

  • 1. Data mining
    Osnove dana mininga. Alati SAS. Sučelja. Osnovne mogućnosti izrada modela, prikaz rezultata preko weba, razmjena dijagrama, izrada predložaka modela. Java API. Repozitorij modela i dijagrama primjeri modela, dijagrama.
  • 2. Vrste obrade i pristupa podacima
    Obrada na strani servera asinhroni model učenja nad podacima. Paralelna obrada istovremena obrada više modela. Višedretveni algoritmi. Pristup podacima struktura datoteka. Upotreba SAS-a za izradu skupova podataka za trening. Upotreba SAS-a za prikaz i povrat rezultata obrade.
  • 3. Uzorkovanje
    Pojam uzorkovanja. Potreba za uzorkovanjem. Vrste uzorkovanja. Slučajno uzorkovanje. Stratificirano uzorkovanje. Uzorkovanje prema težinama. Uzorkovanje po klasterima. Sistematsko uzorkovanje. Uzorkovanje prema redoslijedu. Uzorkovanje po rijetkim događajima. Primjeri načina uzorkovanja u SAS-u.
  • 4. Skupovi podataka
    Izrada skupova podataka skupovi podataka za učenje, za validaciju, za testiranje. Particioniranje po klasma varijabli. Transformacije. Filtriranje podatka eliminacija ekstremnih vrijednosti. Zamjena podataka.
  • 5. Deskriptivna statistika
    Statistika i grafički prikazi intervali varijabli, klase varijabli, distribucije.
  • 6. Grafički prikazi
    Vrste grafičkih prikaza u SAS-u: histogrami, višedimenzionalni grafički prikazi, pite grafički prikazi, area plots, mjehuričasti dijagrami. Izrada grafičkih prikaza. Dinamička obrada podataka i uzorkovanje podataka. Interaktivno povezivanje podataka, tabela i grafičkih prikaza.
  • 7. Primjena rudarenja nad podacima
    Primjer 1: analiza upotrebe weba traženje zakonitosti među podacima o posjećenim web stranicama. Pretraživanje linkova prema učestalosti njihovog korištenja. Primjer 2: analiza životnog stila mladih ljudi.
  • 8. Stabla odlučivanja
    Osnovno o stablima odlučivanja klasifikacija i regresija stabla odlučivanja, odabir stabla odlučivanja na temelju ciljeva i preciznosti potkresivanja (pruninga). Kriteriji prema kojima se vrši granja stabla: Hi-kvadrat, F-test, Gini, entropija, redukcija varijance. Izrada pravila na temelju stabla odlučivanja. Određivanje utjecaja varijabli. Izrada stabla odlučivanja na temelju skupa podataka.
  • 9. Neuronske mreže
    Osnovno o neuronskim mrežama neuroni, skriveni i izlazni slojevi, veze neurona, težine veza, interna aktivacija, funkcija prijenosa. Tehnike učenja neuronskih mreža u SAS Enterprise Mineru. Optimizacija. Standardizacija izlaza. Izrada modela neuronske mreže na temelju skupa podataka u alatu SAS Enterprise Miner.
  • 10. Indukcija pravila
    Indukcija pravila iz skupova podataka, stabla odlučivanja i neuronskih mreža u SAS-u.
  • 11. Modeli podataka u SAS-u
    Usporedba modela za prikaz podataka. Kriteriji za odabir modela za prikaz skupa podataka. Statistika modela. Modeli i grafički prikazi podataka. Klasifikacijske matrice. Izrada različitih modela u alatu SAS Enterprise Miner.
  • 12. Otkrivanje znanja u nestrukturiranim sadržajima
    Osnove alata SAS Text Miner. Sučelja. Povezivanje strukturiranih i nestrukturiranih sadržaja. Analiza nestrukturiranih sadržaja - teksta. Otkrivanje skrivenih veza između tekstualnih i drugih baza podataka.
  • 13. Pretraživanje nestrukturiranih sadržaja
    Čitanje nestrukturiranog sadržaja. Pronalaženje izraza i fraza u tekstovima. Definiranje rječnika ključnih riječi. Traženje odnosa između ključnih riječi, pojmova, fraza u tekstovima. Sažimanje nestrukturiranih sadržaja velike složenosti u sadržaje manje složenosti.
  • 14. Povezivanje sličnih dokumenata
    Filtriranje dokumenata. Kriteriji filtriranja pojava određenog pojma, ne postojanje određenog pojma. Filtriranje dijelova dokumenata. Povezivanje dijelova istih karakteristika u novi dokument.
  • 15. Prikaz veza
    Grafički prikaz odnosa i veza između skupine dokumenata. Pretraživanje skupa dokumenata po vezama. Utvrđivanje uzoraka na temelju veza. Pretraživanje skupa dokumenata po hijerarhijskoj strukturi pojmova. Povezivanje s alatima SAS-a. Uključivanje rezultata obrade.

Alati koji se koriste na predmetu

  • XpertRule Knowledge Builder
    Programski alat za razvoj najsloženijih sustava temeljenih na znanju, primjenom pravila, stabla odlučivanja, data mining indukcijom stabala odlučivanja, neizrazite logike i genetskih algoritama.
  • SAS JMP 7
    Programski alat za statističko istraživanje podataka i za data mining, kao najprikaldniji način učenja metoda poslovne inteligencija sustava SAS
  • SAS AAS - Academic Analysis Suite
    Kolekcija najnaprednijih alata za otkrivanje znanja u podacima proizvođača SAS Institute, pod nazivom SAS AAS - Academic Analysis Suite, koja sadrži data warehousing, OLAP, reporting, data i text mining, programiranje novih algoritama SAS 4GL, macro, Screen Control, IML), razvoj aplikacija (AF, FSP moduli, vizualizacija podataka, prikaz SAS rezultata na Webu, kontrola i unapređivanje kvalitete te dizajn eksperimenata, ekonometrijsko modeliranje i analiza vremenskih serija (ETS modul), operacijska istraživanja i podrška u odlučivanju (OR modul), izvršni informacijski sustavi (EIS modul), rudarenje podataka (Enterprise Miner modul), rudarenje tekstualnih podataka (Text Miner modul), podrška genetskim istraživanjima (Genetics modul).

Osnovna literatura

  • Data mining and knowledge discovery handbook. Editors Oded Maimon, Lior Rokach. Springer, New York, 2005.
  • Bramer, M. A. Principles of data mining. Springer, London, 2007.

Dopunska literatura

  • Han, J., Kamber, M. Data mining : concepts and techniques. 2nd ed. Morgan Kaufmann, San Francisco, 2006.
  • Berry, M., Linnof, G. Data mining techniques : for marketing, sales, and customer relationship management. 2nd ed. Wiley, Indianapolis, 2004.
  • Cox, E. Fuzzy modelling and genetic algorithms for data mining and exploration. Morgan Kaufman, Amsterdam, 2005.
  • Advances in knowledge discovery and data mining. Editors Usama M. Fayyad et al. AAAI, Menlo Park, 1996.

Preduvjeti

  • Baze podataka 1
    Cilj predmeta je da osposobi studente za razumijevanje tehnologije relacijskih baza podataka. Studenti će u okviru predmeta naučiti sve tri komponente sustava za upravljanje relacijskom bazom podataka (strukturna, operativna i integritetna komponenta). Također, studenti će biti osposobljeni za realizaciju i upravljanje (kreiranje, modifikacija, upiti, indeksi, sigurnost, transakcije) , koristeći SQL, relacijskom bazom podataka
  • Programiranje 2
    Kolegij se nastavlja na Programiranje I s kojim predstavlja cjelinu. Po završetku, studenti trebaju biti sposobni oblikovati, kodirati, testirati, ispravljati i dokumentirati programska, prije svega objektno orijentirana rješenja problema algoritamskog tipa. Ciljna razina složenosti programa jesu programi koji rade s više datoteka i više klasa
  • Statistika
    Cilj ovoga kolegija je naučiti studente metode i vještine koje će koristiti kao podlogu za produbljivanje novih sadržaja u kasnijim godinama studija. Nadalje, težište izučavanja ovoga kolegija je detaljno uvođenje studenata na korištenje metoda primijenjene statističke analize. Primjena ovih metoda može biti korisna već u toku studija i to kod pisanja kako seminarskih radova tako i diplomskog rada. Također, naučene metode i vještine u praksi moći će se primjenjivati kod izrade stručnih i znanstvenih radova. Isto tako mogu poslužiti i na budućem radnom mjestu

Slični predmeti

  • Otkrivanje znanja u bazama podataka, Ekonomski fakultet u Zagrebu [http://www.efzg.hr/default.aspx?id=5498]
  • Programski alat za razvoj najsloženijih sustava temeljenih na znanju, primjenom pravila, stabla odlučivanja, data mining indukcijom stabala odlučivanja, neizrazite logike i genetskih algoritama.
Nastavnik Oblik nastave Tjedana Sati tjedno Grupa
Oreški Dijana Laboratorijske vježbe 10 3 2
Predavanje 10 3 1
Izvanredni rok
Datum: 27.04.2020.
Vrijeme: 16:00
Napomena:

Otkrivanje znanja u podacima - Redovni studenti

Studij: Informacijski/Poslovni sustavi
Akademska godina: 2016/2017

Praćenje rada studenata

Elementi praćenjaBodova
Projekt45
Kolokvij 115
Kolokvij 215
Zadaci na laboratorijskim vježbama25
ZBROJ100


Bodovna skala ocjena

OdDoOcjena
0 49 nedovoljan (1)
50 60 dovoljan (2)
61 75 dobar (3)
76 90 vrlo dobar (4)
91 100 odličan (5)



Kolokviji

Naziv / Tjedan 1234567891011121314151617 1. razdoblje
udio (%)
2. razdoblje
udio (%)
3. razdoblje
udio (%)
Trajanje Pismeni Usmeni
Kolokvij 1 + 100.0 +
Kolokvij 2 + 100.0 +


Opis elemenata praćenja

Elementi praćenja Bodovi Uvjet Opis Nadoknada
Granica Opis Rok
Projekt 45 20 Projekt čiju temu student bira među ponuđenim temama od strane nastavnika ili sam predlaže temu. Student treba samostalno ili u timu izraditi, dokumentirati i obraniti projekt. Projekt se može braniti tijekom 3. nastavnog i 3. međuispitnog razdoblja. Korištenje tuđeg rješenja/plagijat je zabranjeno te povlači disciplinsku odgovornost.
Kolokvij 1 15 0 Rješavanje zadataka uz dodatak teoretskih pitanja otvorenog ili zatvorenog tipa. Kolokvij se rješava na Moodleu.
Kolokvij 2 15 0 Rješavanje zadataka uz dodatak teoretskih pitanja otvorenog ili zatvorenog tipa. Kolokvij se rješava na Moodleu.
Zadaci na laboratorijskim vježbama 25 0 Tijekom semestra rješavaju se 4 zadatka koja zajedno nose 25 bodova. Student treba samostalno riješiti zadatak tijekom laboratorijskih vježbi (ili kod kuće) i postaviti na moodle unutar zadanog roka. Rješenja zadaća provjeravaju se tijekom laboratorijskih vježbi ili preko sustava za e-učenje.


Otkrivanje znanja u podacima - Izvanredni studenti

Studij: Informacijski/Poslovni sustavi
Akademska godina: 2016/2017

Praćenje rada studenata

Elementi praćenjaBodova
Projekt50
Kolokvij 50
ZBROJ100


Bodovna skala ocjena

OdDoOcjena
0 49 nedovoljan (1)
50 60 dovoljan (2)
61 75 dobar (3)
76 90 vrlo dobar (4)
91 100 odličan (5)



Kolokviji

Naziv / Tjedan 1234567891011121314151617 1. razdoblje
udio (%)
2. razdoblje
udio (%)
3. razdoblje
udio (%)
Trajanje Pismeni Usmeni
Kolokvij + 50.0 50.0


Opis elemenata praćenja

Elementi praćenja Bodovi Uvjet Opis Nadoknada
Granica Opis Rok
Projekt 50 25 Samostalni projekt čiju temu student bira među ponuđenim temama od strane nastavnika ili sam predlaže temu. Student treba samostalno ili u timu izraditi, dokumentirati i obraniti projekt. Projekt se može braniti tijekom 3. nastavnog i 3. međuispitnog razdoblja. Korištenje tuđeg rješenja/plagijat je zabranjeno te povlači disciplinsku odgovornost.
Kolokvij 50 0 Rješavanje zadataka uz dodatak teoretskih pitanja otvorenog ili zatvorenog tipa. Kolokvij se rješava na Moodleu.


Predavanje Seminar Auditorne vježbe Laboratorijske vježbe Vježbe (jezici, tzk) Ispit Kolokviji Nadoknade Demonstrature
Copyright © 2015 FOI Varaždin. All Rights Reserved. Sva prava pridržana.
Povratak na vrh