Εξόρυξη Δεδομένων

Σκοπός

To μάθημα στοχεύει στο να καταστήσει τους φοιτητές ικανούς: (α) να κατανοήσουν σε βάθος κεντρικές έννοιες της εξόρυξης δεδομένων και (β) να συνειδητοποιήσουν τη σημασία που έχει αυτό το επιστημονικό πεδίο στην επιστήμη των υπολογιστών και την ευρύτητα των εφαρμογών του σε πολλές πτυχές της ανθρώπινης δραστηριότητας. Οι στόχοι του μαθήματος περιλαμβάνουν την εισαγωγή εννοιών, αλγορίθμων και εργαλείων για την εξαγωγή γνώσης από δεδομένα. Επιπλέον, δίνεται ιδιαίτερη έμφαση στην εφαρμογή των μεθόδων σε πραγματικά προβλήματα, καθώς και στην εξάσκηση των μεταπτυχιακών φοιτητών στη εξειδικευμένου λογισμικού (MATLAB, OCTAVE, Rapidminer).

 

Περίγραμμα

  • Εισαγωγή – προεπεξεργασία των δεδομένων
    • Τύποι δεδομένων
    • Ποιότητα δεδομένων
    • Καθαρισμός και ολοκλήρωση δεδομένων
    • Στατιστικές τιμές
    • Διακριτοποίηση δεδομένων και μετασχηματισμοί δεδομένων
    • Μείωση διαστάσεων
    • Μέτρα ομοιότητας και εγγύτητας

 

  •  Συσταδοποίηση
    • Βασικές έννοιες
    • Κ-μέσοι
    • Συσσωρευτική ιεραρχική συσταδοποίηση
    • DBSCAN
    • Εκτίμηση συσταδοποίησης
    • Κλιμακούμενοι αλγόριθμοι (Birch, Cure)
    • Αυτοοργανούμενοι χάρτες (SOM)
    • Ανάλυση ποιότητας συσταδοποίησης

 

  • Tαξινόμηση
    • Βασικές έννοιες
    • Δένδρα απόφασης
    • Mη παραμετρικές τεχνικές

                            – Εκτίμηση παραμέτρων

                            – Παράθυρα Parzen

                            – k-NN (k-Πλησιέστεροι Γείτονες)

    • Bayesian θεωρία λήψης αποφάσεων

                            – Ταξινομητές μέγιστης πιθανοφάνειας

                            – Θεώρημα Bayes

                            – Ταξινομητές MAP (maximum a posteriori)

                            – Συναρτήσεις κόστους

                            – Απλοϊκός (naive) ταξινομητής Bayes

    • Bayesian Ταξινομητές ελάχιστης απόστασης

                            – Μετρικές απόστασης

                            – Συνάρτηση πυκνότητας πιθανότητας

                            – Πολυδιάστατες κανονικές κατανομές

 

  • Ανάλυση συσχέτισης
    • Βασικές έννοιες
    • Παραγωγή συχνών στοιχειοσυνόλων
    • Παραγωγή κανόνων
    • FP-ανάπτυξη
    • Εκτίμηση των υποδειγμάτων συσχέτισης
    • Διαχείριση χαρακτηριστικών

 

  • Πλατφόρμες λογισμικού: MATLAB, OCTAVE, Rapidminer

 

Προτεινόμενη βιβλιογραφία

Eλληνόγλωσση

  • P. Tan, M. Steinbach, A. Karpatne, V. Kumar, Εισαγωγή στην Εξόρυξη Δεδομένων, Εκδόσεις Τζιόλα, 2018.
  • M. Zaki, W. Meira Jr., Εξόρυξη και Ανάλυση Δεδομένων – Βασικές Έννοιες και Αλγόριθμοι, Εκδόσεις Κλειδάριθμος, 2017.
  • Β. Βερύκιος, Β. Καγκλής, Ηλ. Σταυρόπουλος, Η Επιστήμη των Δεδομένων Μέσα Από τη Γλώσσα R, ΣΕΑΒ, 2015.
  • Α. Νανόπουλος, Ι. Μανωλόπουλος, Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων, Εκδόσεις Νέων Τεχνολογιών, 2008.
  • Μ. Χαλκίδη, Μ. Βαζιργιάννης, Εξόρυξη Γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό, Εκδόσεις Τυπωθήτω, 2005.

 

Ξενόγλωσση

  • Han, M. Kamber, J. Pei, Data Mining: Concepts and Techniques, 3rd ed., Morgan Kaufmann, 2011.
  • Leskovec, A. Rajaraman, J. Ullamn, Mining of Massive Datasets, Cambridge University Press, 2019.
  • North, Data Mining for the Masses, Global Text, 2012.
  • Witten, E. Frank, Μ. Hall, Data Mining: Practical Machine Learning Tools and Techniques, 4th ed., Morgan Kaufmann, 2017.

 

Επιστημονικά Περιοδικά

  • ACM Transactions on Knowledge Discovery from Data, ACM.
  • Data Mining and Knowledge Discovery, Springer.
  • IEEE Transactions on Knowledge and Data Engineering, IEEE.
  • Knowledge-Based Systems, Elsevier.
  • SIGKDD Explorations, ACM.
  • Intelligent Data Analysis, IOS Press.