ΟΠΑ: Η τεχνητή νοημοσύνη στην υπηρεσία γλωσσολογικών πόρων για την Ελληνική

07/05/2018 13:25

ΜΟΙΡΑΣΟΥ ΤΟ

Δημοσιεύθηκε 07/05/2018 13:25

Μία πρωτοπόρα προσπάθεια για τη δημιουργία καινοτόμων γλωσσολογικών πόρων για την Ελληνική προωθούν το ΟΠΑ και η Εθνική Βιβλιοθήκη Ελλάδος.

Η Ελληνική γλώσσα διαδίδεται στην εποχή του Ιντερνέτ και των ψηφιακών μέσων κατά κύριο λόγο μέσω online υπηρεσιών και ιστοσελίδων του Παγκόσμιου Ιστού (ΠΙ) ο οποίος είναι η κύρια πηγή αναζήτησης πληροφορίας και γνώσης. Οι πρόσφατες εξελίξεις στην Τεχνητή Νοημοσύνη έχουν παράξει τα τελευταία χρόνια πρωτοφανούς εκφραστικότητας διανυσματικές παραστάσεις λέξεων (word embeddings) και έχουν καθιερωθεί ως αναπόσπαστο μέρος των πόρων και μοντέλων για Επεξεργασία Φυσικής Γλώσσας.

Όπως επισημαίνεται στη σχετική ανακοίνωση, είναι χαρακτηριστική η έλλειψη τέτοιων γλωσσολογικών πόρων για την Ελληνική γλώσσα που να στηρίζεται σε μεγάλες ποσότητες κειμένου. Υπό τις συνθήκες αυτές η ερευνητική ομάδα «Εξόρυξης Γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό» του Τμήματος Πληροφορικής του ΟΠΑ, υπό την επιστημονική επίβλεψη και καθοδήγηση του Δρ. Μιχάλη Βαζιργιάννη (Καθηγητής στο ΟΠΑ και την Ecole Polytechnique στη Γαλλία) έχει επιτύχει ένα σημαντικό επίτευγμα στο χώρο αυτό: την παραγωγή του πληρέστερου ως τώρα συνόλου γλωσσολογικών πόρων για την Ελληνική γλώσσα που παράχθηκε με τεχνικές Τεχνητής Νοημοσύνης από την μεγαλύτερη συλλογή κειμένων που υπήρξε ποτέ στην Ελληνική.

Συγκεκριμένα το έργο

Αρχικά συνέλεξε το προσβάσιμο περιεχόμενο του Ελληνικού ΠΙ, περίπου 170 εκατομμύρια ιστοσελίδες, συνολικού μεγέθους περίπου 10 τρισεκατομμύρια χαρακτήρες, αξιοποιώντας διαδεδομένες τεχνολογίες και λογισμικά ανοικτού κώδικα.
Με τις κατάλληλες τεχνικές μετα-επεξεργασίας, στην αιχμή της επιστήμης, δημιούργησε ένα ενιαίο ασυμπίεστο κείμενο, και από αυτό εξήγαγε τις μοναδικές λέξεις (περίπου 7 εκατομμύρια) που είναι ουσιαστικά το τρέχον και πλήρως ενημερωμένο λεξιλόγιο της Ελληνικής γλώσσας.
Ανέπτυξε ένα πακέτο αυτόματης διόρθωσης του λεξιλογίου, που δίνει τη δυνατότητα για την εύρεση και καταχώρηση των νεοφυών λέξεων του υπό δημιουργία λεξικού.
Αξιοποίησε σύγχρονες τεχνικές βαθέων νευρωνικών δικτύων για να παράγει διανυσματικές παραστάσεις λέξεων (word embeddings) για την Ελληνική γλώσσα – δίνοντας τη δυνατότητα για πολύπλοκες γλωσσολογικές αναζητήσεις (αναλογίες, ομοιότητες, κλπ).
Το σύνολο των παραπάνω πόρων θα είναι διαθέσιμο σαν ανοιχτό λογισμικό και δεδομένα για χρήση από την ερευνητική, ακαδημαϊκή και βιομηχανική κοινότητα της χώρας αλλά και διεθνώς. Δείγμα των γλωσσολογικών αυτών πόρων είναι διαθέσιμο στην ιστοσελίδα: http://archive.aueb.gr:7000/

Η προσπάθεια αυτή χρηματοδοτήθηκε μερικά από το Ίδρυμα Νιάρχου για λογαριασμό της Εθνικής Βιβλιοθήκης της Ελλάδος.

Στο προσκήνιο η ενέργεια στην 60η Γενική Συνέλευση του ΣΒΘΣΕ (φωτογραφίες…

Νίκος Τσάφος από τον Βόλο: Απορρίφθηκε η Μελέτη Περιβαλλοντικών Επιπτώσεων για…

Επιτροπή Αγώνα Αγίου Βλασίου – Α. Λεχωνίων: «Καμία ενημέρωση από την…

Εφιάλτης χωρίς τέλος για Βολιώτισσα από τον πρώην σύντροφό της- «Θα…

ΚΚΕ: Τραγικές ελλείψεις στις μονάδες υγείας της Σκοπέλου

Θλίψη στη Μαγνησία- Έφυγε από την ζωή 58χρονος

Λύση στο πρόβλημα νερού για την Αλόννησο – Νέα έργα υποδομών…

Συνεργασία Μακρή- Σαβελίδη για την ίδρυση Καλλιτεχνικού Σχολείου στον Βόλο

Νέο υπερ-σύστημα καταπολέμησης κουνουπιών στη Θεσσαλία

Η Λάρισα γίνεται για η «πρωτεύουσα» της ευρωπαϊκής ιατρικής για τον…

Η Λαική Συσπείρωση Θεσσαλίας, στο πλευρό των απεργών υπαλλήλων της Περιφέρειας…

Έρχονται βροχές στη Θεσσαλία

Ο Άρειος Πάγος όρισε νέους εντεταλμένους ευρωεισαγγελείς

Βίντεο ντοκουμέντο από τη στιγμή που ο 17χρονος Άγγελος φτάνει στο…

Αθερίδης: «Κοιμόμουν μία ώρα και έπινα 23»

Τελειώνει το Buongiorno της Φαίης Σκορδά

Ανατροπή στο διπλό φονικό: Το άγνωστο DNA και τα αναπάντητα ερωτήματα…

Ορκίστηκε ο Γιάννης Στουρνάρας για τη νέα θητεία του ως Διοικητής…

Οδηγίες για τον δασμό 3 ευρώ σε αγορές από Temu και…

Η ΑΑΔΕ βάζει τέλος στο «εμπόριο» αποδείξεων καυσίμων στα βενζινάδικα

Πιερρακάκης: Κλείνουμε την εκκρεμότητα του νόμου Κατσέλη – Δεν αφήνουμε αδικίες…

Έτοιμος να πει το “ναι” στον Ολυμπιακό Β. ο Παπακώστας

Σε καμπ στον Κάλαμο Αττικής οι “μικροί” της Almyros Football Academy…

Συνεχίζουν στον Διαγόρα Σάκκος, Μεϊντάνης, Κουτσιαρής

Ομαλά διεξάγονται οι εκλογές στον Α.Σ. Ολυμπιακός Βόλου 1937 (photos)

«Πήγαινε κάθε μέρα εδώ και χρόνια»: 90χρονος κατέρρευσε στον τάφο της…

Απόψε η Νατάσσα Μποφίλιου στη Νέα Αγχίαλο

16η Συνάντηση Λογοτεχνίας και Μουσικής στο Πήλιο στο κτήμα Θωμά…

Καύσωνας στην Ιταλία: Νεκρός 58χρονος αγρότης από θερμοπληξία

ΟΠΑ: Η τεχνητή νοημοσύνη στην υπηρεσία γλωσσολογικών πόρων για την Ελληνική