Live τώρα    
19°C Αθήνα
ΑΘΗΝΑ
Σποραδικές νεφώσεις
19 °C
17.1°C19.7°C
4 BF 59%
ΘΕΣΣΑΛΟΝΙΚΗ
Αυξημένες νεφώσεις
15 °C
13.6°C15.7°C
3 BF 64%
ΠΑΤΡΑ
Αυξημένες νεφώσεις
15 °C
13.3°C16.5°C
3 BF 78%
ΗΡΑΚΛΕΙΟ
Ελαφρές νεφώσεις
20 °C
19.3°C20.8°C
3 BF 65%
ΛΑΡΙΣΑ
Αυξημένες νεφώσεις
13 °C
12.9°C16.9°C
4 BF 82%
Αποκαλύπτοντας τα μυστικά των χαμένων γλωσσών με τη βοήθεια της μηχανικής μάθησης
  • Μείωση μεγέθους γραμματοσειράς
  • Αύξηση μεγέθους γραμματοσειράς
Εκτύπωση

Αποκαλύπτοντας τα μυστικά των χαμένων γλωσσών με τη βοήθεια της μηχανικής μάθησης

Μία από τις πλέον αναντικατάστατες διαδικτυακές εφαρμογές είναι η αυτόματη μετάφραση κειμένων. Η ευρύτερα διαδεδομένη, αυτή της Google, είναι το απαραίτητο βοήθημα σε κάθε ταξιδιώτη, επιτρέποντας καθημερινά σε εκατομμύρια ανθρώπων να επικοινωνούν έστω και σε ένα βασικό επίπεδο. Η αυτόματη μετάφραση βασίζεται στις, φαινομενικά άσχετες με το αντικείμενο της γλώσσας, μαθηματικές μεθόδους της μηχανικής μάθησης. Οι μέθοδοι αυτές χρησιμοποιούνται ευρύτατα για να εντοπίζουν μοτίβα σε ένα σύνολο δεδομένων και, στην περίπτωση της αυτόματης μετάφρασης, αντιστοιχούν τα μοτίβα που εντοπίζονται σε μια γλώσσα με αυτά μιας άλλης. Στην πράξη η διαδικασία δεν είναι καθόλου εύκολη και απαιτεί τη διαρκή ανάπτυξη πιο αποτελεσματικών μεθόδων, των οποίων όμως η αποτελεσματικότητα βασίζεται και στο διαθέσιμο δείγμα κειμένων γραμμένων σε πολλές γλώσσες. Μία από τις μεγαλύτερες προκλήσεις είναι η σωστή απόδοση του νοήματος. Δηλαδή, ενώ η αντιστοίχιση των λέξεων της μιας γλώσσας σε λέξεις της άλλης, μία προς μία, είναι απλή υπόθεση, η ακριβής απόδοση του νοήματος και της σύνταξης δεν είναι εγγυημένη, με αποτέλεσμα συχνά η μετάφραση να είναι λάθος ή ακόμα και αστεία.

Παρ’ όλα αυτά, οι μέθοδοι μηχανικής μάθησης γίνονται συνεχώς πιο εκλεπτυσμένες, προσδίδοντας όλο και μεγαλύτερες δυνατότητες στην αυτόματη μετάφραση. Ταυτόχρονα, εμπλουτίζουν την έρευνα στη Γλωσσολογία με νέα εργαλεία, δίνοντας τη δυνατότητα στους ειδικούς να κατανοούν καλύτερα τις πολύπλοκες σχέσεις ανάμεσα στις γλώσσες και επιτρέποντάς μας να διατηρήσουμε και να ανακαλύπτουμε τον γλωσσικό πλούτο που κρύβουν ακόμα και οι πιο σπάνιες και αρχαιότερες από αυτές.

Μηχανική μάθηση και γλώσσες υπό εξαφάνιση

Παρ’ όλο που υπολογίζεται ότι υπάρχουν περίπου 7.000 διαφορετικές γλώσσες, η ευρέως χρησιμοποιούμενη αυτόματη μετάφραση περιορίζεται σε περίπου 100. Αυτό συμβαίνει διότι τόσες είναι οι γλώσσες που χρησιμοποιεί περίπου το 95% της ανθρωπότητας και γι’ αυτές υπάρχει το απαραίτητο μεγάλο δείγμα κειμένων που μπορούν να χρησιμοποιηθούν για να «εκπαιδευτούν» οι αλγόριθμοι της μετάφρασης. Αυτό το δείγμα αποτελείται από τα κείμενα των ιστοσελίδων που έχουν ήδη μεταφραστεί σ’ αυτές τις γλώσσες, καθώς επίσης και από άρθρα και βιβλία ευρείας κυκλοφορίας. Για παράδειγμα, η μεταφραστική μηχανή της Google βασίστηκε αρχικά σε κείμενα διεθνών οργανισμών όπως η Ευρωβουλή και ο ΟΗΕ.

Μολονότι οι υπόλοιπες μερικές χιλιάδες γλώσσες μιλιούνται από μόλις έναν μικρό αριθμό ανθρώπων, αυτές αποτελούν φορείς μοναδικών πολιτιστικών στοιχείων, όπως κείμενα και παραδόσεις, τα οποία θα χαθούν για πάντα εάν οι γλώσσες αυτές εξαφανιστούν. Με την ίδια την ανάδυση της αυτόματης μετάφρασης και της μαζικής επικοινωνίας και μετάδοσης της πληροφορίας οι γλώσσες αυτές κινδυνεύουν ακόμη περισσότερο να εκλείψουν, αφού κυριαρχούν εκείνες που μιλιούνται από περισσότερους ανθρώπους και σταδιακά εγκαταλείπονται οι υπόλοιπες. Γι’ αυτόν τον λόγο έχουν μεγάλη σημασία η μελέτη και η κατανόηση αυτών των γλωσσών και η διατήρηση της κληρονομιάς τους. Σ’ αυτόν τον αγώνα τα ίδια μέσα που μπορούν να οδηγήσουν στην εξαφάνισή τους μπορούν να βοηθήσουν τους ειδικούς να εμβαθύνουν στη μελέτη τους και να τις διατηρήσουν.

Μια πρόσφατη μελέτη που απέδειξε ακριβώς αυτό έγινε από τους ερευνητές του Λουδοβίκειου-Μαξιμιλιάνειου Πανεπιστήμιου του Μονάχου Ehsaneddin Asgari και Hinrich Schutze. Οι ερευνητές αντιμετώπισαν το πρόβλημα έλλειψης επαρκών δεδομένων χρησιμοποιώντας ένα κείμενο που είναι μεταφρασμένο σε περισσότερες από 2.000 γλώσσες, δηλαδή τη Βίβλο. Επειδή, ωστόσο, μόλις ένα βιβλίο δεν είναι επαρκές για να «εκπαιδεύσει» κανείς αλγόριθμους μηχανικής μάθησης, οι ερευνητές χρησιμοποίησαν επιπλέον τεχνάσματα, εστιάζοντας κυρίως στον τρόπο με τον οποίο σχηματίζονται οι χρόνοι των ρημάτων (ενεστώτα, μέλλοντα, αόριστο κ.λπ.) στις διαφορετικές γλώσσες. Με δεδομένο ότι οι χρόνοι σχηματίζονται είτε με κατάλληλες καταλήξεις ή/και με βοηθητικές λέξεις ή ρήματα, προσπάθησαν να εντοπίσουν κυρίως τα μοτίβα που προδίδουν τις σχετικές σειρές από γράμματα. Για να οδηγηθούν σε πιο αξιόπιστα αποτελέσματα, ξεκίνησαν την έρευνά τους από νεότερες γλώσσες όπως οι κρεολέζικες, διότι κατά κανόνα οι παλιότερες γλώσσες (όπως, π.χ., τα αγγλικά) έχουν συσσωρεύσει περισσότερες εξαιρέσεις στους κανόνες τους, οι οποίες θα δυσχέραιναν τον εντοπισμό των συγκεκριμένων μοτίβων.

Με τη μέθοδο που ανέπτυξαν οι Asgari και Schutze κατάφεραν να κατασκευάσουν διαγράμματα τα οποία δείχνουν πώς σχετίζονται οι γλώσσες που χρησιμοποιούν παρόμοιους τρόπους έκφρασης των χρόνων. Η μελέτη τους περιλάμβανε, για πρώτη φορά, έναν τόσο μεγάλο αριθμό γλωσσών (περίπου χίλιες) ξεπερνώντας κατά πολύ παλιότερες προσπάθειες και έδωσε στους ερευνητές τη δυνατότητα να μελετήσουν πώς συνδέονται οι γλώσσες και να κατανοήσουν την εξέλιξή τους. Ταυτόχρονα, έδειξαν πως στο μέλλον μπορεί κανείς να χρησιμοποιήσει την ίδια προσέγγιση για να εντοπίσει και άλλα γλωσσολογικά στοιχεία εμπλουτίζοντας αυτές τις συνδέσεις. Μ’ αυτόν τον τρόπο γίνεται ένα πρώτο βήμα για τη διατήρηση του γλωσσικού πλούτου χιλιάδων «σπάνιων» γλωσσών με τη βοήθεια της αυτόματης μετάφρασης εφόσον θα είναι περισσότερο κατανοητές οι συνδέσεις ανάμεσα στα γλωσσολογικά τους στοιχεία σε σύγκριση με τις πιο κοινές γλώσσες.

Μηχανική μάθηση και αρχαίες γλώσσες

Οι δυνατότητες που έχει δείξει η μηχανική μάθηση στην αυτόματη μετάφραση έχει καλλιεργήσει, όπως είναι φυσικό, προσδοκίες και στο πεδίο της αποκρυπτογράφησης αρχαίων κειμένων γραμμένων σε γλώσσες που έχουν προ πολλού εξαφανιστεί. Μια τέτοια εφαρμογή δεν θα είχε επίδραση μόνο στις γνώσεις μας για την εξέλιξη και την προέλευση των γλωσσών αλλά και στην κατανόηση του ανθρώπινου πολιτισμού χιλιάδες χρόνια πριν.

Η πρόκληση, σ’ αυτές τις περιπτώσεις, είναι ότι τα σχετικά ευρήματα που περιέχουν γραπτά αποσπάσματα είναι πολύ περιορισμένα, δυσχεραίνοντας την αποκρυπτογράφηση των αντίστοιχων κειμένων. Χαρακτηριστικές περιπτώσεις είναι αυτές της γραμμικής Α και Β.

Στα τέλη του 19ου αιώνα ανακαλύφθηκαν στην Κρήτη, από τον Βρετανό αρχαιολόγο Arthur Evans, δεκάδες επιγραφές με σύμβολα μιας άγνωστης γραφής. Ο Evans εκτίμησε ότι χρονολογούνται από τα μέσα της 2ης χιλιετίας π.Χ. και ότι η γλώσσα που απεικονίζουν αποτελεί, επομένως, μία από τις παλιότερες γραπτές γλώσσες. Στη συνέχεια διαπιστώθηκε ότι οι επιγραφές ήταν γραμμένες σε δύο διαφορετικές γλώσσες, διαφορετικής παλαιότητας, τη γραμμική Α, που χρονολογείται μεταξύ 1400 και 1800 π.Χ., και τη γραμμικής Β, που εμφανίστηκε μετά το 1400 π.Χ. Βάσει της χρονολογίας τους, η κάθε γλώσσα αντιστοιχεί σε διαφορετικούς πολιτισμούς στο νησί της Κρήτης, στον μινωικό και τον μυκηναϊκό αντίστοιχα.

Η αντιστοίχιση αυτή συντέλεσε στην αποκρυπτογράφηση της γραμμικής Β από τον Michael Ventris κατά τη δεκαετία του 1950. Ο Ventris υπέθεσε ότι τα σύμβολα της γραμμικής Β αντιστοιχούσαν σε μια μορφή αρχαίας ελληνικής γλώσσας και ότι οι συχνά επαναλαμβανόμενες λέξεις που εντοπίζονταν στα κείμενα ήταν στην πραγματικότητα τοπωνύμια. Τέτοιες υποθέσεις είναι ζωτικής σημασίας για κάθε προσπάθεια αποκρυπτογράφησης, καθώς αποτελούν ένα σημείο εκκίνησης της διαδικασίας, δηλαδή ένα άκρο του νήματος. Στην περίπτωση της γραμμικής Β αποδείχθηκε ότι οι υποθέσεις αυτές ήταν ορθές, με αποτέλεσμα ο Ventris να την αποκρυπτογραφήσει με επιτυχία το 1952. Το επίτευγμα αυτό ήταν πολύ σημαντικό όχι μόνο επειδή οδήγησε στην ερμηνεία μιας άγνωστης γλώσσας, αλλά επειδή, μέσω της επιτυχίας της, επιβεβαίωσε τη σχέση της με τα αρχαία ελληνικά, προεκτείνοντας την ιστορία της γλώσσας αυτής πολλούς αιώνες στο παρελθόν. Αντίστοιχες, όμως, υποθέσεις δεν έχουν οδηγήσει σε επιτυχές αποτέλεσμα για τη γραμμική Α, η οποία παραμένει ακόμη άγνωστη.

Ένα βασικός περιορισμός στη «χειροκίνητη» αποκρυπτογράφηση μιας χαμένης γλώσσας είναι ο χρόνος. Ένας ερευνητής πρέπει να βασιστεί σε κάποιες υποθέσεις ως προς τις σχέσεις που έχουν ομάδες λέξεων μεταξύ τους σε όλες τις γλώσσες, τις σχέσεις που εμφανίζουν οι ίδιες οι γλώσσες μεταξύ τους και πώς αυτές εξελίσσονται. Λαμβάνοντας αυτές τις σχέσεις υπόψιν, στη συνέχεια προσπαθεί να εντοπίσει μοτίβα που θα τον βοηθήσουν τελικά να αντιστοιχίσει την άγνωστη γλώσσα σε μια γνωστή. Η διαδικασία αυτή είναι εξαιρετικά χρονοβόρα και στο παρελθόν οι αποτυχημένες προσπάθειες σήμαιναν, συχνά, την πλήρη αδυναμία να αποκρυπτογραφήσουν τη γλώσσα. Σ’ αυτό το σημείο είναι που «μπαίνει στο παιχνίδι» η μηχανική μάθηση. Οι σχετικοί αλγόριθμοι μπορούν να εκπαιδευτούν με βάση κάποιους κανόνες και υποθέσεις σε σχετικά σύντομο χρόνο και, σε περίπτωση αποτυχίας, να επαναλάβουν τη διαδικασία. Ωστόσο, ακόμη και για τη μηχανική μάθηση, ο περιορισμένος αριθμός διασωθέντων κειμένων κάνει την αποκρυπτογράφηση εξαφανισμένων γλωσσών μια ιδιαίτερα δύσκολη διαδικασία.

Επομένως, η κατάλληλη επιλογή των υποθέσεων και τα «έξυπνα» τεχνάσματα πάνω στα οποία θα βασιστεί η «εκπαίδευση» της μηχανικής μάθησης είναι καθοριστικής σημασίας. Η πιο πρόσφατη σχετική απόπειρα από τους ερευνητές Jiaming Luo, Regina Barzilay (του Τεχνολογικού Ιδρύματος της Μασαχουσέτης) και Yuan Cao (του Εργαστηρίου Τεχνητής Νοημοσύνης της Google στο Mountain View της California) φαίνεται να δίνει πολύ υποσχόμενα αποτελέσματα. Οι ερευνητές υιοθέτησαν συγκεκριμένους περιορισμούς σχετικά με το πώς εξελίσσονται οι γλώσσες καθώς αλλάζουν, για παράδειγμα ότι η σειρά των χαρακτήρων σε συναφείς λέξεις πρέπει να παρουσιάζει ομοιότητες ή ότι τα σύμβολα σε συναφείς γλώσσες πρέπει να ακολουθούν συγκεκριμένες κατανομές. Η μαθηματική κωδικοποίηση αυτών των κανόνων μπορεί να βοηθήσει τους αλγορίθμους της μηχανικής μάθησης να οδηγηθούν σε γρηγορότερα αποτελέσματα ακόμη κι όταν εκπαιδεύονται σε περιορισμένο αριθμό κειμένων.

Οι ερευνητές δοκίμασαν την αποτελεσματικότητα της μεθόδου εφαρμόζοντάς τη στη γραμμική Β, για την οποία γνωρίζουμε τη συγγένειά της με τα αρχαία ελληνικά. Τα αποτελέσματα ήταν πολύ ενθαρρυντικά και πιστεύεται ότι η μέθοδος θα μπορούσε να χρησιμοποιηθεί στο μέλλον και για την αποκρυπτογράφηση της γραμμικής Α. Αν και για την τελευταία δεν γνωρίζουμε ποια είναι η συγγενής γλώσσα, δεδομένου ότι η μηχανική μάθηση μπορεί να εφαρμοστεί γρήγορα για διάφορες υποθέσεις, είναι πιθανό σύντομα η μέθοδος των Luo, Barzilay και Cao ή παρόμοια να οδηγήσει στην αποκρυπτογράφησή της.

Γιάννης Κοντογιάννης

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

ΓΝΩΜΕΣ

ΠΕΡΙΣΣΟΤΕΡΑ

EDITORIAL

ΑΝΑΛΥΣΗ

SOCIAL