Ακολουθήστε την «ΑΥΓΗ»
Ο επιλεγμένος κατάλογος δεν υπάρχει πλέον.

Όταν άνθρωποι και μηχανές συνομιλούν

Spoken Language Technologies και γιατί μας αφορούν

Στην ταινία επιστημονικής φαντασίας «Blade Runner» η εταιρεία Tyrell είχε καταφέρει να δημιουργήσει ανδροειδή τόσο εξελιγμένα που δεν μπορούσες να τα ξεχωρίσεις εύκολα από τους ανθρώπους. Όταν συνομιλούσες μαζί τους, ο διάλογος ήταν αβίαστος και φυσικός. Τα ανδροειδή μιλούσαν με τις παύσεις και το συναίσθημα που αναμένει κανείς από τον άνθρωπο. Το σύνθημα της εταιρείας μάλιστα ήταν “More human than human”, δηλαδή “πιο ανθρώπινα από τον άνθρωπο”. Ήταν τόσο δύσκολο να τα αντιληφθείς, που έπρεπε να επινοηθεί ένα ιδιαίτερα εξελιγμένο τεστ για να μπορεί κανείς να τα ξεχωρίσει από τους ανθρώπους. Μερικά χρόνια πριν το σενάριο αυτό έμοιαζε με επιστημονική φαντασία, ωστόσο στις μέρες μας η ομιλία αποτελεί ένα βασικό κανάλι επικοινωνίας μεταξύ ανθρώπου και μηχανής, με τους ερευνητές και τις εταιρείες να εργάζονται προς αυτή την κατεύθυνση ώστε να γίνει η ομιλία όσο πιο φυσική - και κοντά στην ανθρώπινη - γίνεται.

Οι συσκευές με τις οποίες αλληλεπιδρούμε καθημερινά γίνονται όλο και πιο ευφυείς, μαθαίνουν συνεχώς μέσα από τη διάδρασή μας και επικοινωνούν μεταξύ τους όντας συνδεδεμένες στο Διαδίκτυο. Διαθέτουν σένσορες και μας βοηθούν στην καθημερινότητά μας, από την πλοήγηση στην πόλη μέχρι την άθληση και τις επαγγελματικές μας υποχρεώσεις. Με στόχο να διευκολύνουν την καθημερινή επικοινωνία του ανθρώπου με τις μηχανές, οι νέες συσκευές ενσωματώνουν τη δυνατότητα φωνητικών εντολών και επικοινωνίας. Ωστόσο, παρ’ όλο που οι τεχνολογίες ομιλίας και ήχου αποτελούν αντικείμενο έρευνας πολλά χρόνια, οι ερευνητές συνεχίζουν να αντιμετωπίζουν μια σειρά από προκλήσεις. Για τις τεχνολογίες ομιλίας και ήχου, τις ερευνητικές προκλήσεις και το όραμα για το μέλλον μιλά στο «Πρίσμα» ο δρ Βαγγέλης Καρκαλέτσης, επικεφαλής του Εργαστηρίου Τεχνολογίας Γνώσεων και Λογισμικού του Ινστιτούτου Πληροφορικής και Τηλεπικοινωνιών του ΕΚΕΦΕ Δημόκριτος και Co-Chair του διεθνούς συνεδρίου IEEE Spoken Language Technology που θα πραγματοποιηθεί τον Δεκέμβριο στην Αθήνα (http://www.slt2018.org/).

Πού χρησιμοποιούνται οι τεχνολογίες ομιλίας;

Η κύρια εφαρμογή των τεχνολογιών αυτών βρίσκεται στα λεγόμενα διαλογικά περιβάλλοντα. Πιο ειδικά, στους Εικονικούς Βοηθούς (virtual assistants), όπως είναι η Siri, που βρίσκει κανείς στις συσκευές Apple ή η Alexa της Amazon. Οι εφαρμογές αυτές λειτουργούν σε πολλές διαφορετικές συσκευές, όπως το κινητό μας, το tablet ή οι έξυπνες ηλεκτρικές συσκευές που έχουμε στο σπίτι. Στόχος είναι ο χρήστης να επικοινωνεί με τη συσκευή μέσω της ομιλίας, χωρίς να χρειάζεται να πληκτρολογεί κάτι ή να βρίσκεται στον χώρο, ιδιότητα ιδιαίτερα χρήσιμη.

Όπως καταλαβαίνετε, οι δυνατότητες της τεχνολογίας αυτής είναι πολλές. Αν μιλάμε για ένα σύστημα διαχείρισης του σπιτιού (home assistant), τότε μπορείς να του “μιλάς” και να του ζητάς να παίξει την αγαπημένη σου λίστα μουσικής, να διαχειρίζεται τον φωτισμό του σπιτιού, τον κλιματισμό, να φτιάχνει λίστα για το σούπερ μάρκετ, να βάζει το ξυπνητήρι στην ώρα που θες κ.λπ.. Μια άλλη σημαντική εφαρμογή που βρίσκεται τώρα σε μεγάλη ανάπτυξη αφορά τον τομέα της Υγείας. Τα συστήματα αυτά μπορούν να λειτουργήσουν ως βοηθοί (home assistants) για ηλικιωμένους ή ανθρώπους με προβλήματα υγείας. Στο πλαίσιο αυτό η συσκευή μπορεί να έχει διάφορους ρόλους, όπως να υπενθυμίζει σε κάποιον να πάρει τα χάπια του, να ελέγχει μέσα από κάποιες ερωτήσεις τη διάθεσή του, να ειδοποιεί τους οικείους του αν χρειαστεί καθώς και πολλές άλλες εφαρμογές.

Πώς λειτουργούν οι τεχνολογίες αυτές και ποιες είναι οι μεγαλύτερες προκλήσεις που αντιμετωπίζετε;

Για να φτάσει η μηχανή στο σημείο να αναγνωρίζει τη φωνή, να κατανοεί τι ειπώθηκε και να ανταποκρίνεται, απαιτείται μια σειρά από πολύπλοκες διεργασίες. Το πρώτο στάδιο είναι η μηχανή να αναγνωρίσει τη φωνή και να εξάγει κείμενο από το ηχητικό σήμα. Το κείμενο, με τεχνικές ανάλυσης φυσικής γλώσσας, θα μετατραπεί στη συνέχεια σε μια μορφή που μπορεί να χρησιμοποιηθεί από τον υπολογιστή για να εξάγει χρήσιμη πληροφορία. Πέρα όμως από το στάδιο της κατανόησης της ομιλίας (speech recognition), ιδιαίτερα απαιτητικό είναι και το αντίστροφο, η σύνθεση ομιλίας (speech synthesis), το να παραχθεί δηλαδή από το κείμενο μια φωνή που θα ακούγεται φυσική.

Κάτι επίσης σημαντικό ερευνητικά είναι αυτό που λέμε μοντελοποίηση διαλόγου (dialogue modelling), η κατανόηση του διαλόγου αυτού καθαυτού, δηλαδή της δυναμικής του. Πώς πρέπει να εκφέρει ένα μηχάνημα μια πρόταση και πώς ανταποκρίνεται δεδομένου του τι έχει ρωτήσει ή απαντήσει ο άνθρωπος. Να μοιάζει δηλαδή ο διάλογος πιο φυσικός. Εδώ μιλάμε για διάλογο, όχι δηλαδή μόνο για ερώτηση και απάντηση. Ακόμα και σε επίπεδο χροιάς και συναισθήματος, ο στόχος είναι να γίνει ο διάλογος ανάμεσα σε ανθρώπους και μηχανές πιο φυσικός (κινητά, home assistants, GPS), ώστε να μην είναι βαρετός και μονότονος.

 

Διεθνές Συνέδριο για Spoken Language Technology (SLT):

Η Silicon Valley έρχεται στην Ελλάδα

 

Η IEEE (Institute of Electrical and Electronics Engineers) - Signal Processing Society αποτελεί τον μεγαλύτερο οργανισμό επαγγελματιών τεχνολογίας, με περισσότερα από 400.000 μέλη σε 160 χώρες σε όλο τον κόσμο. Τα περισσότερα μέλη της βρίσκονται στις ΗΠΑ. Η ΙΕΕΕ και τα μέλη της φιλοδοξούν να εμπνεύσουν την καινοτομία σε παγκόσμιο επίπεδο μέσω επιστημονικών δημοσιεύσεων, συνεδρίων, τεχνολογικών προτύπων, επαγγελματικών και εκπαιδευτικών δραστηριοτήτων. Αποτελεί οργανισμό σημείο αναφοράς για την Πληροφορική, τη Μηχανική και τις τεχνολογίες της πληροφορίας παγκοσμίως.

Στο πλαίσιο αυτό τα συνέδρια που διοργανώνει αποτελούν σημείο συνάντησης των ειδικών σε παγκόσμιο επίπεδο. Φέτος, για πρώτη χρονιά στην ιστορία του το συνέδριο ΙΕΕΕ SLT2018 θα διοργανωθεί εκτός ΗΠΑ, και μάλιστα στην Ελλάδα, μεταφέροντας τις εργασίες του για πρώτη φορά σε ευρωπαϊκό έδαφος. Σε αυτό θα λάβουν μέρος ερευνητές και επαγγελματίες από όλο τον κόσμο, με χορηγίες και επιδείξεις από εταιρείες όπως η Oben, η Google, η Apple, η Uber, η Microsoft, η Amazon, η Toshiba, η Innoetics, η Omilia και πολλές άλλες. Κεντρικοί ομιλητές του συνεδρίου είναι ο Alex Acero, διευθυντής της ομάδας της Siri στην Apple, ο Σπύρος Ράπτης, συνιδρυτής και επικεφαλής της εταιρείας Innoetics, που εξειδικεύεται σε text-to-speech τεχνολογίες και πρόσφατα εξαγοράστηκε από τη Samsung, και η Δήμητρα Βεργύρη, διευθύντρια του εργαστηρίου STAR (Speech Technology and Research Laboratory) στο Ερευνητικό Κέντρο SRI στις ΗΠΑ. Προσκεκλημένοι ομιλητές είναι επίσης ο Πέτρος Μαραγκός, καθηγητής της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Εθνικού Μετσόβιου Πολυτεχνείου, και η Karen Livescu, αναπληρώτρια καθηγήτρια στο Τεχνολογικό Ινστιτούτο της Toyota στο Chicago.

Η φετινή διοργάνωση θα λάβει χώρα στο ξενοδοχείο Royal Olympic, από τις 18 έως τις 21 Δεκεμβρίου, με κεντρικό θέμα “Τεχνολογίες ομιλίας στην εποχή της βαθιάς μάθησης: Προκλήσεις και ευκαιρίες” (Spoken Language Technology in the Era of Deep Learning: Challenges and Opportunities). Οι μέθοδοι βαθιάς μάθησης (deep learning) εφαρμόζονται όλο και περισσότερο στις τεχνολογίες ομιλίας, συμπεριλαμβανομένης της επεξεργασίας σήματος, της κατανόησης και της παραγωγής ομιλίας, καθώς και της διαχείρισης του διαλόγου.

Demos

Στο πλαίσιο του συνεδρίου εταιρείες και ερευνητές θα επιδείξουν μια σειρά από εφαρμογές που βρίσκονται αυτή τη στιγμή στην αιχμή της τεχνολογίας. Ενδεικτικά αναφέρουμε μία από αυτές για να μεταφέρουμε την εικόνα.

Demo Behavioral Signals: Τα ρομπότ κάνουν casting!

Η εφαρμογή Quentin Furhatino, ο πρώτος ρομποτικός σκηνοθέτης, κάνει κάστινγκ προκειμένου να αποφασίσει αν θα προτιμήσει έναν άνθρωπο ως ηθοποιό. Η διαδικασία είναι απλή: η μηχανή προβάλλει μια ατάκα από μια διάσημη ταινία και ο “υποψήφιος” πρέπει να την επαναλάβει όσο πιο πιστά (ως προς το ύφος) γίνεται. Η ρομποτική εφαρμογή αναγνωρίζει τη φωνή και αναλύει το ύφος και στη συνέχεια κατατάσσει τον ηθοποιό ανάλογα με την ικανότητά του να εκφράσει βασικά συναισθήματα και συμπεριφορές, όπως η επιθετικότητα και η αυτοπεποίθηση . Όπως ένας κανονικός σκηνοθέτης, το λογισμικό αξιολογεί πόσο καλά τα κατάφερε ο επίδοξος “ηθοποιός” και επιπλέον του κάνει υποδείξεις προκειμένου να τον βοηθήσει στην ερμηνεία του!

Η εφαρμογή έχει αναπτυχθεί από την εταιρεία Behavioral Signals (https://behavioralsignals.com/).

Περισσότερες πληροφορίες για το συνέδριο: http://www.slt2018.org/

Λήδα Αρνέλλου

Δείτε όλα τα σχόλια

Κύριο άρθρο

Ανήθικοι και επικίνδυνοι

Όσο πλησιάζει η ώρα να έρθει η συμφωνία των Πρεσπών στην Ολομέλεια της Βουλής, τόσο η τακτική της Ν.Δ. γίνεται πιο ανήθικη, αλλά και πιο επικίνδυνη. Είναι σαφές ότι η Ν.Δ. θέλει να αποφύγει με κάθε...

Δειτε ολοκληρο το αρθρο