Google: Η ομάδα DeepMind δημιούργησε πρόγραμμα που μιμείται την ανθρώπινη ομιλία
Είναι ακόμα αρκετά εύκολο να καταλάβει κάποιος αν μιλάει με ένα πραγματικό πρόσωπο ή με ένα πρόγραμμα text-to-speech. Αλλά, χάρη σε ένα νέο AI (πρόγραμμα τεχνητής νοημοσύνης) που ονομάζεται WaveNet και αναπτύχθηκε από την ομάδα DeepMind της Google, μπορεί να έρθει η στιγμή που ένα ρομπότ θα μπορεί να μας μπερδέψει και να νομίζουμε ότι μιλάμε με ένα πραγματικό πρόσωπο. Η ομάδα αυτή έχει πολύ καλό ιστορικό, όσον αφορά στην δημιουργία νευρωνικών δικτύων, με πιό γνωστό το AlphaGo, που κέρδισε έναν από τους καλύτερους παίκτες του παιχνιδιού Go στον κόσμου. Προς το παρόν, οι προγραμματιστές χρησιμοποιούν δύο μεθόδους για τη δημιουργία προγραμμάτων ομιλίας. Στην μία μέθοδο χρησιμοποιούν μια μεγάλη συλλογή από λέξεις και εκφράσεις ενός μόνο ατόμου, το οποίο δυσκολεύει τον χειρισμό των ήχων και των τονισμών. Στην άλλη μέθοδο οι λέξεις δημιουργούνται ηλεκτρονικά, ανάλογα με τον τρόπο που υποτίθεται ότι ακούγονται. Αυτό κάνει τα πράγματα ευκολότερα, αλλά τα αποτελέσματα ακούγεται πολύ πιο ρομποτικό. Για να δημιουργήσουν ένα πρόγραμμα ομιλίας που ακούγεται πραγματικά ανθρώπινο, η ομάδα τροφοδοτεί το νευρωνικό δίκτυο με τις κυματομορφές ακατέργαστου ήχου που καταγράφονται από την πραγματική ανθρώπινη ομιλία. Οι κυματομορφές είναι οι οπτικές αναπαραστάσεις των σχημάτων που παίρνουν ο ήχος, όπως αυτά τα κύματα που βλέπουμε να κινούνται ρυθμικά σε ορισμένες οθόνες αναπαραγωγής πολυμέσων. Ως εκ τούτου, το WaveNet «μιλάει» με τον σχηματισμό επιμέρους ηχητικών κυμάτων. Με την ευκαιρία να σημειώσουμε ότι ίσως το πρόγραμμα να έχει μέλλον και στη μουσική. Η ομάδα το τροφοδότησε με κλασσικά κομμάτια για πιάνο και αυτό δημιούργησε από μόνο του κάποια ενδιαφέροντα δείγματα. Για παράδειγμα, αν χρησιμοποιηθεί ως πρόγραμμα text-to-speech, μετατρέπει το κείμενο που πληκτρολογούμε σε μια σειρά φωνημάτων και συλλαβών, τα οποία στη συνέχεια αναπαράγονται σαν πραγματική φωνή. Άτομα που έλαβαν μέρος σε τυφλά τεστ διαπίστωσαν ότι το αποτελέσμα του WaveNet ακουγόταν πολύ πιο ανθρώπινο από τις άλλες μεθόδους. Στην ανακοίνωση του προγράμματος, η ομάδα του DeepMind, είπε ότι «μπορεί να μειωθεί το χάσμα ανάμεσα στην εξέλιξη της τεχνολογίας και των επιδόσεων του ανθρώπου σε επίπεδο πάνω από 50 τοις εκατό» βασiζόμενοι σε πειράματα που έγιναν στην αγγλική και στην μανδαρινική κινεζική γλώσσα. Δεν χρειάζεται να πάρουμε τοις μετρητοίς τα λόγια της ομάδας για αυτό. Εξάλλου είμαστε ακόμα μακριά από τη χρήση ενός WaveNet-powered app, αλλά μπορείται να ακούσετε κάποια δείγματα στην επίσημη ιστοσελίδα της DeepMind. [via] http://feeds.myphone.gr/~r/myphone/~3/vAQA0WZcjks/showthread.php http://feeds.myphone.gr/~r/myphone/~3/vAQA0WZcjks/showthread.php ________ Orasi mailing list για την διαγραφή σας από αυτή την λίστα στείλτε email στην διεύθυνση [email protected] και στο θέμα γράψτε unsubscribe Για να στείλετε ένα μήνυμα και να το διαβάσουν όλοι οι συνδρομητές της λίστας στείλτε email στην διεύθυνση [email protected] διαβάστε τι συζητά αυτή η λίστα http://hostvis.net/mailman/listinfo/orasi_hostvis.net Για το αρχείο της λίστας http://www.mail-archive.com/[email protected]/ Εναλλακτικό αρχείο: http://hostvis.net/pipermail/orasi_hostvis.net/ παλαιότερο αρχίο (έως 25/06/2011) http://www.freelists.org/archives/orasi __________ NVDA δωρεάν αναγνώστης οθώνης ένα πρόγραμμα ανοιχτού λογισμικού http://www.nvda-project.org/ _____________ Κατάλογος ηχητικών βιβλίων για ανάγνωση http://www.hostvis.net/audiobooks/katalogos.xls Τα ηχογραφημένα βιβλία με φυσική φωνή προσφέρονται από τις βιβλιοθήκες που λειτουργούν οι φορείς των τυφλών ____________
