Η DeepMind της Google μιμείται ρεαλιστικά ανθρώπινη φωνή



Είναι ακόμα πολύ εύκολο να διακρίνει κανείς αν κάποιος συνομιλεί με άνθρωπο ή 
με ένα text-to-speech πρόγραμμα. Όμως είναι πιθανό πως πλησιάζει η στιγμή που 
ένα ρομπότ θα μπορεί να μιμηθεί την ανθρώπινη φωνή σε τέτοιο βαθμό ώστε να 
εξαπατήσει τον άνθρωπο.

Εκεί προσανατολίζεται η Google με τη νέα τεχνητή νοημοσύνη WaveNet που 
σχεδιάστηκε από την ομάδα της DeepMind, η οποία έχει πολύ καλό ιστορικό όσον 
αφορά τα νευρωνικά δίκτυα. Πρόσφατα το πρόγραμμά τους AlphaGo κέρδισε τον Lee 
Sedol , έναν από τους καλύτερους παίκτες Go, σε μια σειρά παιχνιδιών.

Για την ώρα, οι προγραμματιστές χρησιμοποιούν μια από τις δυο γνωστές μεθόδους 
για να γράψουν πρόγραμμα ομιλίας. Η μια περιλαμβάνει μεγάλη συλλογή από λέξεις 
και κομμάτια ομιλίας ηχογραφημένα από ένα πρόσωπο, γεγονός όμως που καθιστά 
δύσκολο το χειρισμό ήχων και τονισμών. Η άλλη μέθοδος δημιουργεί τις λέξεις 
ηλεκτρονικά ανάλογα με τον τρόπο που πρέπει να ακούγονται. Αυτό καθιστά πιο 
εύκολη τη χειραγώγηση των λέξεων αλλά το αποτέλεσμα είναι ήχος που ακούγεται 
πιο ρομποτικός.

Για να δημιουργηθεί ένα πρόγραμμα ομιλίας που να ακούγεται πραγματικά σαν 
ανθρώπινη φωνή, η ομάδα εισήγαγε στο νευρωνικό δίκτυο, raw κυματομορφές, 
ηχογραφημένες από ανθρώπινες ομιλίες. Η κυματομορφή είναι η οπτική αναπαράσταση 
των ήχων και αυτό χρησιμοποιεί το WaveNet για να «μιλήσει». Παράλληλα η τεχνητή 
νοημοσύνη φαίνεται να έχει μέλλον και στη μουσική. Η ομάδα εισήγαγε κλασσικά 
κομμάτια από πιάνο και το πρόγραμμα δημιούργησε δικά του δείγματα μουσικής.

Έτσι λοιπόν, αν χρησιμοποιηθεί το WaveNet σαν text-to-speech πρόγραμμα, αυτό θα 
μετατρέψει το κείμενο σε μια σειρά φθόγγων και συλλαβών και θα σχηματίσει 
λέξεις. Άτομα που έλαβαν μέρος σε τεστ τυφλής αναγνώρισης θεωρούν ότι το 
WaveNet ακούγεται περισσότερο σαν άνθρωπος από τις άλλες μεθόδους. Η ομάδα του 
DeepMind όταν ανακοίνωσε το WaveNet, μεταξύ άλλων τόνισε ότι «μπορεί να μειώσει 
το χάσμα μεταξύ του τεχνολογικού επιτεύγματος και της ανθρώπινης φωνής πάνω από 
50%» βασισμένοι στα πειράματα πάνω στην Αγγλική γλώσσα και τη Μανδαρινική 
διάλεκτο. Και μπορεί να είμαστε ακόμα μακριά από τη χρησιμοποίηση μιας WaveNet 
εφαρμογής εμπορικά, αλλά μπορούμε να ακούσουμε κάποια εντυπωσιακά δείγματα από 
τα αποτελέσματα στη σελίδα της DeepMind.

Site: DeepMind
Site: Εngadget


http://feedproxy.google.com/~r/grinsomnia/~3/fc_5SBQSZUY/

http://feedproxy.google.com/~r/grinsomnia/~3/fc_5SBQSZUY/


Σωκράτης
________

Orasi mailing list
για την διαγραφή σας από αυτή την λίστα στείλτε email στην διεύθυνση
orasi-requ...@hostvis.net
και στο θέμα γράψτε unsubscribe

Για να στείλετε ένα μήνυμα και να το διαβάσουν όλοι οι συνδρομητές της λίστας 
στείλτε email στην διεύθυνση
Orasi@hostvis.net

διαβάστε τι συζητά αυτή η λίστα
http://hostvis.net/mailman/listinfo/orasi_hostvis.net

Για το αρχείο της λίστας
http://www.mail-archive.com/orasi@hostvis.net/
Εναλλακτικό αρχείο:
http://hostvis.net/pipermail/orasi_hostvis.net/
παλαιότερο αρχίο (έως 25/06/2011)
http://www.freelists.org/archives/orasi
__________
NVDA δωρεάν αναγνώστης οθώνης ένα πρόγραμμα ανοιχτού λογισμικού
http://www.nvda-project.org/
_____________
Κατάλογος ηχητικών βιβλίων για ανάγνωση
http://www.hostvis.net/audiobooks/katalogos.xls
Τα ηχογραφημένα βιβλία με φυσική φωνή προσφέρονται από τις βιβλιοθήκες που 
λειτουργούν οι φορείς των τυφλών
____________

Απαντηση