Η DeepMind της Google μιμείται ρεαλιστικά ανθρώπινη φωνή
Είναι ακόμα πολύ εύκολο να διακρίνει κανείς αν κάποιος συνομιλεί με άνθρωπο ή με ένα text-to-speech πρόγραμμα. Όμως είναι πιθανό πως πλησιάζει η στιγμή που ένα ρομπότ θα μπορεί να μιμηθεί την ανθρώπινη φωνή σε τέτοιο βαθμό ώστε να εξαπατήσει τον άνθρωπο. Εκεί προσανατολίζεται η Google με τη νέα τεχνητή νοημοσύνη WaveNet που σχεδιάστηκε από την ομάδα της DeepMind, η οποία έχει πολύ καλό ιστορικό όσον αφορά τα νευρωνικά δίκτυα. Πρόσφατα το πρόγραμμά τους AlphaGo κέρδισε τον Lee Sedol , έναν από τους καλύτερους παίκτες Go, σε μια σειρά παιχνιδιών. Για την ώρα, οι προγραμματιστές χρησιμοποιούν μια από τις δυο γνωστές μεθόδους για να γράψουν πρόγραμμα ομιλίας. Η μια περιλαμβάνει μεγάλη συλλογή από λέξεις και κομμάτια ομιλίας ηχογραφημένα από ένα πρόσωπο, γεγονός όμως που καθιστά δύσκολο το χειρισμό ήχων και τονισμών. Η άλλη μέθοδος δημιουργεί τις λέξεις ηλεκτρονικά ανάλογα με τον τρόπο που πρέπει να ακούγονται. Αυτό καθιστά πιο εύκολη τη χειραγώγηση των λέξεων αλλά το αποτέλεσμα είναι ήχος που ακούγεται πιο ρομποτικός. Για να δημιουργηθεί ένα πρόγραμμα ομιλίας που να ακούγεται πραγματικά σαν ανθρώπινη φωνή, η ομάδα εισήγαγε στο νευρωνικό δίκτυο, raw κυματομορφές, ηχογραφημένες από ανθρώπινες ομιλίες. Η κυματομορφή είναι η οπτική αναπαράσταση των ήχων και αυτό χρησιμοποιεί το WaveNet για να «μιλήσει». Παράλληλα η τεχνητή νοημοσύνη φαίνεται να έχει μέλλον και στη μουσική. Η ομάδα εισήγαγε κλασσικά κομμάτια από πιάνο και το πρόγραμμα δημιούργησε δικά του δείγματα μουσικής. Έτσι λοιπόν, αν χρησιμοποιηθεί το WaveNet σαν text-to-speech πρόγραμμα, αυτό θα μετατρέψει το κείμενο σε μια σειρά φθόγγων και συλλαβών και θα σχηματίσει λέξεις. Άτομα που έλαβαν μέρος σε τεστ τυφλής αναγνώρισης θεωρούν ότι το WaveNet ακούγεται περισσότερο σαν άνθρωπος από τις άλλες μεθόδους. Η ομάδα του DeepMind όταν ανακοίνωσε το WaveNet, μεταξύ άλλων τόνισε ότι «μπορεί να μειώσει το χάσμα μεταξύ του τεχνολογικού επιτεύγματος και της ανθρώπινης φωνής πάνω από 50%» βασισμένοι στα πειράματα πάνω στην Αγγλική γλώσσα και τη Μανδαρινική διάλεκτο. Και μπορεί να είμαστε ακόμα μακριά από τη χρησιμοποίηση μιας WaveNet εφαρμογής εμπορικά, αλλά μπορούμε να ακούσουμε κάποια εντυπωσιακά δείγματα από τα αποτελέσματα στη σελίδα της DeepMind. Site: DeepMind Site: Εngadget http://feedproxy.google.com/~r/grinsomnia/~3/fc_5SBQSZUY/ http://feedproxy.google.com/~r/grinsomnia/~3/fc_5SBQSZUY/ Σωκράτης ________ Orasi mailing list για την διαγραφή σας από αυτή την λίστα στείλτε email στην διεύθυνση orasi-requ...@hostvis.net και στο θέμα γράψτε unsubscribe Για να στείλετε ένα μήνυμα και να το διαβάσουν όλοι οι συνδρομητές της λίστας στείλτε email στην διεύθυνση Orasi@hostvis.net διαβάστε τι συζητά αυτή η λίστα http://hostvis.net/mailman/listinfo/orasi_hostvis.net Για το αρχείο της λίστας http://www.mail-archive.com/orasi@hostvis.net/ Εναλλακτικό αρχείο: http://hostvis.net/pipermail/orasi_hostvis.net/ παλαιότερο αρχίο (έως 25/06/2011) http://www.freelists.org/archives/orasi __________ NVDA δωρεάν αναγνώστης οθώνης ένα πρόγραμμα ανοιχτού λογισμικού http://www.nvda-project.org/ _____________ Κατάλογος ηχητικών βιβλίων για ανάγνωση http://www.hostvis.net/audiobooks/katalogos.xls Τα ηχογραφημένα βιβλία με φυσική φωνή προσφέρονται από τις βιβλιοθήκες που λειτουργούν οι φορείς των τυφλών ____________