[Orasi] Google: Η ομάδα DeepMind δημιούργησε πρόγραμμα που μιμείται την ανθρώπινη ομιλία

Σκορδίλης Σπύρος Mon, 12 Sep 2016 09:39:06 -0700

Google: Η ομάδα DeepMind δημιούργησε πρόγραμμα που μιμείται την ανθρώπινη ομιλία



Είναι ακόμα αρκετά εύκολο να καταλάβει κάποιος αν μιλάει με ένα πραγματικό 
πρόσωπο ή με ένα πρόγραμμα text-to-speech. Αλλά, χάρη σε ένα νέο AI (πρόγραμμα 
τεχνητής νοημοσύνης) που ονομάζεται WaveNet και αναπτύχθηκε από την ομάδα 
DeepMind της Google, μπορεί να έρθει η στιγμή που ένα ρομπότ θα μπορεί να μας 
μπερδέψει και να νομίζουμε ότι μιλάμε με ένα πραγματικό πρόσωπο. Η ομάδα αυτή 
έχει πολύ καλό ιστορικό, όσον αφορά στην δημιουργία νευρωνικών δικτύων, με πιό 
γνωστό το AlphaGo, που κέρδισε έναν από τους καλύτερους παίκτες του παιχνιδιού 
Go στον κόσμου.
Προς το παρόν, οι προγραμματιστές χρησιμοποιούν δύο μεθόδους για τη δημιουργία 
προγραμμάτων ομιλίας. Στην μία μέθοδο χρησιμοποιούν μια μεγάλη συλλογή από 
λέξεις και εκφράσεις ενός μόνο ατόμου, το οποίο δυσκολεύει τον χειρισμό των 
ήχων και των τονισμών. Στην άλλη μέθοδο οι λέξεις δημιουργούνται ηλεκτρονικά, 
ανάλογα με τον τρόπο που υποτίθεται ότι ακούγονται. Αυτό κάνει τα πράγματα 
ευκολότερα, αλλά τα αποτελέσματα ακούγεται πολύ πιο ρομποτικό.

Για να δημιουργήσουν ένα πρόγραμμα ομιλίας που ακούγεται πραγματικά ανθρώπινο, 
η ομάδα τροφοδοτεί το νευρωνικό δίκτυο με τις κυματομορφές ακατέργαστου ήχου 
που καταγράφονται από την πραγματική ανθρώπινη ομιλία. Οι κυματομορφές είναι οι 
οπτικές αναπαραστάσεις των σχημάτων που παίρνουν ο ήχος, όπως αυτά τα κύματα 
που βλέπουμε να κινούνται ρυθμικά σε ορισμένες οθόνες αναπαραγωγής πολυμέσων. 
Ως εκ τούτου, το WaveNet «μιλάει» με τον σχηματισμό επιμέρους ηχητικών κυμάτων. 
Με την ευκαιρία να σημειώσουμε ότι ίσως το πρόγραμμα να έχει μέλλον και στη 
μουσική. Η ομάδα το τροφοδότησε με κλασσικά κομμάτια για πιάνο και αυτό 
δημιούργησε από μόνο του κάποια ενδιαφέροντα δείγματα.

Για παράδειγμα, αν χρησιμοποιηθεί ως πρόγραμμα text-to-speech, μετατρέπει το 
κείμενο που πληκτρολογούμε σε μια σειρά φωνημάτων και συλλαβών, τα οποία στη 
συνέχεια αναπαράγονται σαν πραγματική φωνή. Άτομα που έλαβαν μέρος σε τυφλά 
τεστ διαπίστωσαν ότι το αποτελέσμα του WaveNet ακουγόταν πολύ πιο ανθρώπινο από 
τις άλλες μεθόδους. Στην ανακοίνωση του προγράμματος, η ομάδα του DeepMind, 
είπε ότι «μπορεί να μειωθεί το χάσμα ανάμεσα στην εξέλιξη της τεχνολογίας και 
των επιδόσεων του ανθρώπου σε επίπεδο πάνω από 50 τοις εκατό» βασiζόμενοι σε 
πειράματα που έγιναν στην αγγλική και στην μανδαρινική κινεζική γλώσσα. Δεν 
χρειάζεται να πάρουμε τοις μετρητοίς τα λόγια της ομάδας για αυτό. Εξάλλου 
είμαστε ακόμα μακριά από τη χρήση ενός WaveNet-powered app, αλλά μπορείται να 
ακούσετε κάποια δείγματα στην επίσημη ιστοσελίδα της DeepMind.


[via]
http://feeds.myphone.gr/~r/myphone/~3/vAQA0WZcjks/showthread.php

http://feeds.myphone.gr/~r/myphone/~3/vAQA0WZcjks/showthread.php
________

Orasi mailing list
για την διαγραφή σας από αυτή την λίστα στείλτε email στην διεύθυνση
[email protected]
και στο θέμα γράψτε unsubscribe

Για να στείλετε ένα μήνυμα και να το διαβάσουν όλοι οι συνδρομητές της λίστας 
στείλτε email στην διεύθυνση
[email protected]

διαβάστε τι συζητά αυτή η λίστα
http://hostvis.net/mailman/listinfo/orasi_hostvis.net

Για το αρχείο της λίστας
http://www.mail-archive.com/[email protected]/
Εναλλακτικό αρχείο:
http://hostvis.net/pipermail/orasi_hostvis.net/
παλαιότερο αρχίο (έως 25/06/2011)
http://www.freelists.org/archives/orasi
__________
NVDA δωρεάν αναγνώστης οθώνης ένα πρόγραμμα ανοιχτού λογισμικού
http://www.nvda-project.org/
_____________
Κατάλογος ηχητικών βιβλίων για ανάγνωση
http://www.hostvis.net/audiobooks/katalogos.xls
Τα ηχογραφημένα βιβλία με φυσική φωνή προσφέρονται από τις βιβλιοθήκες που 
λειτουργούν οι φορείς των τυφλών
____________

[Orasi] Google: Η ομάδα DeepMind δημιούργησε πρόγραμμα που μιμείται την ανθρώπινη ομιλία

Απαντηση