Αστέρια από τη χρυσή εποχή του Χόλιγουντ αναγεννιούνται χάρη σε συμφωνίες για κλωνοποίηση φωνών διασημοτήτων χρησιμοποιώντας τεχνητή νοημοσύνη, σημάδι ότι ορισμένες από τις ανησυχίες της «Άγριας Δύσης» για μη εξουσιοδοτημένη χρήση τεχνητής νοημοσύνης αντιμετωπίζονται μέσω νέων επιχειρηματικών μοντέλων.
Η ElevenLabs, μια startup τεχνολογίας ήχου που υποστηρίζεται από εταιρείες επιχειρηματικών κεφαλαίων, συμπεριλαμβανομένων των Andreessen Horowitz και Sequoia, έχει συνάψει πολλές συμφωνίες με κληρονόμους θρυλικών ηθοποιών για το εργαλείο IconicVoices, το οποίο επιτρέπει στους χρήστες να ακούν φωνές που δημιουργούνται από AI μέσω μιας εφαρμογής audiobook. Πρωταγωνιστούν οι Burt Reynolds, Judy Garland, James Dean και Sir Laurence Olivier.
Το ElevenLabs, που ξεκίνησε το 2023, δημιουργεί ήχο για βιβλία και άρθρα ειδήσεων, χαρακτήρες βιντεοπαιχνιδιών, προπαραγωγή ταινιών, μέσα κοινωνικής δικτύωσης και διαφήμιση. Η εταιρεία συνεργάζεται ήδη με εκδότες, όπως οι New York Times και η Washington Post, και νωρίτερα φέτος η εταιρεία επιλέχθηκε από την Disney για να ενταχθεί στο πρόγραμμα επιτάχυνσής της.
“Χρειάζεστε περίπου 30 λεπτά ήχου υψηλής ποιότητας για να δημιουργήσετε έναν επαγγελματικό κλώνο φωνής”, είπε ο Sam Sklar, μέλος της ομάδας ανάπτυξης της ElevenLabs, και οι φωνές παράγονται από έναν κατάλογο διασημοτήτων. Μόλις δημιουργηθεί, μπορεί να γίνει επίκληση για ανάγνωση κειμένου (άρθρα, PDF, ePub, ενημερωτικά δελτία ή άλλο περιεχόμενο κειμένου). Ωστόσο, δεν είναι δυνατή η εξαγωγή φωνής και περιεχομένου, καθώς όλη η ακρόαση πραγματοποιείται στην εφαρμογή ανάγνωσης.
Για παράδειγμα, ένας χρήστης μπορεί να ακούσει άρθρα που αφηγείται ο James Dean στην εφαρμογή, αλλά οι χρήστες δεν θα μπορούν να έχουν πρόσβαση σε φωνές για περιεχόμενο που δεν υπάρχει ήδη στην εφαρμογή.
Συμφωνίες όπως αυτές θα μπορούσαν να βοηθήσουν στον καθορισμό των ορίων για ένα μέλλον στο οποίο το φωνητικό περιεχόμενο που δημιουργείται από AI είναι λιγότερο αμφιλεγόμενο και περισσότερο ελεγχόμενο και επιμελημένο. Το Google Play και τα Apple Books χρησιμοποιούν ήδη σε κάποιο βαθμό φωνές που δημιουργούνται από την τεχνητή νοημοσύνη, αν και υπάρχουν υψηλά εμπόδια στην αναδημιουργία του ρυθμού, του τονισμού και των συναισθημάτων της ανθρώπινης φωνής.
Η βιομηχανία τεχνητής νοημοσύνης έχει αντιμετωπίσει ανησυχίες σχετικά με τη χρήση φωνών διασημοτήτων. Το OpenAI έκανε μια στροφή τον Μάιο, αφού η ηθοποιός Scarlett Johansson κατηγόρησε την εταιρεία ότι αντέγραψε τη φωνή της αφού απέρριψε τις προσφορές αδειοδότησης.
«Κατανοούμε τους κινδύνους που σχετίζονται με τα συνθετικά μέσα και παίρνουμε την ασφαλή χρήση των εργαλείων μας απίστευτα σοβαρά», δήλωσε ο Sklar. Οι διασφαλίσεις περιλαμβάνουν την ενεργή εποπτεία περιεχομένου, τη λογοδοσία που υποστηρίζεται από απαγορεύσεις και ειδικές διατάξεις για την προστασία της επιρροής των φωνών της τεχνητής νοημοσύνης στις εκλογές του 2024.
Παραμένει σημαντική ανησυχία μεταξύ της τρέχουσας γενιάς παραγόντων σχετικά με τη χρήση της τεχνητής νοημοσύνης για τη δημιουργία περιεχομένου φωνής. Οι ηθοποιοί φωνής βιντεοπαιχνιδιών προκαλούν ανησυχία και η περσινή απεργία στον κινηματογράφο και την τηλεόραση οφείλεται σε μεγάλο βαθμό από το άγχος για τη χρήση της τεχνητής νοημοσύνης. Η χρήση εμβληματικών φωνών που πωλούνται με κληρονομικότητα είναι μια θέση στην αγορά που δυνητικά αποφεύγει αυτές τις παγίδες, αντιπροσωπεύοντας μια νέα πηγή εσόδων από την τεχνητή νοημοσύνη και όχι μια χαμένη πηγή εσόδων λόγω της τεχνητής νοημοσύνης.
Η χρήση φωνών διασημοτήτων που ακούγονται σαν τις φωνές άλλων είναι ένα πρόβλημα που υπήρχε ακόμη και πριν από την έλευση της τεχνητής νοημοσύνης, όπως η περίπτωση του Frito Lay το 1988 χρησιμοποιώντας τη φωνή του Tom Waits στη διαφήμισή του και μια άλλη περίπτωση του Waits το 2007. , αφού ο ίδιος ο Γουέιτς αρνήθηκε για μεγάλο χρονικό διάστημα τις διαφημιστικές συμφωνίες. Η τεχνητή νοημοσύνη αντιπροσωπεύει έναν ευκολότερο δρόμο για τη δημιουργία όμοιων φωνών και οι πρόσφατες αγωγές κατά της startup AI Lovo για φερόμενη ακατάλληλη και απλήρωτη χρήση φωνητικών φορέων για τη δημιουργία φωνών AI είναι μια υπενθύμιση ότι ο κόσμος της δημιουργίας φωνής AI είναι πιθανό να παραμείνει, σε κάποιο βαθμό, περίπλοκη και αμφιλεγόμενη. (Η Lovo αρνήθηκε τους ισχυρισμούς στο κοστούμι και έδειξε επίσης το μοντέλο κατανομής εσόδων που προσφέρει στους ηθοποιούς για κλωνοποιημένες φωνές.)
Ο Steve Cohen, συνεργάτης της Pollock & Cohen που εκπροσωπεί φωνητικούς ηθοποιούς σε μια άσχετη δίκη που ισχυρίζεται την κλωνοποίηση φωνών χωρίς άδεια, είπε ότι είναι δύσκολο να μετρηθεί το επίπεδο προστασίας επί τόπου χωρίς να εξετάσουμε τη συγκεκριμένη γλώσσα των συμβολαίων της IconicVoices.
Η ElevenLabs επισημαίνει πώς το εργαλείο IconicVoices αποκτά άδειες και ελέγχει τη χρήση φωνών.
«Το να δίνετε άδεια χρήσης της φωνής σας είναι ένα από τα βασικά στοιχεία», είπε ο Κοέν. «Νομίζω ότι οι βασικοί παράγοντες είναι η άδεια, η αποζημίωση και ο έλεγχος».
Νέοι, σαφέστεροι νόμοι θα μπορούσαν επίσης να λειτουργήσουν αποτρεπτικά για τους ανθρώπους που μπαίνουν στον πειρασμό από την κατάχρηση ψήφων, «όχι για τους σκληροπυρηνικούς κακούς, αλλά για τις ακραίες υποθέσεις», είπε ο Κοέν. Αλλά αναφέροντας την Bette Davis στο All About Eve, πρόσθεσε: «Δέστε τις ζώνες σας. Θα είναι μια ανώμαλη διαδρομή».
Το πώς ακούγονται ρεαλιστικές κλωνοποιημένες φωνές είναι επίσης ένα εξελισσόμενο ζήτημα. Πολλοί ειδικοί λένε ότι επειδή η τεχνητή νοημοσύνη δεν «ξέρει» τι λέει, η ποιότητα της απόδοσης είναι περιορισμένη. Ο Sklar είπε ότι το τελευταίο επίπεδο ποιότητας ομιλίας της ElevenLabs δεν διακρίνεται από την πραγματική ανθρώπινη ομιλία. «Τα εργαλεία μετατροπής κειμένου σε ομιλία της ElevenLabs μπορούν να κατανοήσουν το πλαίσιο των λέξεων», είπε.
Η τεχνητή νοημοσύνη είναι τόσο καλή όσο τα μοντέλα στα οποία έχει εκπαιδευτεί και τα σύνολα δεδομένων φωνής ηθοποιών γίνονται μέρος αυτής της διαδικασίας.
«Τα νευρωνικά μοντέλα αντλούν τις δυνατότητές τους από την προσομοίωση/απομνημόνευση των αποχρώσεων και των μοτίβων που υπάρχουν στα δεδομένα εκπαίδευσής τους», δήλωσε ο Nauman Dawalatabad, μεταδιδακτορικός συνεργάτης στο Εργαστήριο Επιστήμης Υπολογιστών και Τεχνητής Νοημοσύνης του MIT που διεξάγει εκτεταμένη έρευνα στη δημιουργία φωνής με τεχνητή νοημοσύνη. “Η ποιότητα και η ποικιλία των δεδομένων εκπαίδευσης έχει σημαντικό αντίκτυπο στην απόδοση του μοντέλου.”
Οι φωνητικές ροές των αστέρων του κινηματογράφου θα μπορούσαν να βοηθήσουν τη μίμηση και την εκπαίδευση της τεχνητής νοημοσύνης παρέχοντας το είδος των “συνόλων φωνητικών δεδομένων υψηλής ποιότητας για εκπαίδευση και βελτιστοποίηση μεγάλων μοντέλων” που ο Dawalatabad λέει ότι είναι απαραίτητο για τη διαδικασία. Εξέφρασε όμως αμφιβολίες για το «να ακούγεται ανθρώπινο» ως κατάλληλη δοκιμή για το φωνητικό πεδίο της AI, καθώς θα μπορούσε να ενισχύσει την ανταγωνιστική σχέση μεταξύ ανθρώπινων και συνθετικών φωνών.
Οι φωνητικοί ηθοποιοί παραμένουν διχασμένοι ως προς την τεχνολογία, με κάποιους να αρνούνται να εξετάσουν τυχόν συμφωνίες, αλλά άλλοι λένε ότι δεν μπορεί να αγνοηθεί η δυνατότητα κλωνοποίησης της φωνής τους για την παραγωγή ορισμένων τύπων ακουστικών βιβλίων πιο γρήγορα και φθηνότερα. «Η τεχνολογία AI μπορεί να βοηθήσει στις ροές εργασίας. Η τεχνητή νοημοσύνη δεν είναι ένα νέο εργαλείο για φωνητικούς ηθοποιούς, παραγωγούς και εκδότες, πολλοί από τους οποίους το χρησιμοποιούν για να βελτιώσουν τον ποιοτικό έλεγχο στο post-production, είπε στο CNBC πέρυσι η Michelle Cobb, εκτελεστική διευθύντρια του Audio Publishers Association.
Σύμφωνα με τον Dawalatabad, τα τελευταία μοντέλα παραγωγής έχουν σημειώσει σημαντική πρόοδο σε σχέση με προηγούμενες επαναλήψεις, καθιστώντας όλο και πιο δύσκολη τη διάκριση μεταξύ ψεύτικων και πραγματικών φωνών μόνο με το αυτί. Η αδειοδότηση φωνών AI μπορεί να ελαφρύνει το βάρος των φωνητικών ηθοποιών, πρόσθεσε, χωρίς να τους εκτοπίζει καθώς «επεμβαίνουν στη διαδικασία, εστιάζοντας στην πρόταση διορθώσεων ή βελτιώσεων σε ανείπωτες πτυχές, όπως ο τονισμός, η ζεστασιά και η προφορά, που εξακολουθούν να αποτελούν προκλήσεις».