Si l’avancement de l’intelligence artificielle (IA) nous a appris quelque chose, c’est que rien n’est tel qu’il paraît. Il est difficile d’utiliser une plateforme de réseaux sociaux sans tomber sur du contenu hypertrucé (ou deepfakes) à un moment ou à un autre.
Selon Deloitte, la fraude par deepfake devrait tripler au cours des trois prochaines années et coûter 40 milliards de dollars (environ 37 milliards d’euros) de dommages à l’économie d’ici 2027.
Alors pourquoi les deepfakes explosent-ils de cette manière ? Une partie de la raison de la propagation de ce type de contenu est que la technologie pour créer des voix synthétiques est plus accessible que jamais. Vous pouvez rechercher des deepfakes convaincants imitant des voix humaines et des personnalités publiques en quelques minutes, généralement sans inscription requise.
Ce que cela signifie exactement pour Internet et la société dans son ensemble n’est pas toujours facile à définir.
Ce qui est clair, c’est que nous allons devoir apprendre à vivre dans un monde où le contenu créé par l’homme et le contenu synthétique coexistent.
Pourquoi les deepfakes vocaux sont utiles – et problématiques
Les deepfakes vocaux sont un problème pour Internet car il devient plus difficile de vérifier qui dit quoi à un moment donné (même si Google simplifie la suppression des deepfakes IA). C’est particulièrement vrai sur les réseaux sociaux comme X ou TikTok, où il est difficile de dire si une vidéo est narrée par une voix humaine ou synthétique.
Ken Miyachi, co-fondateur de BitMind, a déclaré à Techopedia :
Les deepfakes vocaux se sont répandus sur les réseaux sociaux en raison de l’accessibilité croissante de la technologie de génération de voix par IA.
Les outils pour créer des imitations vocales convaincantes sont maintenant facilement accessibles à tous, rendant facile la production et le partage rapide de contenu vocal synergique sur les plateformes.
Il est beaucoup plus facile de créer du contenu avec une voix générée par IA que de s’enregistrer soi-même – et cela permet de générer des quantités massives de contenu.
En même temps, au-delà d’être utilisés pour la création de contenu, les deepfakes peuvent aussi être utilisés pour délibérément induire les gens en erreur en leur faisant croire qu’une personnalité publique a approuvé une idée ou une action particulière.
Par exemple, les utilisateurs peuvent produire des clips IA avec les voix de personnalités publiques, leur faisant dire des choses qu’elles n’auraient jamais dites, comme l’a montré l’appel automatisé du Président Biden lorsqu’un individu a tenté de décourager les démocrates de voter.
Les préoccupations éthiques des deepfakes vocaux
L’éthique autour des deepfakes vocaux est également extrêmement complexe. S’il peut être acceptable d’utiliser un script généré par IA avec une voix synthétique pour parler sur une vidéo, est-il acceptable que ce script utilise l’apparence d’une personnalité publique avec une mention ?
Probablement pas, et la réponse à la question de savoir si c’est acceptable ou non dépendrait probablement du consentement de la personne à utiliser sa voix pour un deepfake.
Cependant, ce navire a déjà quitté le port, car on trouve d’innombrables exemples en ligne de deepfakes IA utilisés pour imiter les voix de personnalités publiques, et il est peu probable que cela s’arrête de sitôt. La preuve en est cette vidéo humoristique générée par IA utilisant la voix de Trump dans une fausse publicité pour du jus d’orange.
Miyachi a déclaré :
Les préoccupations éthiques entourant les deepfakes vocaux sont importantes. Ils peuvent être utilisés pour le vol d’identité, la fraude et l’usurpation d’identité malveillante qui nuit aux réputations.
Il y a aussi de sérieux problèmes concernant le consentement, la violation des droits d’auteur et la violation de la vie privée lorsque les voix des gens sont utilisées sans permission. Ces voix synthétiques peuvent éroder la confiance dans le contenu numérique authentique et potentiellement impacter les processus démocratiques à travers la désinformation.
Quelle que soit la façon dont vous le voyez, les deepfakes ont érodé le lien entre les audiences en ligne et les voix humaines. Il y a un élément de doute qui n’était pas là avant, à un niveau bien au-delà des voice boards et autres technologies vocales. La question maintenant est de savoir ce qu’il faut faire à ce sujet.
Il est difficile d’imaginer que les réglementations sur l’IA générative interdisent la production de contenu synthétique de manière significative, pas quand n’importe qui peut utiliser un modèle pour les créer en quelques minutes, et contourner les modèles qui tentent de contourner les lois. Après tout, la réglementation n’a pas fait grand-chose pour ralentir le piratage en ligne.
À l’avenir, nous devrons tous devenir beaucoup plus habiles à repérer le contenu généré par l’IA de la même manière que nous avons dû apprendre à naviguer face aux arnaques par hameçonnage ou phishing. Savoir comment repérer le contenu généré par l’IA et comment se protéger des deepfakes peut aider à éviter d’être induit en erreur par la désinformation.
Une façon imparfaite d’identifier les voix générées par l’IA est leur ton monotone. Généralement, les voix générées par l’IA parleront d’un ton monotone tout au long, sans beaucoup de variation tonale, ce qui est différent de la plupart des dialogues humains, où le locuteur met l’accent sur différents mots.
De même, la prestation d’un deepfake vocal se fera aussi généralement à une vitesse continue. Les vraies personnes font des pauses pour rassembler leurs pensées, ponctuant parfois leurs phrases avec des “euh” et des “ah”, alors qu’un modèle d’IA traversera un script écrit.
Étant donné que ces signes ne sont pas infaillibles, nous recommandons également de vérifier les informations que vous voyez sur les réseaux sociaux auprès d’autres sources plus fiables pour vous assurer qu’elles sont correctes.
Il existe également des outils de détection de deepfakes que vous pouvez utiliser pour analyser et identifier les deepfakes vocaux de manière plus fiable. Toutefois, il est important de noter qu’aucune de ces techniques n’est une solution miracle.
En Conclusion
Les deepfakes vocaux seront quelque chose auquel nous devrons nous habituer. Maintenant que n’importe qui peut générer des clips vocaux avec un modèle d’IA, nous devrons tous devenir beaucoup plus habiles à identifier les voix d’IA.
Le problème est que distinguer les voix synthétiques deviendra progressivement beaucoup plus difficile à mesure que l’IA continue d’évoluer. Néanmoins, le point positif est que l’identification des deepfakes basée sur l’IA s’améliorera probablement aussi.