Des experts s’alarment du taux élevé d’hallucinations dans l’outil Whisper d’OpenAI et appellent à une réglementation. En effet, les erreurs peuvent provoquer des risques dans les domaines de la transcription et de la santé.
Un rapport de l’Associated Press met en évidence les graves préoccupations des ingénieurs logiciels, des développeurs et des chercheurs universitaires concernant les erreurs de transcription produites par l’outil Whisper d’OpenAI.
Alors que les hallucinations dans l’IA générative sont un défi bien connu pour les chatbots pilotés par LLM comme ChatGPT, il est surprenant que ce problème affecte également la transcription.
Des préoccupations soulevées par les erreurs dans les transcriptions de Whisper
Bien que les développeurs s’attendent à ce que les outils de transcription comportent des erreurs, les ingénieurs et les chercheurs ont constaté que Whisper présentait une fréquence plus élevée d’hallucinations que n’importe quel autre outil d’IA.
Les chercheurs sont fréquemment confrontés aux hallucinations de Whisper, une étude de l’université du Michigan les ayant trouvées dans huit transcriptions sur dix.
Un ingénieur en machine learning a trouvé des hallucinations dans la moitié des 100 heures qu’il a analysées. De son côté, un autre développeur les a détectées dans la quasi-totalité des 26 000 transcriptions.
En outre, une étude a identifié 187 hallucinations dans plus de 13 000 extraits audio clairs, ce qui pourrait entraîner des milliers de transcriptions erronées.
Des experts ont déclaré à l’Associated Press que certains des textes inventés dans les transcriptions de Whisper comprennent des commentaires raciaux, une rhétorique violente et même des traitements médicaux imaginaires.
Des chercheurs de l’université Cornell et de l’université de Virginie ont également analysé des milliers d’extraits de TalkBank et ont constaté que près de 40 % des hallucinations étaient nuisibles, car elles interprétaient ou représentaient mal l’orateur.
Whisper, un outil utilisé partout pour des erreurs généralisées ?
Les experts soulignent que ces erreurs sont d’autant plus préoccupantes que Whisper est très utilisé dans les cas suivants :
- Traduction et la transcription d’entretiens,
- Génération de textes dans les technologies grand public,
- Création de sous-titres vidéo.
L’outil est également utilisé pour le sous-titrage pour les Sourds et malentendants, un groupe particulièrement vulnérable aux transcriptions erronées.
Enfin, les experts s’inquiètent de l’adoption rapide par les centres médicaux d’outils basés sur Whisper pour transcrire les consultations des patients, malgré les mises en garde d’OpenAI contre leur utilisation dans les “domaines à haut risque”.
Ce sont notamment ces analyses inquiétantes qui ont poussé OpenAI et d’autres leaders de la Tech à créer la Coalition For Secure AI.