Les nouvelles versions de ChatGPT sont de plus en plus puissantes… mais leur plus gros défaut empire aussi 19u30

0 com

OpenAI affirme avoir franchi un cap avec ses dernières intelligences artificielles. Pourtant, une étude révèle une faiblesse inattendue. Les modèles les plus récents produiraient encore plus d’erreurs que leurs prédécesseurs. r3k4m

L'intelligence artificielle évolue rapidement, mais ses défauts persistent. OpenAI vient de publier des données sur ses nouveaux modèles o3 et o4-mini, censés être les plus performants à ce jour. Pourtant, ces IA présentent une hausse marquée des hallucinations. Ce phénomène désigne les erreurs graves où l’IA invente des faits, des études ou des liens. Un problème inquiétant car ces informations semblent crédibles pour les utilisateurs peu méfiants. Leur nombre reste un critère clé pour évaluer la fiabilité d'un modèle.

Les chiffres sont sans appel. OpenAI indique que o4-mini hallucine dans 48 % des cas testés avec l’outil interne PersonQA, soit trois fois plus que le modèle o1. Le modèle o3, pourtant plus grand et censé être plus fiable, produit également des erreurs dans 33 % des réponses, soit deux fois plus que le précédent. Cette évolution est surprenante car, en règle générale, chaque nouvelle génération de modèle tend à réduire ces problèmes. Ici, malgré des progrès sur l’exactitude globale, le risque d’obtenir de fausses informations augmente.

Les modèles o3 et o4-mini hallucinent davantage malgré leurs capacités de raisonnement accrues l5o42

OpenAI a conçu ses modèles récents pour externaliser leur raisonnement, affichant les étapes de réflexion pour plus de transparence. Cette approche, bien que prometteuse, n’empêche pas l’apparition d’informations erronées. Un rapport indépendant de Transluce a révélé que o3 invente parfois des capacités qu’il n’a pas, comme exécuter du code sur un MacBook Pro fictif. Pire, même face à une correction de l'utilisateur, ce dernier persiste dans son erreur. Cela remet en cause la fiabilité réelle de ces outils pourtant présentés comme plus rigoureux.

Les experts avancent plusieurs hypothèses pour expliquer ce phénomène. Des choix de conception, comme le renforcement basé sur les résultats, pourraient aggraver les hallucinations. De plus, OpenAI aurait réduit ses phases de tests de sécurité pour accélérer le développement de ses modèles. Cette stratégie, si elle permet d'innover plus vite, expose les utilisateurs à plus de contenus erronés. En attendant de meilleures solutions, la prudence reste indispensable : même les IA les plus avancées doivent être utilisées avec un regard critique.

ChatGPT

Abonnez-vous gratuitement à la newsletter

Réagissez à cet article !

Voir tous les commentaires

Demandez nos derniers !

Samsung intègre une nouvelle option très pratique, Google Photos gâte ses utilisateurs, c’est le récap’ de la semaine
Une nouvelle option très utile débarque sur les smartphones Samsung, BYD est au cœur d’un scandale en Chine, Google Photos souffle ses 10 bougies avec des cadeaux, c’est le récap’ de la semaine. Alors que Google Photos célèbre ses 10…

Actualités 01/06/2025
Samsung dévoile les coulisses de la conception du Galaxy S25 Edge
Comment Samsung a réussi à concevoir un smartphone aussi fin que le Galaxy S25 Edge ? Le fabricant partage quelques éléments de réponse. Ultra-fin et très léger, le Galaxy S25 Edge est un bijou d’ingénierie. Samsung revient sur la conception…

Samsung Galaxy S 31/05/2025
Nvidia a d’autres priorités que de régler la pénurie de cartes graphiques RTX 50
La production de cartes graphiques RTX 50 en baisse ? Cela semble être la tendance du moment, Nvidia ne disposant pas de capacités de production illimitées et privilégiant ses puces IA. Les espoirs de prix qui chutent enfin paraissent douchés. …

Carte graphique 31/05/2025
Apple semble bien préparer un iPhone sans aucun bouton physique
Apple n’aurait pas abandonné son rêve de concevoir un iPhone sans bouton mécanique, avec des touches intégrées au sein même du cadre et offrant un contrôle par retour haptique. Il y a quelques années, plusieurs rapports faisaient état d’un certain…

iPhone 31/05/2025
Le FBI débarque chez lui à cause d’une prouesse scientifique alors qu’il n’a que 12 ans
À seulement 12 ans, il ne e pas son temps libre sur les jeux vidéo comme la plupart des enfants de son âge. Non, ce jeune Américain préfère le consacrer à la science. À raison : il a accompli une prouesse…

Insolite 30/05/2025
Vous risquez bientôt de ne plus savoir comment décrocher ou raccrocher votre téléphone Android
L’application Téléphone de Google pourrait adopter une nouvelle manière de décrocher et de raccrocher les appels dans une prochaine mise à jour. Un changement qui, s’il se réalise, sera vraisemblablement notifié aux utilisateurs. Mais il faudra tout de même faire…

Mises à jour Android 30/05/2025
iPhone : vous ne devinerez jamais le montant ahurissant qu’Apple nous a fait dépenser dans l’App Store
L’App Store est à l’origine de centaines de milliards de dollars US de dépenses chaque année. Une aubaine pour les développeurs qui cherchent à générer de l’argent auprès des possesseurs d’iPhone. Mais quid de la commission perçue par Apple sur…

iPhone 30/05/2025
L’IA met en danger vos données médicales, ce rapport tire la sonnette d’alarme
L’IA s’invite partout, et la médecine n’échappe pas à la règle. D’après un rapport publié en 2024 par le site Medscape, de plus en plus de praticiens français utilisent ChatGPT et d’autres IA grand public dans leur exercice quotidien… Ce…

IA 30/05/2025
Le airfryer Ninja Foodi Flex de 10,4 L est de retour à prix cassé dans un pack spécial pour l’été, vite !
Vous cherchez un airfryer avec une grande capacité mais à un tarif abordable ? En utilisant le code PHONANDROIDNINJA25 qui est cumulable la promo déjà en cours, vous pouvez vous offrir la friteuse sans Ninja Foodi Flex de 10,4 L…

Bons plans 30/05/2025
Galaxy A56 (256 Go) : le prix du smartphone 5G est en chute libre sur le store Samsung, l’offre ne dure pas longtemps !
Voici une superbe offre pour celles et ceux qui souhaitent s’offrir le Galaxy A56 (256 Go) ! Depuis le store officiel de la marque, vous avez la possibilité d’avoir le smartphone Samsung à prix cassé grâce à un cumul de…

Smartphone 30/05/2025

Newsletter