Les nouvelles versions de ChatGPT sont de plus en plus puissantes… mais leur plus gros défaut empire aussi 19u30

OpenAI affirme avoir franchi un cap avec ses dernières intelligences artificielles. Pourtant, une étude révèle une faiblesse inattendue. Les modèles les plus récents produiraient encore plus d’erreurs que leurs prédécesseurs. r3k4m

ChatGPT nouvelle voix
Crédits : 123RF

L'intelligence artificielle évolue rapidement, mais ses défauts persistent. OpenAI vient de publier des données sur ses nouveaux modèles o3 et o4-mini, censés être les plus performants à ce jour. Pourtant, ces IA présentent une hausse marquée des hallucinations. Ce phénomène désigne les erreurs graves où l’IA invente des faits, des études ou des liens. Un problème inquiétant car ces informations semblent crédibles pour les utilisateurs peu méfiants. Leur nombre reste un critère clé pour évaluer la fiabilité d'un modèle.

Les chiffres sont sans appel. OpenAI indique que o4-mini hallucine dans 48 % des cas testés avec l’outil interne PersonQA, soit trois fois plus que le modèle o1. Le modèle o3, pourtant plus grand et censé être plus fiable, produit également des erreurs dans 33 % des réponses, soit deux fois plus que le précédent. Cette évolution est surprenante car, en règle générale, chaque nouvelle génération de modèle tend à réduire ces problèmes. Ici, malgré des progrès sur l’exactitude globale, le risque d’obtenir de fausses informations augmente.

Les modèles o3 et o4-mini hallucinent davantage malgré leurs capacités de raisonnement accrues l5o42

OpenAI a conçu ses modèles récents pour externaliser leur raisonnement, affichant les étapes de réflexion pour plus de transparence. Cette approche, bien que prometteuse, n’empêche pas l’apparition d’informations erronées. Un rapport indépendant de Transluce a révélé que o3 invente parfois des capacités qu’il n’a pas, comme exécuter du code sur un MacBook Pro fictif. Pire, même face à une correction de l'utilisateur, ce dernier persiste dans son erreur. Cela remet en cause la fiabilité réelle de ces outils pourtant présentés comme plus rigoureux.

Les experts avancent plusieurs hypothèses pour expliquer ce phénomène. Des choix de conception, comme le renforcement basé sur les résultats, pourraient aggraver les hallucinations. De plus, OpenAI aurait réduit ses phases de tests de sécurité pour accélérer le développement de ses modèles. Cette stratégie, si elle permet d'innover plus vite, expose les utilisateurs à plus de contenus erronés. En attendant de meilleures solutions, la prudence reste indispensable : même les IA les plus avancées doivent être utilisées avec un regard critique.


Abonnez-vous gratuitement à la newsletter
Chaque jour, le meilleur de Phonandroid dans votre boite mail !
Réagissez à cet article !
Demandez nos derniers  !