Anthropic a sorti Claude Opus 4.8 le 28 mai 2026, et il reprend la 1ère place du classement des IA, devant GPT-5.5. Mais derrière le titre ronflant, qu’est-ce qui change vraiment quand tu t’en sers tous les jours ? Je l’ai testé — voici le tri entre le marketing et le réel.
📌 En bref
Opus 4.8 redevient l’IA n°1 sur l’indice de référence, devant GPT-5.5 — mais l’écart avec la version précédente (4.7) est incrémental, pas révolutionnaire.
Les vrais changements sont ailleurs : un modèle plus prudent et plus honnête, un curseur d’effort, des « dynamic workflows » pour les gros chantiers — le tout au même prix que le 4.7.
Le fait : Anthropic reprend la tête
Sur l’Artificial Analysis Intelligence Index — l’indice indépendant qui agrège les grands tests et fait référence dans le milieu — Opus 4.8 marque 61,4 points et repasse devant GPT-5.5, qui était en tête depuis avril. Sur le papier, c’est donc à nouveau la meilleure IA généraliste du marché.
Ça arrive dans un contexte chargé : en quelques semaines, OpenAI a sorti GPT-5.5 et Google a lancé Gemini 3.5 Flash. La pression était sur Anthropic pour répondre. C’est fait — mais la manière compte plus que le score.
Et pourtant : un bond modeste face au 4.7
Quand on regarde le détail, on ne tient pas une révolution. Sur SWE-bench, le test de référence qui mesure si l’IA sait résoudre de vrais bugs dans de vrais projets, le gain par rapport au 4.7 est de +1 point (de 87,6 à 88,6 %). Un seul. Il y a même un test de raisonnement scientifique (GPQA) où il recule de 0,6 point.
Les vrais bonds sont concentrés sur des usages précis : les maths de haut niveau et les très longs documents. Utile si c’est ton terrain, invisible pour la plupart des gens au quotidien. Anthropic eux-mêmes ne survendent pas : ils décrivent un modèle qui « s’appuie sur le 4.7 », un « collaborateur plus efficace », au jugement plus affûté.
Ce qui change vraiment à l’usage
C’est là que c’est intéressant. Le changement le plus net n’est pas dans les scores, mais dans le comportement :
- Plus prudent : il te demande plus souvent ton avis avant d’agir et te repasse les petites décisions au lieu de trancher dans ton dos.
- Plus honnête : il signale quand il n’est pas sûr plutôt que d’inventer, et il repère ses propres erreurs — Anthropic annonce 4 fois moins de défauts laissés sans signalement dans le code qu’il écrit.
- Plus cash sur tes plans : il pousse davantage quand une hypothèse est risquée, au lieu de construire dessus en silence.
- Plus lent : revers de la médaille, il prend son temps. C’est le compromis assumé d’un modèle qui réfléchit et vérifie plus.

Les nouveautés concrètes
| Nouveauté | Ce que ça change |
|---|---|
| Curseur d’effort | Tu choisis combien le modèle « réfléchit » (de Low à Max, High par défaut). Plus d’effort = meilleur mais plus lent. |
| Dynamic workflows | Le modèle orchestre lui-même des essaims de sous-agents pour des chantiers énormes (migrations à l’échelle d’un projet entier). |
| Fast mode amélioré | Environ 2,5× plus rapide et 3× moins cher qu’avant, sans dégrader le modèle. |
| Contexte 1M sans surcoût | Un million de tokens de contexte au tarif standard — là où la concurrence surfacture les longs contextes. |
Côté tarif, aucun changement : Opus 4.8 coûte la même chose que le 4.7. En revanche, Anthropic acte la retraite des anciens modèles Opus 4 et Sonnet 4 pour mi-juin 2026 — si tu es resté dessus, c’est le moment de migrer.
Mon verdict
Opus 4.8 est une bonne évolution, pas une révolution. Le mot « n°1 mondial » est vrai mais trompeur : au quotidien, tu sens surtout un modèle plus carré et plus honnête, un peu plus lent. Et comme c’est au même prix, il n’y a aucune raison de ne pas l’adopter.
De mon côté, il devient mon modèle principal — tout en gardant mon réflexe : ne jamais bosser avec un seul modèle. J’alterne selon la tâche, et je bascule sur des modèles moins gourmands pour le travail simple. C’est tout l’objet de mon guide pour économiser ses tokens IA en alternant les modèles.
Pour aller plus loin
FAQ
Faut-il passer à Opus 4.8 ?
Oui, sans hésiter : il est au moins aussi bon que le 4.7 sur tout, meilleur sur plusieurs points, et au même prix. Le seul compromis, c’est une vitesse un peu plus lente liée à sa prudence accrue.
Opus 4.8 est-il meilleur que GPT-5.5 ?
Sur l’indice de référence global, oui, il repasse légèrement devant. Mais l’écart est faible et dépend des tâches : le bon réflexe reste de tester les deux sur tes propres cas plutôt que de se fier au seul classement.
Pourquoi Opus 4.8 semble plus lent ?
Parce qu’il est plus prudent : il vérifie davantage, signale ses doutes et te demande confirmation avant les actions importantes. Tu peux ajuster ça avec le nouveau curseur d’effort si tu veux privilégier la vitesse.