Si vous voulez démystifier (vraiment) et vous approprier le sujet, écoutez cet épisode de La Science CQFD. C’est clair, pédagogique, et… ça remet quelques pendules à l’heure !
Pourquoi ça vaut votre temps :
1️⃣ Des intervenants solides, pédagogues : Clémentine Fourrier (Hugging Face) décortique les benchmarks comme des « opérationnalisations » de nos idées sur l’intelligence (connaissance, mémoire, suivi d’instructions, raisonnement). Alban Leveau-Vallier replace tout ça dans l’histoire des sciences de l’esprit : de l’effet ELIZA au test de Turing, jusqu’aux « capacités émergente » des LLM. On sort de l’incantation, on comprend les mécanismes.
2️⃣ Anti-arnaque en bonus : on y découvre comment certains tests finissent « contaminés » (les modèles ont déjà vu les questions) ou « saturés » (tout le monde optimise le même score). ⚠️ Autrement dit : chiffres impressionnants ≠ intelligence générale. Parfait pour éviter la stratégie des go-go de l’IA façon terre brûlée : vendre des miracles, encaisser, et laisser entreprises & utilisateurs sur le carreau.
3️⃣ Des exemples concrets : du « Dernier examen de l’humanité » (où les IA plafonnent ~10 %) au test SARA (raisonnement fiscal) qui montre des progrès spectaculaires mais non transférables tels quels au réel. On comprend où l’IA performe, où elle hallucine, et pourquoi.
Penser « IA », c’est surtout évaluer nos hypothèses sur l’intelligence toute humaine. Au final, c’est moins de magie, plus de méthode => des choix produits et métiers plus pertinents.
👉 Évaluation des IA : souffler dans l’algotest
Initialement publié sur LinkedIn.


Laisser un commentaire