Pas du tout , pas eu trop le temps ces derniers tempsVous avez testé le navigateur boosté à l'IA, Atlas ou Comet ?
Cela permet de faire de nouvelles choses intéressantes.
Follow along with the video below to see how to install our site as a web app on your home screen.
Note: this_feature_currently_requires_accessing_site_using_safari
Pas du tout , pas eu trop le temps ces derniers tempsVous avez testé le navigateur boosté à l'IA, Atlas ou Comet ?
Cela permet de faire de nouvelles choses intéressantes.
Un Noël très IA cette année !Annonce importante :
Google s'apprête à sortir Gémini 3.0 avant la fin de l'année
OpenAI s'apprête à sortir ChatGPT 5.1 avant la fin de l'année
ça n'a pas été dit officiellement, mais il y a eu des leaks sur twitter.
D'ailleurs j'en profite pour ajouter qu'Elon Musk a déjà twitté il y a quelques temps que Grok 5 sortirait avant la fin de l'année également.
A voir ce que ça donne !
Plus le score est haut, plus le modèle a une forme de “raisonnement pur”.
Score bas = mieux (distance d’erreur plus faible).
Score = ELO, comme une note de niveau.
Très proche du travail d’un ingénieur logiciel.
Score = net worth (comme dans un jeu ou une simulation).
Très important pour l’analyse de documents, livres, longs PDFs, etc.Merci pour le partage, intéressant à lire et comprendre.j'ai demandé à chatgpt de me dire ce que ça représentait :
1. Humanity’s Last Exam
Test : Raisonnement académique très avancé (niveau difficile).
Signifie en vrai :
Mesure la capacité du modèle à raisonner logiquement comme dans des examens universitaires complexes.
- Avec outils / sans outils : certains modèles peuvent utiliser un moteur de recherche ou un code interpreter.
2. ARC-AGI-2
Test : Puzzles visuels/logiques (intelligence générale artificielle).
Signifie en vrai :
Évalue la capacité du modèle à comprendre des motifs et à résoudre des problèmes abstraits sans langage.
Plus le score est haut, plus le modèle a une forme de “raisonnement pur”.
3. GPQA Diamond
Test : Connaissances scientifiques de haut niveau (physique, bio, chimie).
Signifie en vrai :
Montre si le modèle répond comme un expert scientifique (niveau PhD).
4. AIME 2025
Test : Problèmes mathématiques de concours avancés.
Signifie en vrai :
Montre la qualité du raisonnement mathématique complexe.
- Avec code : capacité à combiner maths + programmation.
5. MathArena Apex
Test : Très gros problèmes mathématiques difficiles.
Signifie en vrai :
Montre comment le modèle gère des maths très créatives, avec plusieurs étapes.
6. MMMU-Pro
Test : Raisonnement multimodal (texte + images).
Signifie en vrai :
Exemples : comprendre un schéma, interpréter une image scientifique, etc.
7. ScreenSpot-Pro
Test : Compréhension d’écran (interface, menus).
Signifie en vrai :
Le modèle doit reconnaître des éléments sur une capture d’écran.
Utile pour l’automatisation, assistants PC, etc.
8. CharXiv Reasoning
Test : Raisonner à partir de graphiques, tableaux, flux.
Signifie en vrai :
Mesure la capacité à analyser des rapports, des data visualisations.
9. OmniDocBench 1.5
Test : OCR + compréhension de documents.
Signifie en vrai :
Reconnaître du texte dans des documents scannés, PDF, tableaux.
Score bas = mieux (distance d’erreur plus faible).
10. Video-MMMU
Test : Compréhension de vidéos.
Signifie en vrai :
Le modèle doit comprendre ce qu’il se passe dans une vidéo (actions, relations, objets).
11. LiveCodeBench Pro
Test : Problèmes de programmation compétitive.
Signifie en vrai :
Montre la capacité à résoudre des problèmes algorithmiques comme dans les concours Codeforces.
Score = ELO, comme une note de niveau.
12. Terminal-Bench 2.0
Test : Utilisation d’un terminal/agent.
Signifie en vrai :
Évalue si le modèle peut contrôler un environnement comme un terminal pour résoudre une tâche.
13. SWE-Bench Verified
Test : Correction de bugs réels dans du code.
Signifie en vrai :
Le modèle reçoit un bug GitHub et doit proposer un vrai fix.
Très proche du travail d’un ingénieur logiciel.
14. t2-bench
Test : Utilisation d’outils et d’agents.
Signifie en vrai :
Tester comment un modèle utilise un environnement réel (API, outils) pour accomplir une tâche.
15. Vending-Bench 2
Test : Agentic tasks longues (plusieurs actions à enchaîner).
Signifie en vrai :
Ex : naviguer dans des menus, trouver un objet, suivre une procédure.
Score = net worth (comme dans un jeu ou une simulation).
16. FACTS Benchmark Suite
Test : Vérification factuelle, recherche d'informations.
Signifie en vrai :
Mesure si le modèle donne des réponses correctes, factuelles et fiables.
17. SimpleQA Verified
Test : Questions simples mais vérifiées strictement.
Signifie en vrai :
Précision sur des faits basiques.
Montre si le modèle hallucine ou non.
18. MMLU
Test : Test général sur 57 domaines (histoire, médecine, droit…).
Signifie en vrai :
Benchmark standard utilisé pour mesurer l'intelligence générale “classique” d’un LLM.
19. Global PIQA
Test : Raisonnement du sens commun dans différentes cultures.
Signifie en vrai :
Test si le modèle peut raisonner comme un humain avec du sens commun.
20. MRCR v2 (8-needle)
Test : Long context performance (128k et 1M tokens).
Signifie en vrai :
Évalue si le modèle peut retrouver une information précise dans un contexte extrêmement long.
Très important pour l’analyse de documents, livres, longs PDFs, etc.
ça me fait chier de le dire , mais je pense arreter mon abonnement chez GPT pour aller chez Gémini ^^'Merci pour le partage, intéressant à lire et comprendre.
Y'à plus qu'à tester maintenant !
J'ai déjà entendu parler d'un abonnement à 20e par mois qui regroupait toutes les IA effectivementIl y a une application qui regroupe les ia
Génie je crois. Quelqu'un voit?
Je me suis dit la même chose. Quand je vois les reviews qui disent que Gemini 3 surpasse GPT....ça me fait chier de le dire , mais je pense arreter mon abonnement chez GPT pour aller chez Gémini ^^'
C'est déjà le prix mensuel de GPT Pro, je serais étonnéJ'ai déjà entendu parler d'un abonnement à 20e par mois qui regroupait toutes les IA effectivement