L'Intelligence Artificielle

bodyspirit

Neurotype 3 (2B en secondaire)
Membre du Staff
supermodo
J'ai testé les 2. Pour l'instant, le plus abouti me semble être Comet de Perplexity et ça tombe bien car j'utilise déjà Perplexity au quotidien.

Bien évidemment, d'autres navigateurs IA vont émerger, d'autres s'améliorer donc à voir dans les semaines et mois à venir.

Il y a pas mal de vidéos sur YouTube pour voir les possibilités que ces nouveaux outils offrent.
 

Silver11

membre approuvé
vétéran
Annonce importante :

Google s'apprête à sortir Gémini 3.0 avant la fin de l'année

OpenAI s'apprête à sortir ChatGPT 5.1 avant la fin de l'année

ça n'a pas été dit officiellement, mais il y a eu des leaks sur twitter.
D'ailleurs j'en profite pour ajouter qu'Elon Musk a déjà twitté il y a quelques temps que Grok 5 sortirait avant la fin de l'année également.

A voir ce que ça donne !
 

olivierf57

On Highway to H(gH)ell - 56
Membre du Staff
supermodo
Annonce importante :

Google s'apprête à sortir Gémini 3.0 avant la fin de l'année

OpenAI s'apprête à sortir ChatGPT 5.1 avant la fin de l'année

ça n'a pas été dit officiellement, mais il y a eu des leaks sur twitter.
D'ailleurs j'en profite pour ajouter qu'Elon Musk a déjà twitté il y a quelques temps que Grok 5 sortirait avant la fin de l'année également.

A voir ce que ça donne !
Un Noël très IA cette année !

Un beau cadeau....ou pas.
 

Silver11

membre approuvé
vétéran
Bon bah GPT 5.1 vient de sortir ^^

Principales nouveautés​


  1. Deux variantes de modèle
    • GPT‑5.1 Instant : destinée à la majorité des usages (« chat rapide »).
    • GPT‑5.1 Thinking : orientée vers le raisonnement avancé, les tâches complexes.
  2. Ton plus naturel / « convivial »
    • Le modèle Instant est décrit comme « warmer », plus conversationnel, capable d’empathie.
    • Le modèle Thinking est aussi optimisé pour être plus clair, avec moins de jargon, ce qui le rend plus accessible.
  3. Raisonnement adaptatif / dynamique
    • Instant : capacité d’« adaptive reasoning » : le modèle décide s’il faut « réfléchir » davantage avant de répondre à une question complexe.
    • Thinking : il ajuste son temps de réflexion selon la complexité du prompt : plus rapide sur tâches simples, plus approndi sur les tâches difficiles.
  4. Meilleure exécution des instructions utilisateurs
    • Amélioration de la « instruction following » : respect des formats demandés, plus fiable.
    • Plus grande cohérence entre ce que l’utilisateur demande et ce que le modèle produit.
  5. Personnalisation / style de réponse
    • Nouveaux presets de « personnalité » dans ChatGPT : les utilisateurs peuvent choisir un ton : Professionnel, Sympathique (Friendly), Direct (Candid), Quirky, Efficace (Efficient), Nerdy, Cynical…
    • Contrôles supplémentaires annoncés pour concision, usage d’emojis, etc.
  6. Performance améliorée sur certaines tâches
    • Selon les blogs, GPT-5.1 montre des gains mesurables sur des benchmarks (math, codage) grâce à l’adaptive reasoning.
    • Le modèle Thinking est plus « persistant » sur les tâches complexes.
  7. Roll-out & transition des versions
    • Déploiement progressif : d’abord pour abonnés payants (Plus, Pro, Business), puis aux utilisateurs gratuits.
    • Les anciennes versions GPT-5 restent disponibles temporairement dans la liste « Legacy Models »
 
Dernière édition:

Silver11

membre approuvé
vétéran
Gémini 3 vient de sortir !

Quand on regarde les benchmarks le moins qu'on puisse dire c'est qu'il écrase la concurrence et qu'il écrase également chatgpt 5.1

1763505007012.png
 

Silver11

membre approuvé
vétéran
j'ai demandé à chatgpt de me dire ce que ça représentait :

1. Humanity’s Last Exam


Test : Raisonnement académique très avancé (niveau difficile).
Signifie en vrai :
Mesure la capacité du modèle à raisonner logiquement comme dans des examens universitaires complexes.


  • Avec outils / sans outils : certains modèles peuvent utiliser un moteur de recherche ou un code interpreter.



2. ARC-AGI-2


Test : Puzzles visuels/logiques (intelligence générale artificielle).
Signifie en vrai :
Évalue la capacité du modèle à comprendre des motifs et à résoudre des problèmes abstraits sans langage.
➡️ Plus le score est haut, plus le modèle a une forme de “raisonnement pur”.




3. GPQA Diamond


Test : Connaissances scientifiques de haut niveau (physique, bio, chimie).
Signifie en vrai :
Montre si le modèle répond comme un expert scientifique (niveau PhD).




4. AIME 2025


Test : Problèmes mathématiques de concours avancés.
Signifie en vrai :
Montre la qualité du raisonnement mathématique complexe.


  • Avec code : capacité à combiner maths + programmation.



5. MathArena Apex


Test : Très gros problèmes mathématiques difficiles.
Signifie en vrai :
Montre comment le modèle gère des maths très créatives, avec plusieurs étapes.




6. MMMU-Pro


Test : Raisonnement multimodal (texte + images).
Signifie en vrai :
Exemples : comprendre un schéma, interpréter une image scientifique, etc.




7. ScreenSpot-Pro


Test : Compréhension d’écran (interface, menus).
Signifie en vrai :
Le modèle doit reconnaître des éléments sur une capture d’écran.
Utile pour l’automatisation, assistants PC, etc.




8. CharXiv Reasoning


Test : Raisonner à partir de graphiques, tableaux, flux.
Signifie en vrai :
Mesure la capacité à analyser des rapports, des data visualisations.




9. OmniDocBench 1.5


Test : OCR + compréhension de documents.
Signifie en vrai :
Reconnaître du texte dans des documents scannés, PDF, tableaux.


➡️ Score bas = mieux (distance d’erreur plus faible).




10. Video-MMMU


Test : Compréhension de vidéos.
Signifie en vrai :
Le modèle doit comprendre ce qu’il se passe dans une vidéo (actions, relations, objets).




11. LiveCodeBench Pro


Test : Problèmes de programmation compétitive.
Signifie en vrai :
Montre la capacité à résoudre des problèmes algorithmiques comme dans les concours Codeforces.


➡️ Score = ELO, comme une note de niveau.




12. Terminal-Bench 2.0


Test : Utilisation d’un terminal/agent.
Signifie en vrai :
Évalue si le modèle peut contrôler un environnement comme un terminal pour résoudre une tâche.




13. SWE-Bench Verified


Test : Correction de bugs réels dans du code.
Signifie en vrai :
Le modèle reçoit un bug GitHub et doit proposer un vrai fix.


➡️ Très proche du travail d’un ingénieur logiciel.




14. t2-bench


Test : Utilisation d’outils et d’agents.
Signifie en vrai :
Tester comment un modèle utilise un environnement réel (API, outils) pour accomplir une tâche.




15. Vending-Bench 2


Test : Agentic tasks longues (plusieurs actions à enchaîner).
Signifie en vrai :
Ex : naviguer dans des menus, trouver un objet, suivre une procédure.
➡️ Score = net worth (comme dans un jeu ou une simulation).




16. FACTS Benchmark Suite


Test : Vérification factuelle, recherche d'informations.
Signifie en vrai :
Mesure si le modèle donne des réponses correctes, factuelles et fiables.




17. SimpleQA Verified


Test : Questions simples mais vérifiées strictement.
Signifie en vrai :
Précision sur des faits basiques.
Montre si le modèle hallucine ou non.




18. MMLU


Test : Test général sur 57 domaines (histoire, médecine, droit…).
Signifie en vrai :
Benchmark standard utilisé pour mesurer l'intelligence générale “classique” d’un LLM.




19. Global PIQA


Test : Raisonnement du sens commun dans différentes cultures.
Signifie en vrai :
Test si le modèle peut raisonner comme un humain avec du sens commun.




20. MRCR v2 (8-needle)


Test : Long context performance (128k et 1M tokens).
Signifie en vrai :
Évalue si le modèle peut retrouver une information précise dans un contexte extrêmement long.


➡️ Très important pour l’analyse de documents, livres, longs PDFs, etc.
 

olivierf57

On Highway to H(gH)ell - 56
Membre du Staff
supermodo
j'ai demandé à chatgpt de me dire ce que ça représentait :

1. Humanity’s Last Exam


Test : Raisonnement académique très avancé (niveau difficile).
Signifie en vrai :
Mesure la capacité du modèle à raisonner logiquement comme dans des examens universitaires complexes.


  • Avec outils / sans outils : certains modèles peuvent utiliser un moteur de recherche ou un code interpreter.



2. ARC-AGI-2


Test : Puzzles visuels/logiques (intelligence générale artificielle).
Signifie en vrai :
Évalue la capacité du modèle à comprendre des motifs et à résoudre des problèmes abstraits sans langage.
➡️ Plus le score est haut, plus le modèle a une forme de “raisonnement pur”.




3. GPQA Diamond


Test : Connaissances scientifiques de haut niveau (physique, bio, chimie).
Signifie en vrai :
Montre si le modèle répond comme un expert scientifique (niveau PhD).




4. AIME 2025


Test : Problèmes mathématiques de concours avancés.
Signifie en vrai :
Montre la qualité du raisonnement mathématique complexe.


  • Avec code : capacité à combiner maths + programmation.



5. MathArena Apex


Test : Très gros problèmes mathématiques difficiles.
Signifie en vrai :
Montre comment le modèle gère des maths très créatives, avec plusieurs étapes.




6. MMMU-Pro


Test : Raisonnement multimodal (texte + images).
Signifie en vrai :
Exemples : comprendre un schéma, interpréter une image scientifique, etc.




7. ScreenSpot-Pro


Test : Compréhension d’écran (interface, menus).
Signifie en vrai :
Le modèle doit reconnaître des éléments sur une capture d’écran.
Utile pour l’automatisation, assistants PC, etc.




8. CharXiv Reasoning


Test : Raisonner à partir de graphiques, tableaux, flux.
Signifie en vrai :
Mesure la capacité à analyser des rapports, des data visualisations.




9. OmniDocBench 1.5


Test : OCR + compréhension de documents.
Signifie en vrai :
Reconnaître du texte dans des documents scannés, PDF, tableaux.


➡️ Score bas = mieux (distance d’erreur plus faible).




10. Video-MMMU


Test : Compréhension de vidéos.
Signifie en vrai :
Le modèle doit comprendre ce qu’il se passe dans une vidéo (actions, relations, objets).




11. LiveCodeBench Pro


Test : Problèmes de programmation compétitive.
Signifie en vrai :
Montre la capacité à résoudre des problèmes algorithmiques comme dans les concours Codeforces.


➡️ Score = ELO, comme une note de niveau.




12. Terminal-Bench 2.0


Test : Utilisation d’un terminal/agent.
Signifie en vrai :
Évalue si le modèle peut contrôler un environnement comme un terminal pour résoudre une tâche.




13. SWE-Bench Verified


Test : Correction de bugs réels dans du code.
Signifie en vrai :
Le modèle reçoit un bug GitHub et doit proposer un vrai fix.


➡️ Très proche du travail d’un ingénieur logiciel.




14. t2-bench


Test : Utilisation d’outils et d’agents.
Signifie en vrai :
Tester comment un modèle utilise un environnement réel (API, outils) pour accomplir une tâche.




15. Vending-Bench 2


Test : Agentic tasks longues (plusieurs actions à enchaîner).
Signifie en vrai :
Ex : naviguer dans des menus, trouver un objet, suivre une procédure.
➡️ Score = net worth (comme dans un jeu ou une simulation).




16. FACTS Benchmark Suite


Test : Vérification factuelle, recherche d'informations.
Signifie en vrai :
Mesure si le modèle donne des réponses correctes, factuelles et fiables.




17. SimpleQA Verified


Test : Questions simples mais vérifiées strictement.
Signifie en vrai :
Précision sur des faits basiques.
Montre si le modèle hallucine ou non.




18. MMLU


Test : Test général sur 57 domaines (histoire, médecine, droit…).
Signifie en vrai :
Benchmark standard utilisé pour mesurer l'intelligence générale “classique” d’un LLM.




19. Global PIQA


Test : Raisonnement du sens commun dans différentes cultures.
Signifie en vrai :
Test si le modèle peut raisonner comme un humain avec du sens commun.




20. MRCR v2 (8-needle)


Test : Long context performance (128k et 1M tokens).
Signifie en vrai :
Évalue si le modèle peut retrouver une information précise dans un contexte extrêmement long.


➡️ Très important pour l’analyse de documents, livres, longs PDFs, etc.
Merci pour le partage, intéressant à lire et comprendre.

Y'à plus qu'à tester maintenant !
 

olivierf57

On Highway to H(gH)ell - 56
Membre du Staff
supermodo

c'est 10e par mois en fait x)
Y'a pas ChatGPT là dedans. A voir si c'est utile
Je suis sur Gemini depuis un moment et la version gratuite semble largement suffisante. A voir avec le temps

Edit: si si y'a ChatGPT, étrange
 

olivierf57

On Highway to H(gH)ell - 56
Membre du Staff
supermodo
Je pense que c'est un site qui regroupe toutes les IA en un seul endroit. Pratique, mais il n'est pas sûr qu'on ait accès aux versions payantes des IA (je dirais même qu'on n'y a pas accès)

Payer 10€ HT par mois pour avoir accès aux IA gratuites, c'est cher payés. Tout ça parce que tout est regroupé au même endroit.

Abusé ?
 

Silver11

membre approuvé
vétéran
Je pense que c'est un site qui regroupe toutes les IA en un seul endroit. Pratique, mais il n'est pas sûr qu'on ait accès aux versions payantes des IA (je dirais même qu'on n'y a pas accès)

Payer 10€ HT par mois pour avoir accès aux IA gratuites, c'est cher payés. Tout ça parce que tout est regroupé au même endroit.

Abusé ?
C'est pour ça que je n'ai pas envie de testé ^^ , car je ne sais pas trop ce que c'est. Je préfère payer la version originale de l'IA que je veux utiliser.

Tout le monde parle de "plateau" concernant l'IA , mais à chaque fois une nouvelle IA sort et écrase les IA précédentes. C'est bien partis pour que l'IA révolutionne notre vie , comme l'électricité l'a fait. Même au delà , qui sait , si l'IA tient vraiment ses promesses, on sera peut être la première génération à connaître l'immortalité
 

bodyspirit

Neurotype 3 (2B en secondaire)
Membre du Staff
supermodo
A titre de comparaison, j'ai déjà utilisé Poe qui inclut plusieurs IA .
Il y a des versions payantes suivants vos besoins qui incluent gpt 5.1, gemini 3 pro.
Dans les versions payantes, tu paies pour une nombre de points à utiliser par jour, ça dépend vraiment de vos besoins et utilisations.
 
Retour
Haut