L'Intelligence Artificielle

  • Initiateur de la discussion Initiateur de la discussion Silver11
  • Date de début Date de début
Chat gpt 5.5 est arrivé.


Si ça vous intéresse, Renaud Decode propose un outil très intéressant qui permet l'usage de plusieurs IA au sein du même outil.

 
Au passage les gars y a Gémini 3.5 et Claude Opus 4.8 qui sont sorti y a quelques jours déjà

On peut s'attendre à ChatGPT 5.6 dans les prochains jours / prochaines semaines

J'essayerai de partager des reviews / benchmarks les prochains jours
 

Principales actualités IA — Mai 2026​


1) Google I/O 2026 : Gemini franchit un cap​


Gemini 3.5 et l’IA agentique​


Lors de la conférence Google I/O, Google a présenté une nouvelle génération de fonctionnalités Gemini avec un accent très fort sur les agents IA capables d'agir de manière autonome, notamment dans Workspace, Android et le cloud. Des lunettes Android XR et de nouveaux outils IA intégrés à l’écosystème Google ont également été mis en avant.

Pourquoi c'est important :
  • Google pousse l'idée d'une IA qui travaille pour toi.
  • L'IA devient un système capable d'exécuter des tâches complexes et non plus seulement de répondre à des questions.

2) Explosion de la concurrence : OpenAI, Anthropic, Mistral, DeepSeek​

Une guerre des modèles sans précédent​


Mai a été marqué par une avalanche de nouveaux modèles :

  • Mistral a lancé son nouveau modèle phare 128B.
  • DeepSeek V4 est arrivé avec des performances très compétitives.
  • Plusieurs laboratoires chinois ont publié des modèles open-weights capables de rivaliser avec certains modèles occidentaux à un coût bien inférieur.
Impact :

Le monopole technologique des acteurs américains est de plus en plus challengé.


3) Anthropic devient un géant​


Croissance explosive de Claude​


Anthropic a connu un mois exceptionnel :


  • revenus en très forte croissance,
  • première rentabilité opérationnelle signalée,
  • valorisation privée approchant les sommets du secteur,
  • lancement de nouvelles versions de Claude et d'outils pour développeurs.

Louer des supercalculateurs devient la norme​


Anthropic a également signé d'énormes accords de calcul, notamment autour des infrastructures de type Colossus utilisant des centaines de milliers de GPU Nvidia.

Cela confirme que la véritable bataille de l'IA en 2026 est autant une bataille de compute qu'une bataille de modèles.

4) OpenAI accélère fortement​


Nouvelles API vocales et GPT-5.5​


OpenAI a déployé :
  • de nouveaux modèles vocaux temps réel,
  • GPT-5.5 pour certaines applications professionnelles,
  • GPT-5.5-Cyber destiné à la cybersécurité.

OpenAI atteint des revenus records​


Les estimations de revenus annuels ont fortement augmenté au cours du mois, montrant que l'IA générative commence à devenir un business extrêmement rentable à grande échelle.


On assiste à la transition de l'IA : d'une industrie de recherche vers une industrie générant des dizaines de milliards de dollars.


5) L'IA accélère en santé​


Isomorphic Labs lève 2,1 milliards $​


La société issue de Google DeepMind, spécialisée dans la découverte de médicaments par IA, a réalisé une énorme levée de fonds.

Impact :
  • accélération du développement de nouveaux traitements,
  • utilisation croissante de l'IA pour la biologie et la médecine.

6) L'IA agentique arrive dans les entreprises​


Microsoft, Anthropic et OpenAI misent sur les agents​


Mai 2026 a vu l'explosion des solutions d'agents IA pour :
  • les RH,
  • la finance,
  • le support client,
  • le développement logiciel.

Impact :


L'objectif n'est plus d'assister un employé.


L'objectif est désormais que l'IA réalise directement certaines tâches.

7) Premier signal fort : la limite devient le calcul​

Le problème n'est plus l'IA... mais les GPU​


Plusieurs observateurs du secteur soulignent qu'en mai 2026 :
  • la demande en IA dépasse largement l'offre de puissance de calcul,
  • les GPU deviennent la ressource stratégique numéro un,
  • les infrastructures deviennent un avantage concurrentiel majeur.
Cela explique pourquoi Nvidia reste au centre de toute l'industrie

Gemini 3.5 Pro devrait sortir ce mois-ci (meilleur que Gemini 3.5 flash , version actuel par défaut)
Et je pense qu'on aura le droit à ChatGPT 5.6 également ce mois-ci
 
Bon bah Anthropic vient de lancer Claude fable 5, qui serait plus ou moins la version de Mythos 5

Ce serait la meilleure IA du moment, possèdant de nouveau garde fou.

Je ferai une review demain
 
1781110778340.png


Je vous met le benchmark concernant Fable 5 / Mythos 5 sorti hier par Anthropic
Je vous remet également ce que désigne chaque évaluation

Agentic coding (SWE-Bench Pro)​

  • Mesure la capacité à corriger du vrai code logiciel dans de gros projets.
  • Le modèle reçoit un bug GitHub et doit proposer un correctif fonctionnel.
  • Plus le score est élevé, meilleur il est pour programmer de manière autonome.

Exemple :

"Voici un bug dans une bibliothèque Python de 100 000 lignes. Corrige-le."

Agentic coding (FrontierCode Diamond)​

  • Version beaucoup plus difficile du coding.
  • Problèmes très complexes nécessitant plusieurs étapes de réflexion.
  • Test conçu pour distinguer les meilleurs modèles.

Exemple :

Modifier plusieurs fichiers d'un projet sans casser le reste.

Knowledge work (GDPval-AA)​


  • Évalue le travail intellectuel général :
    • recherche,
    • analyse,
    • synthèse,
    • rédaction.

Exemple :

Lire plusieurs documents et produire un rapport de qualité professionnelle.

Knowledge work vision (GDP.pdf)​


  • Même chose que ci-dessus mais avec des PDF, graphiques, tableaux et images.

Exemple :

Lire un rapport de 100 pages contenant des graphiques et en faire un résumé.

Spatial reasoning (Blueprint-Bench 2)​


  • Mesure la compréhension de l'espace en 2D/3D.
  • Très utile pour :
    • architecture,
    • ingénierie,
    • plans techniques.

Exemple :

Comprendre comment s'assemblent des pièces mécaniques.

Tool use (AutomationBench)​


  • Évalue la capacité à utiliser correctement des outils externes.

Exemple :

Envoyer un email → créer un calendrier → récupérer un fichier → faire un résumé.

Computer use (OSWorld-Verified)​


  • Mesure la capacité à utiliser un ordinateur comme un humain.

Exemple :

Ouvrir Chrome → aller sur un site → remplir un formulaire → télécharger un document.

C'est un benchmark très important pour les futurs agents IA.

Legal (Legal Agent Benchmark)​


  • Mesure les compétences juridiques.

Exemple :

Lire un contrat et identifier des clauses problématiques.

Multidisciplinary reasoning (Humanity's Last Exam)​


Considéré comme l'un des benchmarks les plus difficiles.


Il teste :


  • mathématiques,
  • physique,
  • économie,
  • histoire,
  • médecine,
  • logique.

Exemple :

Une question qu'un doctorant aurait du mal à résoudre.

Il y a deux versions :


  • No tools → l'IA répond seule.
  • With tools → elle peut utiliser internet ou des calculs.

Biology (BioMysteryBench)​


  • Questions avancées de biologie et recherche biomédicale.

Exemple :

Identifier le mécanisme d'une maladie rare à partir de données expérimentales.

Les lignes "human solved" indiquent les questions qu'un humain expert a réussi à résoudre.

Agentic coding (Terminal-Bench 2.1)​


  • Le modèle dispose d'un terminal Linux complet.
  • Il doit exécuter des commandes pour résoudre des tâches.

Exemple :

Installer un logiciel, modifier des fichiers puis lancer les tests.

Cybersecurity (ExploitBench)​


  • Évalue la capacité à trouver ou comprendre des failles de sécurité.

Exemple :

Analyser un programme vulnérable et expliquer comment l'exploiter.

Health (HealthBench Professional)​


  • Mesure les compétences médicales professionnelles.

Exemple :

Interpréter un dossier médical complexe et proposer des hypothèses diagnostiques.
 
@Silver11 Merci à toi pour ces infos.

Claude fable sera disponible sur quel type d'abonnement par contre ?
Il me semble que pour ceux qui ont l'abonnement Pro de chez Anthropic, l'ont jusqu'au 22 juin, puis après il sera payant en fonctions du nombre de tokens que tu utiliseras. Donc en gros plus tu utiliseras Fable 5, plus tu payera

Je pense que ce sera le meme modèle payant que Veo 3, sous forme de crédits / tokens (à confirmer après le 22 juin)
 

En Ligne

Retour
Haut