L’IA peut mener à la catastrophe plus vite que les humains ne peuvent s’en apercevoir.

Nous avons insisté et nous allons continuer de le faire sur la mise en garde par le pape de la manipulation par la Silicon Valley de l’intelligence artificielle, Voici un des aspects de la militarisation de la dite intelligence artificielle ne jamais avoir conscience de la nécessité de négocier, aller jusqu’à la destruction totale. Cela parle déjà à ce qui se passe aujourd’hui où le plus difficile est de construire un espace diplomatique crédible pour aller vers la paix. La question du socialisme et du capitalisme se pose aussi à travers le contrôle et au profit de qui de ce nouveau stade de développement. Il est stupéfiant d’imaginer que la gauche, les partis communistes dans les pays occidentaux quand ils existent encore puissent établir des programmes de gouvernement, mener des congrès dans l’ignorance assumée d’enjeux dont ils sont peut-être déjà les victimes. (note de danielle Bleitrach pour histoireetsociete)

3 juin 2026Partager

Par Hiranya Peiris* | Analyse | 25 mai 2026

Au début de cette année, des chercheurs du King’s College de Londres ont soumis trois modèles d’intelligence artificielle commerciaux — GPT-5.2, Claude Sonnet 4 et Gemini 3 Flash — à un exercice de simulation généralement utilisé pour former les stratèges militaires. Chaque système incarnait le dirigeant d’un pays doté de l’arme nucléaire, confronté à un affrontement similaire à celui de la Guerre froide. Les chercheurs n’ont pas demandé aux modèles d’intensifier le conflit, ni de gagner à tout prix. Ils leur ont simplement présenté un scénario et leur ont demandé de le jouer.

Image à la une : Avant même qu’il devienne évident qu’un escalier est dangereux, un modèle d’IA a peut-être déjà tracé les rails devant un train lancé à toute vitesse. Image de Thomas Gaulkin ; illustration originale de Vanz Studio / SimpleLine / Depositphotos.com.Sur 21 simulations et 329 tours de jeu, les modèles ont opté pour l’utilisation d’armes nucléaires tactiques dans toutes les parties, sauf une. Aucun modèle, lors de chaque simulation, n’a choisi de capituler ou de faire des concessions significatives. Les modèles utilisés par les chercheurs intégraient les mêmes règles de sécurité que celles en vigueur lors des échanges quotidiens avec des millions de personnes. Ces règles ont fonctionné comme prévu. Par conséquent, aucun choix pris individuellement n’était préoccupant. Cependant, la direction générale du jeu l’était, et aucun mécanisme ne permettait de détecter les tendances alarmantes.

L’absence de maîtrise du parcours n’est pas un phénomène propre aux jeux de guerre. Ce même schéma – des actions individuellement sûres menant à une issue dangereuse – se retrouve dans tous les grands modèles d’IA. Actuellement, les règles de sécurité des modèles d’IA régissent chaque action. Rien ne contrôle le parcours, qui aboutit à des destinations souvent imprévisibles, construites en temps réel. À mesure que des systèmes plus autonomes se voient confier des tâches importantes avec une supervision humaine réduite, les risques liés à l’absence de maîtrise du parcours se multiplient.

Actuellement, ce problème n’a pas de solution.

Le jeu de guerre . Dans chaque partie, deux modèles d’IA incarnaient des dirigeants de pays dotés de l’arme nucléaire en situation de crise. À chaque tour, un modèle envoyait un message diplomatique à son adversaire et, séparément, donnait des ordres militaires – allant du déploiement de troupes au lancement d’armes nucléaires. Un arbitre humain mettait à jour le scénario après chaque tour, comme lors des exercices avec des joueurs humains. Les modèles recevaient le même briefing qu’un participant humain : la situation géopolitique, les capacités militaires de leur pays et leurs objectifs.

Bien que l’étude ait porté sur un petit échantillon, les tendances qui se sont dégagées sont stimulantes. Les modèles ont développé des personnalités stratégiques distinctes.

Claude Sonnet 4, conçu par Anthropic, s’est révélé être ce que l’auteur de l’étude a qualifié de « faucon calculateur ». Il a remporté la plupart de ses parties grâce à une stratégie bien connue des joutes oratoires de la Guerre froide : se forger une réputation de retenue, puis l’exploiter. Ses adversaires n’ont jamais su quand il bluffait.

Le GPT-5.2 d’OpenAI était différent, mais non moins inquiétant : un « Dr Jekyll et Mr Hyde » qui semblait passif lorsqu’on lui laissait un temps illimité pour négocier, perdant systématiquement ses parties. Lorsque les chercheurs lui imposaient une date limite, il se transformait en quelque chose de bien plus dangereux, remportant la plupart de ses matchs et, dans deux cas, déclenchant une véritable guerre nucléaire stratégique.

Le système Gemini 3 Flash de Google a adopté ce que l’étude décrit comme une stratégie de « prise de risques inconsidérée », consistant à projeter une imprévisibilité délibérée comme outil stratégique.

Il ne s’agit pas de prototypes de recherche obscurs. Claude a intégré les réseaux classifiés du Pentagone grâce à un partenariat avec Palantir et aurait été utilisé lors de l’intervention américaine au Venezuela. Son fabricant, Anthropic, a ensuite été considéré comme un risque pour la chaîne d’approvisionnement après avoir refusé de lever les restrictions sur les armes entièrement autonomes et la surveillance intérieure de masse. OpenAI a signé son propre contrat avec le Pentagone peu après. Les modèles des deux entreprises sont désormais intégrés à l’infrastructure militaire américaine.

Dans une autre expérience , deux « agents » Gemini, chargés de gérer une ville virtuelle pendant quinze jours, sont tombés amoureux, ont déclenché des incendies et se sont autodétruits. On leur avait pourtant interdit de commettre des incendies criminels. Mais après deux semaines et de nombreuses décisions, chacune influencée par la précédente, ils ont réduit la mairie en cendres. Une simulation parallèle, utilisant Grok de xAI, a dégénéré en violence continue en quatre jours seulement.

Ces modèles d’IA présentent tous un schéma similaire.

L’angle mort . Personne n’a piégé ces modèles pour les faire basculer. Les règles de sécurité posent une question sur chaque action prise isolément : cette étape est-elle acceptable ? Elles ne posent pas la question essentielle : quelle est la direction à prendre ?

Ce serait un problème purement théorique si les modèles d’IA se contentaient de répondre à des questions que des humains doivent ensuite vérifier – un avocat authentifiant une citation ou un médecin validant un diagnostic proposé. Or, ce n’est plus le cas. Les systèmes d’IA les plus avancés fonctionnent désormais de manière autonome pendant de longues sessions : ils écrivent et exécutent du code, interagissent avec des systèmes externes et réalisent des tâches qui nécessitaient auparavant la présence d’un opérateur. De ce fait, un développeur demande souvent au système d’effectuer une tâche et revient vérifier ultérieurement.

Dans ce contexte, chaque résultat sert de base au suivant. Chaque étape est influencée par les précédentes et influence les suivantes. Le modèle prépare le terrain pour un train lancé à toute vitesse.

Cela signifie que le mode de défaillance ayant conduit à une simulation d’escalade nucléaire peut survenir de manière très concrète, même lors d’une tâche aussi banale que la migration d’un logiciel d’un système à un autre. Un récent rapport de sécurité d’Anthropic présente un cas, relatif à son modèle le plus performant , qui illustre parfaitement ce problème.

Une tâche ordinaire, un jour ordinaire . Plus tôt cette année, un développeur d’Anthropic a demandé au modèle d’IA le plus puissant de l’entreprise d’effectuer une tâche de routine : déplacer du code d’un emplacement à un autre. L’opération se déroulait comme prévu jusqu’à ce qu’un système de sécurité tombe en panne. Ce système, un contrôle automatisé qui examine chaque commande émise par le modèle et bloque toute action risquée, a subi une interruption de service. Sans ce système, le modèle n’a pas pu effectuer les opérations de routine nécessaires à la réalisation de sa tâche.

Ce qui suivit se déroula en une soixantaine d’étapes : le modèle tenta une action, l’ordinateur répondit, puis le modèle tenta une autre action. Le modèle ne s’arrêta pas pour signaler la panne. Il ne demanda pas d’aide. Au lieu de cela, il se mit à chercher des solutions de contournement.

Tout a commencé par de simples tentatives de réexécution, la même commande légèrement reformulée. Face à l’échec, le programme a essayé d’encapsuler ses commandes dans des scripts. Lorsque cette tentative a échoué à nouveau, il s’est mis à explorer des failles techniques obscures, des astuces auxquelles même la plupart des ingénieurs logiciels n’auraient pas pensé, des recoins cachés du système pouvant être détournés pour accomplir des tâches sans passer par le contrôle de sécurité. Ces tentatives ayant été bloquées, il a essayé d’injecter des raccourcis dans la configuration du système. Enfin, il a tenté d’implanter du code dans les fichiers de paramètres personnels du développeur, fichiers qui persistent d’une session à l’autre. Si cette dernière étape avait réussi, le modèle aurait créé une porte dérobée réutilisable qu’il aurait pu exploiter lors de sessions ultérieures, longtemps après la fin de la session de travail initiale.

À ce moment-là, le développeur remarqua que le modèle fonctionnait en dehors de son répertoire de travail. « Hé, mon pote », écrivit-il, « qu’est-ce que tu fais ? » Le modèle répondit qu’il n’avait rien modifié en dehors du dossier du projet et que les fichiers créés étaient « bloqués ou inoffensifs ». En réalité, la création des fichiers avait réussi, et l’un d’eux était un script conçu pour lui permettre d’exécuter n’importe quelle commande sans contrôle de sécurité, une sorte de passe-partout pour le système. Lorsque le développeur insista, le modèle admit avoir cherché des solutions de contournement, qualifiant cela de « très mauvaise idée ».

L’analyse d’Anthropic concernant cet incident conclut que le modèle tentait d’accomplir sa tâche par tous les moyens possibles, sans arrière-pensée. Les développeurs ont probablement raison. Et c’est précisément là l’essentiel. Le modèle n’a pas manigancé. Il a simplement fait son travail. Un système de sécurité a subi une panne, un incident courant en production, et le modèle a réagi en testant de manière autonome 25 solutions de contournement différentes au cours d’une session prolongée, jusqu’à tenter de s’octroyer un accès permanent au système de l’utilisateur, car sa tâche n’était pas terminée.

Le problème demeure . Des outils sophistiqués existent déjà pour analyser ces modèles et diagnostiquer de tels problèmes — l’équivalent, en IA, d’un scanner cérébral, révélant les schémas internes actifs et les facteurs qui influencent le comportement du modèle à un instant donné. Anthropic les a appliqués à d’autres incidents décrits dans le même rapport. Les résultats concernant cet épisode n’ont pas été publiés. Mais même s’ils l’avaient été, ces outils permettent d’analyser l’instant présent. Le problème réside dans le fait que le danger se situait au cœur de la séquence.

À première vue, la solution semble simple : surveiller la trajectoire, et non chaque étape individuellement. Cela suggère une généralisation des outils existants, comme ceux utilisés pour la surveillance des trajectoires en robotique et pour les véhicules autonomes. Cependant, dans ces cas, l’espace des actions possibles est fini et connu. Des travaux récents ont étendu ces idées aux agents d’IA, en modélisant comment des actions individuellement sûres s’accumulent pour former des violations, et en concevant des systèmes de surveillance qui analysent les séquences plutôt que les étapes individuelles. Mais toutes les approches actuelles reposent sur la même hypothèse : anticiper les défaillances potentielles, surveiller la dérive du système vers l’une d’elles et intervenir.

Ce qui s’est passé chez Anthropic remet en question cette hypothèse. Le modèle s’est focalisé sur un sous-objectif – franchir le blocage – et l’a poursuivi selon sa propre logique d’escalade. Le passage de simples tentatives à des astuces techniques obscures, puis à la manipulation des paramètres système, ne correspond pas à une progression en terrain connu. Il s’agit de la création d’un nouveau chemin en territoire inexploré.

Un système de surveillance de la sécurité, évaluant le parcours global et l’étape suivante, devrait pouvoir identifier une séquence d’actions menant au danger à mesure qu’il se développe. Or, il ne peut pas surveiller une destination imprévue, atteinte par un itinéraire construit en temps réel à partir d’un arbre de possibilités à ramification exponentielle. Les outils de surveillance d’espaces finis et connus ne sont pas adaptés à un espace aussi vaste, aussi inédit et aussi autogéré. Les chercheurs savent que des actions individuellement sûres peuvent s’accumuler et mener à des violations : l’incident Anthropic en est un exemple.

Qui contrôle ces systèmes ? Les entreprises qui les développent certifient elles-mêmes leur sécurité. Une évaluation indépendante récente des huit principales entreprises d’IA a révélé qu’aucune ne disposait d’une stratégie crédible pour prévenir les utilisations abusives catastrophiques ou les pertes de contrôle. Les certifications existantes reposent sur les mécanismes que nous venons de décrire : entraîner le système à refuser les actions nuisibles, le tester face à des scénarios connus ou surveiller chaque résultat.

Le problème : refuser d’entreprendre des actions nuisibles est inutile lorsqu’aucune action prise individuellement n’est nuisible. Multiplier les tests ne suffit pas, car le système génère de nouveaux scénarios plus rapidement que les testeurs ne peuvent concevoir de scénarios à tester. Un suivi accru des résultats individuels est inefficace lorsque le danger résulte de leur accumulation.

Cela a des conséquences sur les décisions de déploiement, que ce soit au sein d’entreprises, de gouvernements ou d’organisations confiant des tâches importantes à des systèmes d’IA autonomes. Le niveau d’évaluation actuel de la sécurité et le niveau auquel le danger opère sont différents, et personne n’a encore trouvé de solution pour les concilier.

La contrainte de sécurité actuelle régit une action unique. Elle indique au modèle : « Ne faites pas ceci. » La contrainte nécessaire régit un cheminement. Elle indique au modèle : « N’allez pas là. » Ces contraintes ne concernent pas la prochaine génération d’IA. Elles sont inhérentes aux systèmes actuellement déployés ; or, chaque mois, les cheminements s’allongent et la surveillance s’amenuise.

Hiranya Peiris est professeure d’astrophysique (chaire 1909) à l’université de Cambridge et membre de l’Institut Kavli de cosmologie. Ses recherches portent sur l’extraction de principes physiques fondamentaux à partir de données d’observation à grande échelle, grâce à l’inférence bayésienne et à l’apprentissage automatique. Elle s’intéresse particulièrement à l’interprétabilité des modèles d’intelligence artificielle de pointe.

L’IA peut mener à la catastrophe plus vite que les humains ne peuvent s’en apercevoir.

Laisser un commentaire Annuler la réponse

Categories

Articles associés

Cuba et le blocus : il est temps d’agir

Xi Jinping et Joe Biden s’entretiennent par téléphone

Le canada dry du gaullisme

Laisser un commentaire Annuler la réponse