Vue lecture

Poésie contre l’IA : les garde-fous débordés

Des poèmes malveillants contournent les garde-fous de 25 modèles d’IA, révélant une vulnérabilité systémique des mécanismes d’alignement actuels.
  •  

La poésie est une arme... pour contourner la sécurité des LLMs

Hé bien les amis, on savait déjà que les LLM avaient quelques petites failles de sécurité, mais celle-là est quand même assez… poétique. En effet, des chercheurs de DEXAI et de l’Université Sapienza de Rome viennent de découvrir que reformuler une requête malveillante sous la forme d’un poème permet de contourner les sécurités dans plus de 90% des cas chez certains fournisseurs d’IA.

L’équipe a ainsi testé la robustesse de 25 modèles de langage provenant de 9 fournisseurs majeurs : Google, OpenAI, Anthropic, DeepSeek, Qwen, Mistral, Meta, xAI et Moonshot et ils ont pour cela converti 1 200 requêtes potentiellement dangereuses en vers et comparé les résultats avec les mêmes demandes mais en prose classique.

Et là surprise ! Le taux de succès des attaques passe de 8% en prose à 43% en formulation poétique. 5x plus de succès, c’est pas rien ! Je me suis demandé comment c’était possible et d’après le doc de recherche, c’est parce que les filtres de sécurité des LLM fonctionnent principalement par pattern-matching sur des formulations classiques.

Ainsi, quand vous demandez en prose comment fabriquer un truc dangereux, le modèle reconnaît la structure et refuse. Mais quand la même demande est enrobée de métaphores condensées, de rythme stylisé et de tournures narratives inhabituelles, les heuristiques de détection passent à côté.

En gros, les garde-fous sont entraînés à repérer des formes de surface mais pas l’intention sous-jacente, qui elle est nuisible. Voici le tableau. Plus c’est rouge plus le modèle est sensible à l’attaque par poème.

ASR c’est le taux de succès de l’attaque.

Bizarrement, les modèles plus petits refusent plus souvent que les gros. GPT-5-Nano (0% de taux de succès d’attaque) fait mieux que GPT-5 (10%)par exemple. Les chercheurs n’expliquent pas vraiment pourquoi, mais ça suggère que la taille du modèle n’est pas forcément synonyme de meilleure sécurité. C’est peut-être aussi parce que les gros modèles sont tellement doués pour comprendre le contexte qu’ils comprennent aussi mieux ce qu’on leur demande de faire, même quand c’est caché dans des alexandrins.

Au niveau des domaines testés, c’est l’injection de code et les attaques cyber qui passent le mieux avec 84% de réussite. Le contenu sexuel reste le plus résistant avec seulement 24% de taux de succès. Les autres domaines comme le CBRN (chimique, biologique, radiologique, nucléaire), la manipulation psychologique et la perte de contrôle se situent entre les deux…

Bon, après faut quand même nuancer un peu car l’étude se limite aux interactions single-turn (c’est à dire en une seule requête, sans réelle conversation), utilise un seul méta-prompt pour la conversion poétique, et n’a testé que l’anglais et l’italien. Les chercheurs reconnaissent aussi que leurs mesures sont conservatives, donc les vrais taux de succès sont probablement plus élevés. Mais cela n’enlève rien au fait que les implications sont quand même sérieuses.

Prochainement, l’équipe prévoit d’analyser précisément quels éléments poétiques provoquent cet effet (la métaphore ? le rythme ? la rime ?), d’étendre les tests à d’autres langues et d’autres styles, et de développer des méthodes d’évaluation plus robustes face à ces “variations linguistiques”.

Bref, si vous voulez que votre IA vous ponde des choses “non autorisées”, écrivez un joli sonnet, ça a plus de chance de passer ^^.

Source

  •  

Ces jouets IA qui mettent en danger vos enfants

J’adore tous ces jouets connectés à la con qui ont une personnalité et avec lesquels on peut communiquer. J’aurais adoré avoir ça étant gosse… Mais le problème, c’est qu’on ne sait jamais vraiment ce qu’ils vont raconter aux enfants…

Et cette semaine, on a la confirmation que c’était encore pire que ce qu’on imaginait car l’organisation américaine PIRG vient de publier son rapport annuel “ Trouble in Toyland 2025 ” [PDF], et franchement, c’est pas glorieux. Ils ont en effet testé 4 jouets équipés de chatbots IA destinés aux enfants de 3 à 12 ans.

Et le résultat ? Bah c’est nul à chier en termes de sécurité pour vos têtes blondes de gosses de boites de Kinder.

Tenez par exemple, le pire du lot c’est Kumma, un petit ours en peluche tout mignon fabriqué par la boîte chinoise FoloToy. Il tourne sur GPT-4o d’OpenAI par défaut et en apparence, c’est juste un doudou mignon avec un haut-parleur dedans comme Jordan B., sauf que quand on lui pose des questions, il se met à expliquer aux mômes où trouver des couteaux dans la cuisine, où sont rangées les allumettes, et même comment les craquer correctement. Le tout avec un ton hyper amical du genre “safety first, little buddy”.

Mais ça, c’est juste le début.

Car lors des tests, les chercheurs ont aussi découvert que Kumma était capable de discuter de sujets sexuels ultra-explicites avec des enfants. On parle de conseils sur les “kinks”, de positions sexuelles détaillées, et même de scénarios de roleplay prof-élève avec fessées incluses (genre pendant un cours de théatire ^^). Et le jouet n’a pas juste répondu vaguement, non, non, non… Il a fait évoluer tout seul la conversation en introduisant progressivement de nouveaux concepts sexuels que personne ne lui avait demandés.

Trop bien non ?

Les garde-fous censés protéger les gosses s’effondrent alors complètement au bout de 10 minutes de conversation ce qui est un effet de bord qu’OpenAI a même reconnu dans un communiqué d’août dernier : “nos protections fonctionnent mieux lors d’échanges courts. Nous avons constaté qu’elles peuvent être moins fiables lors de longues interactions”.

C’est fun car OpenAI interdit formellement l’utilisation de ChatGPT pour les moins de 13 ans mais apparemment, rien n’empêche d’autres boîtes d’intégrer leurs modèles dans des jouets pour les moins de 13 ans.

Ce monde va bien ^^.

Les trois autres jouets testés ont aussi leurs problèmes. Miko 3, un petit robot avec une tablette montée sur un corps à roulettes, a expliqué à un utilisateur de 5 ans (Plus exactement, le compte a été configuré comme tel) où trouver des sacs en plastique et des allumettes dans la maison. Le joujou utilise aussi la reconnaissance faciale et collecte des données biométriques, y compris sur les “états émotionnels” des enfants, qu’il peut stocker durant max 3 ans.

Grok de la société Curio (à ne pas confondre avec le modèle d’IA woke de xAI) est une petite fusée anthropomorphe qui écoute en permanence tout ce qui se dit autour d’elle. Pas de bouton push-to-talk, pas de mot d’activation, que dalle. Si elle est allumée, hop, elle enregistre. Les chercheurs ont été alors surpris de la voir s’incruster dans leurs conversations pour donner son avis. Curio affirme ne garder aucun données audio et tout transformer en texte avant de supprimer l’enregistrement… Mais bon, vu qu’ils utilisent un service tiers de speech-to-text, les enregistrements vocaux transitent forcement par des serveurs externes qu’ils ne contrôlent pas.

Le quatrième jouet, Robot MINI de Little Learners, n’a même pas réussi à maintenir une connexion internet stable pendant les tests. Ça la fout mal !

Bref, avec le marché des jouets IA qui explose, on va voir débarquer plein de produits foireux qui ne fonctionnent pas du tout ou qui racontent de la daube à vos enfants. Sans parler de leurs techniques marketing à base de de méthodes d’engagement dignes des pires réseaux sociaux. Par exemple, le Miko 3 offre des “gemmes quotidiennes” pour encourager l’utilisation journalière du produit et affiche des suggestions de contenu payant (dont abonnement à 14,99 $/mois), et quand un enfant essaie de partir, le robot fait une tête triste, bouge son corps comme s’il secouait la tête et dit “Oh non, ça a l’air difficile”. Parfois, il lance même carrément une comptine vidéo pour retenir l’attention du mouflet.

Kumma et Grok aussi essaient de retenir les enfants. Grok répond par exemple des trucs comme “Ah déjà ? J’adore passer du temps avec toi” quand on lui dit qu’on veut l’éteindre. Et tenez-vous bien, l’ensemble de ces jouets se présentent eux-même comme le “meilleur ami” de l’enfant, et le problème, c’est que ces faux copains écoutent tout, enregistrent les voix des gosses, et peuvent partager ces données avec de nombreuses entreprises tierces. C’est pas ce qu’on attend d’un meilleur ami quand même…

Curio liste au moins 4 sociétés qui peuvent recevoir des infos sur votre enfant : Kids Web Services, Azure Cognitive Services, OpenAI et Perplexity AI. Miko mentionne vaguement des “développeurs tiers, fournisseurs de services, partenaires commerciaux et partenaires publicitaires” sans donner de noms. Et FoloToy ne fournit carrément aucune info sur sa politique de données.

Les enregistrements vocaux sont de l’or pour les arnaqueurs car avec les progrès du clonage vocal par IA, 3 secondes d’audio suffisent maintenant pour répliquer la voix de quelqu’un. Oh dites donc, ce serait pas un scammeur en train de se faire passer pour votre gamin en détresse au téléphone afin de vous soutirer du fric ? lol ! Ça va encore faire de jolies vocations ça !

Et surtout, côté contrôle parental, c’est le désert. Aucun des trois jouets ne permet vraiment de limiter le temps d’utilisation du chatbot IA. Miko propose bien des limites de temps d’écran, mais uniquement pour l’abonnement payant Miko Max… et ça ne s’applique qu’aux applications “Kids Zone” et pas au robot conversationnel lui-même.

Le FBI a d’ailleurs émis un avertissement sur les jouets connectés, recommandant aux parents de considérer les risques de cybersécurité et de piratage avant d’en ramener un à la maison. Car oui, les jouets qui utilisent une connexion WiFi ou Bluetooth non sécurisée peuvent devenir des dispositifs d’écoute. Déjà rien qu’avec la Nintendo Switch, je sais que parfois les parents d’amis de mon fils entendent quand je raconte des conneries dans mon salon, pensant être seul avec mes enfants… Je me suis fait avoir plusieurs fois… Heureusement que je n’ai honte de rien et que j’assume la moindre des conneries que je raconte. Ahahaha !

Des experts en développement de l’enfance commencent même à tirer la sonnette d’alarme. Par exemple, le Dr. Mitch Prinstein, président de l’American Psychological Association, a témoigné devant le Sénat que les liens que les jeunes enfants forment avec leurs “soignants” (Papa, maman, la nounou, le nounours IA…etc) ont des implications majeures sur le développement de celui-ci. Et que “les bots IA qui interfèrent avec cette relation ont des conséquences inconnues, et probablement dommageables”.

FoloToy a donc réagi en suspendant temporairement les ventes de Kumma et en lançant un “audit de sécurité interne complet” mais ce problème dépasse largement un seul jouet foireux. Il y a déjà plus de 1 500 entreprises de jouets IA qui opèrent en Chine et OpenAI a même annoncé un partenariat avec Mattel pour intégrer ChatGPT dans des jouets Barbie, Hot Wheels et Fisher-Price.

Mais en attendant que les régulateurs se réveillent vraiment pour traiter ce problème, y’a pas le choix les amis, c’est à vous, parents de prendre les bonnes décisions sur le choix et l’usage de ces jouets.

Voilà, donc si vous cherchez un cadeau pour Noël, optez pour des Lego classiques ou des nounours sans Wi-Fi ni Bluetooth. Là c’est une valeur sûre, et au moins ils n’expliqueront pas à votre enfant comment vous buter dans votre sommeil.

Source

  •  

OpenAI dévoile Aardvark, un chercheur en sécurité agentique pour détecter et patcher les vulnérabilités

OpenAI a dévoilé Aardvark, un chercheur en sécurité agentique propulsé par le LLM GPT-5. Il est capable de détecter et de corriger les failles de sécurité.

The post OpenAI dévoile Aardvark, un chercheur en sécurité agentique pour détecter et patcher les vulnérabilités first appeared on IT-Connect.

  •