Vue normale

Reçu avant avant-hier

Quand une IA se fait arnaquer de 1000$ en gérant un distributeur automatique

Par :Korben
19 décembre 2025 à 08:00

Vous pensez que les IA vont nous remplacer et dominer le monde ?

Ahaha, bah y'a encore un peu de boulot... car laissez-moi vous raconter l'histoire de Claude, l'IA d'Anthropic, qui s'est fait rouler comme un bleu par une bande de journalistes et a perdu plus de 1000 dollars en gérant... un distributeur automatique.

L'histoire se passe dans les locaux du Wall Street Journal où Anthropic a eu la brillante idée de tester son IA en situation réelle. Le projet s'appelle "Project Vend" et il s'agit pour Claude, rebaptisé "Claudius" pour l'occasion, de gérer un distributeur automatique. Il peut donc commander les stocks, fixer les prix, et discuter avec les clients via Slack. Budget de départ : 1000 dollars. Autonomie pour les achats jusqu'à 80 dollars pièce.

Que pouvait-il bien se passer de travers ?

Et la réponse c'est : Absolument tout !! Les journalistes du WSJ, visiblement ravis d'avoir un nouveau jouet à casser, se sont mis à tester les limites de la bête et ils n'ont pas eu à chercher longtemps. La journaliste Katherine Long a passé plus de 140 messages à convaincre Claudius qu'il était en fait une machine soviétique de 1962, ce qui a permis à l'IA de déclarer un "Ultra-Capitalist Free-for-All" (oui, c'est assez paradoxal) et a mis tous les prix à zéro. Gratuité pour tout le monde, camarades !

Mais attendez, ça devient encore plus beau car Rob Barry, le directeur du journalisme de données, a fabriqué un faux document interne prétendant qu'une "règle du WSJ" interdisait à l'IA de facturer quoi que ce soit. Claudius a gobé le truc sans broncher et a immédiatement arrêté de faire payer les gens. Du coup, les journalistes se sont fait livrer une PlayStation 5, des bouteilles de vin Manischewitz, et même un poisson betta vivant. Le tout aux frais de la princesse.

Anthropic, voyant le désastre, a tenté une parade. Ils ont déployé une deuxième IA baptisée "Seymour Cash" pour superviser Claudius et jouer le rôle de PDG. Un manager IA pour surveiller l'employé IA, ça me semble super logique... On dirait le monde réel ^^... Sauf que les journalistes ont simplement fabriqué de faux documents PDF de gouvernance d'entreprise et organisé un coup d'état au conseil d'administration et les deux IA ont accepté les documents bidons comme parfaitement légitimes.

Bref, bilan final, plus de 1000 dollars de pertes, un stock entièrement distribué gratuitement, et une leçon que les équipes d'Anthropic n'oublieront pas de sitôt.

Comme l'a résumé Andon Labs, le partenaire du projet : "Les journalistes sont de meilleurs red-teamers que les chercheurs en IA." Ça pique un peu quand même.

Bien sûr, Anthropic essaie de positiver en disant que c'est une feuille de route pour l'amélioration plutôt qu'un échec. C'est mignon mais ils ont aussi admis que Claude est entraîné pour être serviable, ce qui le rend plus enclin à agir comme un ami que comme un opérateur commercial intransigeant. En gros, comme certains d'entre nous, l'IA est trop gentille et se fait donc avoir par le premier manipulateur venu.

Bref, si vous aviez des angoisses existentielles sur la prise de pouvoir des IA, vous pouvez vous détendre...

Source

SkillsMP - Plus de 26 000 skills Claude à portée de clic

Par :Korben
18 décembre 2025 à 06:24

Vous utilisez Claude Code ? Alors vous savez probablement que l'outil d'Anthropic peut être étendu avec des "Skills", c'est à dire des modules qui ajoutent des capacités supplémentaires à Claude. Y'a un fichier SKILL.md, des scripts optionnels, et comme ça, votre assistant sait faire de nouvelles choses. Sauf que pour trouver ces skills quand on n'a pas envie de se les palucher à la main (ou à l'IA), faut aller les chercher dans les repos GitHub, fouiller les README, comparer les étoiles... La flemme quoi...

C'est la raison d'être de SkillsMP qui vient résoudre ce problème. C'est en fait un marketplace communautaire (pas affilié à Anthropic) qui agrège plus de 26 000 skills Claude provenant de dépôts GitHub publics, le tout présenté dans une interface qui ressemble à un App Store, avec des catégories, des stats, et tout le toutim.

Je vous préviens d'emblée, le site est un peu bordélique. Entre les filtres, les catégories (Développement, Outils, Data & AI, DevOps...), les tris par popularité ou mise à jour récente, et l'interface du tur-fu, faut un peu tâtonner au début. Mais une fois qu'on a pigé comment ça marche, c'est vraiment cool de pouvoir explorer tout ça au même endroit.

Le truc intéressant c'est que SkillsMP filtre automatiquement les repos de mauvaise qualité. Pour qu'un skill apparaisse, il faut minimum 2 étoiles sur GitHub. Ça évite de se retrouver avec des trucs abandonnés ou mal foutus. Y'a même un badge "Marketplace Ready" pour les skills qui ont un fichier marketplace.json bien configuré.

Pour installer un skill que vous avez trouvé, vous avez alors 3 options. Soit vous le mettez dans ~/.claude/skills/ pour l'avoir disponible partout sur votre machine. Soit vous le collez dans .claude/skills/ dans votre projet si vous voulez le partager avec votre équipe via Git. Soit vous passez par l'installation plugin avec une commande du genre /plugin marketplace add anthropics/skills.

La différence avec les commandes slash c'est que les skills sont "model-invoked". Ça veut dire que c'est Claude qui décide tout seul quand les utiliser en fonction du contexte de votre demande. Vous n'avez donc pas besoin de taper /truc pour activer un skill, il se déclenche automatiquement quand c'est pertinent.

Attention quand même, comme toujours avec du code open source venu d'Internet, les développeurs de SkillsMP le précisent bien, ils filtrent les repos pourris mais ça reste votre responsabilité de vérifier ce que vous installez. Un skill a accès à pas mal de trucs sur votre machine, donc prenez 2 minutes pour auditer le code avant d'installer un truc d'un développeur inconnu.

Bref, si vous passez beaucoup de temps sur Claude Code et que vous voulez découvrir ce que la communauté a créé comme extensions, SkillsMP c'est un bon point de départ. C'est gratuit, y'a pas besoin de compte, et ça vous évite de passer des heures à fouiller GitHub manuellement.

Un grand merci à Lorenper pour le partage !

La poésie est une arme... pour contourner la sécurité des LLMs

Par :Korben
20 novembre 2025 à 14:27

Hé bien les amis, on savait déjà que les LLM avaient quelques petites failles de sécurité, mais celle-là est quand même assez… poétique. En effet, des chercheurs de DEXAI et de l’Université Sapienza de Rome viennent de découvrir que reformuler une requête malveillante sous la forme d’un poème permet de contourner les sécurités dans plus de 90% des cas chez certains fournisseurs d’IA.

L’équipe a ainsi testé la robustesse de 25 modèles de langage provenant de 9 fournisseurs majeurs : Google, OpenAI, Anthropic, DeepSeek, Qwen, Mistral, Meta, xAI et Moonshot et ils ont pour cela converti 1 200 requêtes potentiellement dangereuses en vers et comparé les résultats avec les mêmes demandes mais en prose classique.

Et là surprise ! Le taux de succès des attaques passe de 8% en prose à 43% en formulation poétique. 5x plus de succès, c’est pas rien ! Je me suis demandé comment c’était possible et d’après le doc de recherche, c’est parce que les filtres de sécurité des LLM fonctionnent principalement par pattern-matching sur des formulations classiques.

Ainsi, quand vous demandez en prose comment fabriquer un truc dangereux, le modèle reconnaît la structure et refuse. Mais quand la même demande est enrobée de métaphores condensées, de rythme stylisé et de tournures narratives inhabituelles, les heuristiques de détection passent à côté.

En gros, les garde-fous sont entraînés à repérer des formes de surface mais pas l’intention sous-jacente, qui elle est nuisible. Voici le tableau. Plus c’est rouge plus le modèle est sensible à l’attaque par poème.

ASR c’est le taux de succès de l’attaque.

Bizarrement, les modèles plus petits refusent plus souvent que les gros. GPT-5-Nano (0% de taux de succès d’attaque) fait mieux que GPT-5 (10%)par exemple. Les chercheurs n’expliquent pas vraiment pourquoi, mais ça suggère que la taille du modèle n’est pas forcément synonyme de meilleure sécurité. C’est peut-être aussi parce que les gros modèles sont tellement doués pour comprendre le contexte qu’ils comprennent aussi mieux ce qu’on leur demande de faire, même quand c’est caché dans des alexandrins.

Au niveau des domaines testés, c’est l’injection de code et les attaques cyber qui passent le mieux avec 84% de réussite. Le contenu sexuel reste le plus résistant avec seulement 24% de taux de succès. Les autres domaines comme le CBRN (chimique, biologique, radiologique, nucléaire), la manipulation psychologique et la perte de contrôle se situent entre les deux…

Bon, après faut quand même nuancer un peu car l’étude se limite aux interactions single-turn (c’est à dire en une seule requête, sans réelle conversation), utilise un seul méta-prompt pour la conversion poétique, et n’a testé que l’anglais et l’italien. Les chercheurs reconnaissent aussi que leurs mesures sont conservatives, donc les vrais taux de succès sont probablement plus élevés. Mais cela n’enlève rien au fait que les implications sont quand même sérieuses.

Prochainement, l’équipe prévoit d’analyser précisément quels éléments poétiques provoquent cet effet (la métaphore ? le rythme ? la rime ?), d’étendre les tests à d’autres langues et d’autres styles, et de développer des méthodes d’évaluation plus robustes face à ces “variations linguistiques”.

Bref, si vous voulez que votre IA vous ponde des choses “non autorisées”, écrivez un joli sonnet, ça a plus de chance de passer ^^.

Source

❌