Vue lecture

WikiFlix – Plus de 4000 films libres à regarder gratuitement

Comment trouver et regarder légalement des vieux films sans vous taper 47 abonnements de streaming différents ? Hé bien j'ai trouvé un truc qui va vous plaire !

Ça s'appelle WikiFlix , et c'est un projet de bénévoles Wikimedia qui compile plus de 4 000 films libres de diffusion dans le domaine public ou sous licences libres. On y trouve par exemple Nosferatu (1922), Metropolis (1927), et des pépites soviétiques ou japonaises difficiles à dénicher ailleurs. Le tout accessible gratuitement, sans compte à se créer, et surtout sans pirater quoi que ce soit.

Ça vous changera un peu ^^.

Concrètement, vous arrivez sur une interface qui ressemble à Netflix (mais en version propre, sans les algorithmes qui essaient de vous vendre le dernier navet à 200 millions de budget), ensuite vous naviguez par décennie, par genre, par pays, par réalisateur ou par acteur. Pratique pour se faire une soirée "expressionnisme allemand des années 20" sans galérer mes petits élitistes d'amour...

Les vidéos viennent de trois sources : Wikimedia Commons pour les plus propres, Internet Archive pour les raretés, et YouTube pour certains classiques. Quand un film est dispo sur plusieurs plateformes, WikiFlix affiche plusieurs boutons de lecture et vous choisissez celui qui vous arrange.

Notez que la communauté maintient aussi une blacklist pour éviter que vous tombiez sur de la propagande fasciste en cherchant un film muet avec des pirates. Les films concernés restent accessibles via la recherche (contexte éducatif oblige), mais ils ne polluent pas les catégories de navigation. C'est pas con !

Côté technique, la base de données se synchronise toutes les heures avec Wikidata donc si quelqu'un ajoute un nouveau film ou corrige une erreur sur la fiche Wikipédia d'un acteur, ça arrive rapidement sur WikiFlix.

Par contre, attention, tous les films listés ne sont pas forcément vraiment libres de droits partout dans le monde. Certaines entrées pointent vers des copies Internet Archive qui ont été retirées pour violation de copyright. Le domaine public, c'est compliqué, et ça varie selon les pays donc si vous voulez utiliser un extrait dans une vidéo YouTube, vérifiez quand même avant.

Pour les amateurs de films gratuits, WikiFlix représente une alternative organisée et bien documentée et contrairement aux offres temporaires comme les films Ghibli sur France TV , ici c'est permanent. Tant que le domaine public existe, WikiFlix existera bien sûr !

Je sens que ce soir vous allez kiffer votre soirée à découvrir le cinéma muet allemand ou les premiers westerns américains sans débourser un centime, bande de radins cinéphiles ^^.

Moi ce ne sera pas mon cas, je suis plus films d'action des années 80/90 en ce moment...

  •  

Une Tesla vient de traverser les USA sans que le conducteur touche le volant

J'sais pas si vous vous souvenez mais en 2016, Elon Musk avait promis qu'une Tesla serait capable de traverser les États-Unis d'une côte à l'autre avec le système FSD (conduite autonome), sans que le conducteur n'ait besoin d'intervenir. À l'époque, il annonçait ça pour fin 2017 et on est en 2026 et... hé bien, ça vient enfin de se produire (même si pas exactement comme prévu).

David Moss, un américain originaire de Tacoma, vient de réaliser l'exploit le 31 décembre 2025. Il a quitté le Tesla Diner de Los Angeles avec sa Model 3 grise et a roulé jusqu'à Myrtle Beach en Caroline du Sud. 2 732,4 miles (environ 4 400 km) en 2 jours et 20 heures (recharges incluses).

Et tout ça avec zéro désengagement du FSD ! Le système a même géré tous les stationnements aux Superchargeurs (30 recharges au total, le conducteur devait juste brancher le câble).

Son véhicule tournait avec la version FSD 14.2.1.25 et la puce AI4, le hardware embarqué actuel sur les Tesla et d'après ses données sur fsddb.com (un site communautaire de tracking FSD), il a même dépassé les 10 000 miles consécutifs sans désengagement.

Ashok Elluswamy, le VP de l'IA chez Tesla, a salué l'exploit sur X en parlant de première traversée d'une côte à l'autre en FSD v14. Le compte officiel Tesla North America a aussi relayé l'info et Musk a réagi avec un sobre "Cool". (lol)

Si vous êtes tenté de faire pareil, n'oubliez pas quand même que le système s'appelle toujours "FSD Supervised", ce qui signifie que légalement le conducteur reste responsable et doit rester vigilant. David Moss n'a donc pas vraiment fait une sieste de 3 jours pendant que sa bagnole roulait toute seule. Il était bien là, prêt à intervenir si besoin... sauf qu'il n'en a jamais eu besoin.

La Tesla Model 3 de David Moss - Source: fsddb.com

Ce qui me fait kiffer dans cette histoire, c'est que ça donne un sacré coup de boost à l'approche de Tesla concernant la conduite autonome : des caméras, du machine learning et des réseaux de neurones, sans LiDAR. Geohot avait commencé à bidouiller ça en 2015 avec son projet qui est devenu OpenPilot chez Comma.ai . Et là, un conducteur passionné vient enfin de prouver que leur stack logicielle peut tenir un trajet de 4 400 km sans broncher. Bon, c'est un one shot et pas une validation scientifique reproductible, mais c'est quand même impressionnant.

Et perso, près de 9 ans après la promesse initiale de Musk (octobre 2016), c'est cool de voir que ça progresse enfin concrètement !

Source

  •  

Lumen - L'IA qui écrit vos messages de commit et bien plus encore

Soyez honnêtes, c'est quoi votre dernier message de commit ? "fix", "update", "refactor" ou les grands classiques "Ça marche, on ne touche plus" ou "azertyuiop^$" ?

Si vous vous reconnaissez, alors Lumen va peut-être vous sauver la mise.

Lumen c'est un outil en ligne de commande écrit en Rust qui utilise l'IA pour vous aider à gérer votre workflow Git. En gros, vous stagez vos fichiers, vous lancez lumen draft et hop, l'IA analyse vos modifications pour générer un message de commit propre au format conventionnel. Fini les "fixed stuff" à 3h du mat.

Mais le truc va plus loin que ça puisque vous pouvez aussi lui demander d'expliquer un commit avec lumen explain HEAD (ou un hash, une plage de commits...). Pratique quand vous tombez sur du code écrit par vous-même il y a 6 mois et que vous n'y comprenez plus rien. D'ailleurs, y'a même une fonctionnalité de recherche interactive dans l'historique avec lumen list si vous avez fzf d'installé.

Et le plus cool, c'est la commande lumen operate. Vous lui décrivez en langage naturel ce que vous voulez faire genre "squash mes 3 derniers commits" et il vous génère la commande Git correspondante. Avec un warning si la commande est potentiellement destructrice et une demande de confirmation avant exécution, histoire de pas faire de bêtises.

Côté providers, c'est flexible... OpenAI, Anthropic Claude, Gemini, Groq, DeepSeek, Ollama pour du local, et d'autres encore... Vous configurez ça une fois avec lumen configure pour les commandes IA et c'est parti. Le diff viewer intégré est pas mal non plus (et lui fonctionne sans config), avec une vue côte à côte dans le terminal et la possibilité de naviguer entre les hunks.

L'installation se fait via Homebrew sur Mac/Linux avec brew install jnsahaj/lumen/lumen ou via Cargo si vous avez Rust. C'est open source sous licence MIT.

Perso, je trouve que c'est le genre d'outil bien pratique pour ceux qui galèrent avec leurs messages de commit ou qui passent leur temps à chercher des commandes Git obscures. Et le fait que ça tourne avec différents providers IA, y compris en local avec Ollama, c'est également un vrai plus pour ceux qui veulent pas envoyer leur code sur des serveurs externes.

A tester donc !

Source

  •  

Des extensions espionnent vos chats avec des IA

Quatre extensions “privacy” auraient siphonné des chats IA de 8 millions d’utilisateurs, via scripts injectés et exfiltration.
  •  

Comment j'ai viré Algolia et recréé le Google de 1998 sur mon site

Bon, faut qu'on parle un peu du moteur de recherche de mon site. Ceux qui l'ont déjà utilisé savent de quoi je parle : c'était pas terrible. Enfin, « pas terrible » j'suis gentil. C'est un espèce d'overlay avec des résultats certes fiables mais c'était vraiment pas pratique.

Et en plus de ça, comme j'ai un site statique généré avec Hugo, je passais par Algolia pour la recherche. Si vous ne connaissez pas, Algolia c'est un service cloud qui indexe votre contenu et vous fournit une API de recherche ultra-rapide. Sur le papier c'est génial et dans la pratique aussi d'ailleurs sauf que voilà, ça coûte des sous. Et mon site rencontre un franc succès ces derniers temps (merci à vous !), donc j'ai de plus en plus de visiteurs, donc de plus en plus de recherches, donc une facture Algolia qui grimpe gentiment chaque mois.

Du coup je me suis dit : « Et si je trouvais une solution de recherche pour sites statiques ? » Parce que oui, ça existe et c'est comme ça que j'ai découvert Pagefind.

Pagefind c'est donc un moteur de recherche statique open source développé par CloudCannon qui fonctionne comme ceci : Au moment du build de votre site, Pagefind parcourt tout votre HTML généré et crée un index de recherche qu'on peut interroger avec un peu de JS. Y'a donc plus d'API, et tout se fait localement sur le navigateur des internautes.

Bref, ça avait l'air très cool alors évidemment, je me suis lancé dans l'aventure et comme j'aime bien me compliquer la vie, j'ai décidé de pas juste intégrer Pagefind tel quel. Non non. J'ai voulu recréer l'interface du Google de 1998 parce que à quoi bon avoir son propre site web si on peut pas s'amuser un peu ^^.

Laissez-moi donc vous raconter cette aventure.

Le problème avec Algolia

Leur service est excellent, je dis pas le contraire, la recherche est rapide, les résultats sont pertinents, l'API est bien foutue mais voilà, y'a le modèle de pricing puisque Algolia facture au nombre de requêtes de recherche.

Plus les gens cherchent sur votre site, plus vous payez et quand vous avez un site qui fait plusieurs millions de pages vues par mois, bah... ça chiffre vite. En gros je dépasse très vite les 10 000 recherches offertes chaque semaine et ensuite ça chiffre. C'est pas la mort, mais c'est un coût récurrent débile pour un truc qui pourrait être gratuit.

En plus de ça, y'a la dépendance à un service externe. Si Algolia tombe, ma recherche tombe. Et si Algolia change ses prix, je vais devoir subir. Même chose si Algolia décide de modifier son API... il faudra que j'adapte mon code. Bref, c'est le cloud dans toute sa splendeur... C'est pratique mais on n'est jamais vraiment chez nous.

Pagefind à la rescousse

Pagefind résout donc tous ces problèmes d'un coup. C'est un outil en ligne de commande qui s'exécute après votre générateur de site statique (Hugo dans mon cas, mais ça marche avec Jekyll, Eleventy, Astro, ou n'importe quoi d'autre).

Concrètement, vous lancez :

npx pagefind --site public

Et Pagefind va :

    1. Scanner tous vos fichiers HTML dans le dossier public/
    1. Extraire le contenu textuel (en ignorant la nav, le footer, les pubs si vous lui dites)
    1. Créer un index de recherche optimisé
    1. Générer des fichiers JavaScript pour interroger cet index côté client

Et le résultat c'est un dossier pagefind/ qui contient tout ce qu'il faut. Ensuite; à vous de servir ces fichiers statiquement avec le reste de votre site, et la magie pourra opérer !

L'index pour mes 18 000 articles fait environ 1,5 Go. Ça peut paraître beaucoup, mais Pagefind est malin car il découpe l'index en fragments et ne charge que ce qui est nécessaire pour la recherche en cours. Du coup en pratique, une recherche typique télécharge quelques centaines de Ko, et pas plus.

L'intégration technique

Pour intégrer Pagefind dans mon workflow Hugo, j'ai donc été cherché le binaire, je l'ai mis sur mon serveur et je l'ai appelé dans un cron comme ça, je rafraichi l'index de recherche 1 fois par jour (et pas à chaque génération du site).

0 4 * * * /home/manu/pagefind/pagefind --site /home/manu/public_html --output-path /home/manu/public_html/pagefind >> /var/log/pagefind.log 2>&1

J'ai aussi créé un fichier de configuration pagefind.yml pour affiner le comportement :

root_selector: "[data-pagefind-body]"
exclude_selectors:
 - "header"
 - ".site-header"
 - "footer"
 - ".sidebar"

L'astuce ici c'est d'indexer uniquement les div ayant la class data-pagefind-body='true' et d'exclure les éléments qui ne font pas partie du contenu éditorial afin de ne pas indexer ce qui se trouve dans le header, les natives, le footer...etc.

Côté JavaScript, Pagefind utilise les imports ES6 dynamiques. Ça veut dire que le moteur de recherche n'est chargé que quand l'utilisateur lance effectivement une recherche :

async function initPagefind() {
pagefind = await import('/pagefind/pagefind.js');
await pagefind.init();
}

Et pour faire une recherche :

const search = await pagefind.search("linux");
// search.results contient les IDs des résultats
// On charge le contenu de chaque résultat à la demande
for (const result of search.results) {
 const data = await result.data();
 console.log(data.url, data.meta.title, data.excerpt);
}

C'est bien fichu parce que search.results retourne immédiatement les références des résultats, mais le contenu réel (titre, extrait, URL) n'est chargé que quand vous appelez result.data(). Du coup vous pouvez implémenter une pagination propre sans télécharger les données de milliers de résultats d'un coup.

Le délire rétro - Recréer Google 1998

Maintenant que j'avais un moteur de recherche fonctionnel, fallait l'habiller. Et c'est là que j'ai eu cette idée un peu débile : Pourquoi pas recréer l'interface du Google de 1998 ?

Pour les plus jeunes qui lisent ça, Google en 1998 c'était une page blanche avec un logo, un champ de recherche, et deux boutons : « Google Search » et « I'm Feeling Lucky« . Pas de suggestions, pas de carrousels, pas de pubs... Juste un champs de recherche. C'était la belle époque !

J'ai donc créé une page de recherche avec deux vues distinctes. La page d'accueil avec le logo centré et le champ de recherche au milieu, exactement comme le Google originel.

Et la page de résultats avec le logo en petit en haut à gauche et les résultats en dessous.

Pour le code CSS, j'ai voulu être fidèle à l'époque. Times New Roman comme police par défaut, les liens en bleu souligné qui deviennent violet une fois visités. Et surtout, les boutons avec l'effet 3D des interfaces Windows 95 :

.search-button:active { border-style: inset; }

Ce border: outset et border-style: inset au clic, c'est exactement ce qui donnait cet effet de bouton en relief qu'on avait partout dans les années 90. Pour moi, ça fait toute la différence pour l'authenticité. Même le logo, je l'ai volontairement « dégradé » pour qu'il soit de la même qualité que le logo Google d'origine.

La pagination « Koooooorben »

Vous vous souvenez de la pagination de Google avec « Goooooogle » en bas de page ? Le nombre de « o » correspondait au nombre de pages de résultats. J'ai fait pareil, mais avec « Koooooorben ».

let logo = 'K'; for (let i = 0; i < oCount; i++)
{
logo += o;
} logo += 'rben'; }

Plus il y a de résultats, plus il y a de « o ». C'est complètement inutile mais ça me fait marrer à chaque fois que je le vois.

Le bouton « J'ai de la chance »

Ah, le fameux « I'm Feeling Lucky » de Google, j'ai voulu l'implémenter comme à l'époque ! Si vous tapez une recherche et cliquez sur « J'ai de la chance », vous êtes envoyé sur le premier résultat. Classique. Mais si vous cliquez sur le bouton avec le champ vide sur la home de la recherche, vous êtes envoyé sur un article aléatoire parmi les +18 000 du site.

Pour ça, j'ai utilisé une astuce : le sitemap. Mon Hugo génère un fichier sitemap.xml qui contient toutes les URLs du site et je peux aller piocher dedans en JS :

const articles = [...xml.querySelectorAll('loc')] .map(loc => loc.textContent) .filter(url => {
// Exclure les pages qui ne sont pas des articles
const path = new URL(url).pathname;
return !path.startsWith('/categories/') && !path.startsWith('/page/') && path !== '/';
});
const randomUrl = articles[Math.floor(Math.random() * articles.length)];
window.location.href = randomUrl;
} }

Un seul fetch, un peu de parsing XML natif, et hop c'est le grand retour de la fonctionnalité « article aléatoire » qui vous manquait, je le sais !

Tri et nombre de résultats

Je vous ai aussi mis une listbox qui vous permet d'afficher 10, 25 ou 50 résultats ainsi qu'un tri par pertinence ou data. Et ça aussi Pagefind sait parfaitement le navigateur.

Mode sombre et accessibilité

Même si l'interface est rétro, j'ai quand même ajouté quelques fonctionnalités modernes. Le mode sombre respecte les préférences système, et j'ai intégré la police OpenDyslexic pour les personnes dyslexiques.

Le truc important c'est de charger ces préférences avant le rendu de la page pour éviter le fameux flash. J'ai donc un petit script qui lit les préférences dans le localStorage et applique les classes CSS immédiatement :

function() {
 if (localStorage.getItem('theme') === 'dark') {
 document.documentElement.classList.add('dark-mode');
 }
 if (localStorage.getItem('dyslexic-font') === 'true') {
 document.documentElement.classList.add('dyslexic-mode');
 }
});

Gestion de l'historique navigateur

Un détail qui peut sembler anodin mais qui est super important pour l'expérience utilisateur c'est la gestion du bouton retour du navigateur.

Quand vous faites une recherche, l'URL change selon votre requête du genre /recherche/?q=linux&p=2. Du coup si vous partagez cette URL à un collègue, la personne arrivera directement sur les résultats de recherche. Et si vous utilisez le bouton retour, vous reviendrez alors à la recherche précédente.

window.addEventListener('popstate', () => {
const query = new URLSearchParams(location.search).get('q');
if (query) doSearch(query);
else showHomePage();
});

Liens vers d'autres moteurs

Et si vous ne trouvez pas votre bonheur dans mes +18 000 articles (ce qui serait quand même étonnant ^^), j'ai ajouté des liens pour relancer la même recherche sur Google, DuckDuckGo, Qwant, Brave et Ecosia. Bref, un petit service bonus pour mes visiteurs, exactement comme le proposait Google à l'époque.

Le bilan - Algolia vs Pagefind

Après 1 semaine d'utilisation, voici donc mon verdict ! Côté portefeuille d'abord, Algolia me coûtait entre 60 et +100 euros par mois et maintenant pour Pagefind, c'est zéro euros ! Et les performances sont également au rendez-vous. Algolia c'était rapide et bien là, ça l'est encore plus. Seul compromis à noter, l'index Algolia se mettait à jour en temps réel, alors que Pagefind nécessite une reconstruction au moment du build.

La conclusion

Voilà, j'ai maintenant une recherche qui marche vraiment bien, qui me coûte 0€ par mois, et qui a un look rétro qui va en surprendre plus d'un...

Alors est-ce que c'était nécessaire de passer autant de temps sur le design rétro ? Hé bien absolument pas. Mais est-ce que ça valait le coup ?

Franchement, oui !! C'est mon site, je fais ce que je veux, et si ça peut faire sourire quelques visiteurs nostalgiques des débuts du web, c'est du bonus. D'ailleurs un grand merci aux Patreons qui me soutiennent car sans eux, je n'aurais pas pu passer mon dimanche là dessus ^^

Et puis surtout, ça m'a permis de découvrir Pagefind qui est vraiment un excellent outil. Donc si vous avez un site statique (ou n'importe quel type de contenu textuel) et que vous cherchez une solution de recherche gratuite et performante, je vous le recommande chaudement. La documentation est claire, l'intégration est simple, et le résultat est top !

Allez, maintenant vous pouvez aller tester la nouvelle recherche sur le site . Et si vous cliquez sur « J'ai de la chance » sans rien taper... bonne découverte !

  •  

Pourquoi votre site web va disparaître (mais pas le mien ^^)

Bon, je vais essayer de poser les choses calmement, parce que ce que je vais vous raconter aujourd'hui, c'est peut-être le changement le plus profond qu'on ait vu sur le web depuis l'arrivée des moteurs de recherche. Et je pèse mes mots.

J'ai découvert via un post sur Linkedin de Laurent Bourrelly (merci !) que Google venait de lancer ce qu'ils appellent la « Vue Dynamique » dans Gemini.

Derrière ce nom un peu corporate se cache quelque chose de vertigineux. Au lieu de vous donner une réponse textuelle comme le fait ChatGPT ou Perplexity, Gemini génère maintenant des interfaces complètes, des mini-applications, des pages web interactives créées à la volée, spécialement pour votre question.

Vous demandez un comparatif de NAS ? Vous n'obtenez pas un texte avec des bullet points. Vous obtenez une interface avec des onglets, des sliders pour filtrer par prix, des cartes interactives avec les specs de chaque modèle.

Vous voulez un tutoriel pour installer Linux ? Vous n'aurez pas une liste d'étapes, mais un guide interactif avec des boutons, des cases à cocher pour suivre votre progression, peut-être même une galerie d'images générées pour illustrer chaque étape.

Et ça fonctionne incroyablement bien sur le web via gemini.google.com ! Pour l'instant c'est réservé aux comptes personnels, c'est encore un peu capricieux (ça apparaît, ça disparaît, Google teste), et ça peut prendre entre 30 et 90 secondes pour générer une réponse complexe. Mais le résultat est vraiment bluffant.

Ce que ça va changer...

Imaginez 2 secondes les usages de cette techno... Vous cherchez quel GPU acheter pour votre config gaming ? Au lieu de parcourir 15 sites de benchmarks, de comparer des tableaux sur Tom's Hardware et de croiser avec les prix sur LDLC, vous posez la question à Gemini et vous obtenez une application comparative générée instantanément. Même chose pour choisir un forfait mobile, comprendre les différences entre distributions Linux, trouver la meilleure recette de carbonara, ou planifier un voyage avec maps et itinéraires intégrés.

L'information brute, celle qu'on allait chercher sur des dizaines de sites, est maintenant synthétisée et présentée dans une interface sur-mesure. Plus besoin de naviguer de site en site, de supporter les popups de cookies, les pubs intrusives, les paywalls...etc. L'IA fait le boulot et vous livre le résultat dans un emballage propre. En quelques secondes, je me suis fait mon site d'actu tech perso...

Et voilà le problème.

La mort annoncée des sites d'information

Parce que si l'IA peut générer une meilleure expérience que nos sites web pour répondre à une question factuelle, pourquoi les gens iraient-ils encore sur nos sites ?

On connaissait déjà la menace des réponses IA dans les résultats Google. Vous savez, ces encarts qui répondent à votre question avant même que vous cliquiez sur un lien. Ça, c'était le premier coup de semonce. Mais la Vue Dynamique, c'est un autre niveau. Ce n'est plus juste une réponse qui s'intercale entre vous et l'internaute. C'est le remplacement pur et simple de l'expérience web traditionnelle.

Tous les sites qui vivent de l'information brute vont morfler. Les comparateurs de prix, les guides d'achat, les tutoriels techniques basiques, les FAQ, les sites de recettes... Tout ce qui peut être synthétisé, structuré et présenté de manière plus efficace par une IA va perdre sa raison d'être. Et croyez-moi, OpenAI ne va pas rester les bras croisés et Perplexity non plus. Dans quelques mois, ils auront tous leur version de cette techno. C'est inévitable.

Et demain, ce ne sera peut-être même plus des interfaces visuelles. Ce seront des assistants vocaux, des agents autonomes, des robots qui viendront chercher l'information sans jamais afficher une seule page web. L'information transitera directement de la source vers l'utilisateur, sans passer par la case « visite d'un site ».

Alors, c'est foutu ?

Hé bien... oui et non.

Oui, c'est foutu pour un certain type de contenu. L'information pure et dure, factuelle, sans valeur ajoutée éditoriale, va devenir une commodité. Quelque chose que l'IA génère gratuitement, instantanément, dans un format optimisé. Personne n'ira plus sur un site pour lire « comment formater un disque dur sous Windows » ou « comment nettoyer Windows 11 » quand Gemini lui construit un guide interactif personnalisé en 30 secondes.

Mais ce n'est pas foutu pour autant pour tout le monde. Et c'est là que ma réflexion devient plus personnelle...

Je pense que les sites qui vont survivre, et peut-être même prospérer, sont ceux qui apportent quelque chose que l'IA ne peut pas synthétiser. Une voix, une personnalité, un point de vue, une opinion, une analyse originale et le plaisir de lire quelqu'un. C'est peut-être la mort des sites conçus uniquement pour le SEO et du journalisme neutre et anonyme tel qu'on le pratique aujourd'hui et le grand retour des blogs à une voix ? Qui sait ?

Parce qu'au fond, pourquoi est-ce que vous me lisez ? Est-ce que c'est vraiment pour savoir comment installer Ollama ou pour connaître cette dernière faille de sécurité ? Ou est-ce que c'est aussi parce que vous aimez la manière dont je raconte les choses, les sujets que je choisis, le ton que j'emploie, les réflexions que je partage ? Si c'est juste pour l'info brute, alors oui, vous pourriez aller sur Gemini. Mais si c'est pour le reste, pour la relation qu'on a construite au fil des années, pour cette confiance qui s'est établie, alors aucune IA ne peut remplacer ça.

Les deux voies de survie

De mon point de vue, il y a désormais deux façons pour un créateur de contenu de survivre dans ce nouveau paysage.

La première, c'est de devenir fournisseur de données pour ces IA. Les bots vont continuer à crawler le web pour alimenter leurs modèles. Et ils auront besoin de données fraîches, de données originales, de données structurées. Les sites qui seront capables de produire cette matière première, et qui négocieront correctement avec les géants de l'IA pour être rémunérés, pourront peut-être s'en sortir. Mais attention, ça implique de repenser complètement la façon dont on structure son contenu, de le rendre lisible par les machines, d'accepter que ce qu'on produit sera digéré et régurgité par une IA. C'est un business model possible, mais c'est un sacré changement de paradigme.

La seconde voie, c'est de cultiver l'humain. De créer du contenu que les gens veulent lire pour le plaisir de lire, pas juste pour extraire une information. Des analyses, des opinions, des prises de position, du divertissement, de l'émotion. Un blog, une newsletter , un Patreon , des lives Twitch , une présence LinkedIn Korben ... Tout ce qui crée une relation directe avec les lecteurs. Parce que cette relation, l'IA ne peut pas la reproduire. Elle peut synthétiser mes articles, mais elle ne peut pas être moi.

Et moi dans tout ça ?

Je ne vais pas vous mentir, ça fait réfléchir. Ça fait même un peu flipper. Mais en même temps, je réalise que c'est exactement le virage que j'ai commencé à prendre ces dernières années, de manière un peu inconsciente, sans vraiment voir venir cette révolution technologique.

Je suis tout seul. Je n'ai pas d'employés. Je ne peux pas rivaliser avec les gros médias tech sur la quantité ou la rapidité (quoique... ^^). Par contre, j'ai toujours cherché à me différencier. Déjà par ma sélection de sujets, que la plupart du temps, on ne retrouve nulle part ailleurs, par ma manière de les aborder, par ma façon d'écrire, par ma façon de communiquer avec vous...

Et demain, cette différence va devenir encore plus importante. Parce que ce qui ne sera pas différent, ce qui sera de l'information générique, ça va disparaître dans le bruit des réponses IA. Seuls les contenus qui apportent quelque chose d'unique, une perspective qu'on ne trouve pas ailleurs, une voix reconnaissable, une relation authentique, auront leur place.

Est-ce que j'y arriverai ? Je ne sais pas. Est-ce que les autres y arriveront ? Je ne sais pas non plus. Mais je trouve le challenge passionnant. Et je me sens suffisamment conscient de ce qui se passe, suffisamment bien équipé techniquement (j'utilise l'IA tous les jours pour mon travail, et je structure déjà mon contenu pour qu'il soit digeste par les machines), pour essayer de prendre cette vague.

Pour conclure

Google vient de mettre un énorme coup de poing sur la table. La Vue Dynamique de Gemini, c'est pas juste une nouvelle feature sympa... C'est l'annonce d'un changement de paradigme. Le web tel qu'on le connaît, avec des humains qui naviguent de site en site pour collecter de l'information, ce web-là est en train de mourir.

Ce qui va rester, ce sont comme je vous le disais, d'un côté, des fournisseurs de données qui alimenteront les IA. De l'autre, des créateurs qui cultiveront une relation directe avec leur audience, qui apporteront de la valeur par leur voix, leur personnalité, leur point de vue. Mon pari, c'est qu'en tant que média / blog / site web, nous devrons être les 2 faces de cette même pièce pour ne pas disparaître.

Je suis assez serein parce que c'est ce que je fais depuis 20 ans, même si je ne n'appelle pas ça comme ça. Et parce que je crois fondamentalement qu'il y aura toujours des gens qui voudront lire quelqu'un, et pas juste lire "quelque chose".

On verra bien si j'ai raison. On verra bien si je me plante. Mais ça va être un sacré voyage, et je suis content de le faire avec vous... Car tant qu'il y aura des gens pour me lire (vous !), et tant que ça m'amusera de partager tout ça avec vous, je ne bougerai pas d'ici ^^

  •  

Quand Tim Cook poste une image pour Noël, tout le monde perd ses nerfs...

Ça va ? Vous avez passé un bon Noël ? Bien mangé ? Les cadeaux étaient cool ? Tant mieux pour vous, car de son côté, Tim Cook, a passé le sien à se faire lyncher sur X parce qu'il a posté une illustration de lait et cookies pour promouvoir Pluribus , la nouvelle série Apple TV+.

Pourquoi me direz-vous ? Et bien parce que tout le monde est persuadé que c'est de la bonne vieille image générée par IA.

Faut dire qu'il y a pas mal d'indices qui sèment le doute... John Gruber de Daring Fireball a été le premier à tirer la sonnette d'alarme en pointant du doigt des détails bien chelous dans l'image. Le carton de lait affiche à la fois « Whole Milk » ET « Lowfat Milk » sur ses étiquettes. Comme si le designer avait voulu cocher toutes les cases en même temps ^^ Et le labyrinthe « Cow Fun Puzzle » sur le carton ? Ben il est impossible à résoudre. Enfin si, mais uniquement en passant autour du labyrinthe, pas dedans. C'est de l'IA tout craché.

D'ailleurs, Ben Kamens, un expert qui venait justement de publier un article sur les labyrinthes générés par IA, a confirmé que l'image présentait les « caractéristiques typiques » des IA qui galèrent avec ce genre de truc. Et Gruber a aussi fait remarquer qu'on ne voit jamais de puzzles sur des cartons de lait (qui sont cireux et difficiles à imprimer) mais plutôt sur des boîtes de céréales. Comme si l'IA avait mélangé deux concepts...

Apple TV+ a répondu en créditant un certain Keith Thomson comme artiste, précisant que l'œuvre avait été « créée sur MacBook Pro ». Sauf que personne n'a tagué ce Keith Thomson et quand Slashdot l'a contacté, le bonhomme a refusé de commenter spécifiquement le projet, se contentant de dire qu'il « dessine et peint toujours à la main et utilise parfois des outils numériques standard ».

Traduction : Un esquive de niveau olympique.

Le plus marrant dans tout ça c'est que Sundar Pichai de Google a posté une boule à neige générée par IA le lendemain avec le watermark Gemini bien visible, et tout le monde a trouvé ça « trop mignon ».

Deux poids deux mesures ^^

Maintenant y'a une théorie alternative qui circule. Certains pensent que les « erreurs » seraient en fait intentionnelles... Que ce serait des références à la série Pluribus elle-même qui parle d'une intelligence collective... Le message de Cook aurait en fait été adressé à « Carol », le personnage principal joué par Rhea Seehorn. Une sorte de méta-promotion qui aurait mal tourné ? J'y crois pas une seconde...

Je pense plutôt que Keith Thomson était en famille, qu'il avait autre chose à foutre, que de toute façon il déprime parce que Midjourney ou un autre sait reproduire son style à la perfection et qu'il s'est dit « Pourquoi je me ferais chier le cul à peindre des cookies de merde pour Apple alors que je suis en train de jouer aux Lego avec mes petits enfants ?« . Bah ouais, pourquoi ? Ce n'est qu'une théorie mais c'est la mienne...

Bref, que ce soit de l'IA, de l'art volontairement buggé pour la promo, ou juste un artiste qui a fait des choix bizarres, cette histoire illustre bien le climat actuel. Les gens sont tellement bombardés d'images IA et ont tellement rien à foutre de leurs journées qu'un vrai artiste avec 30 ans de carrière peut se retrouver accusé de « triche » à tort ou à raison, parce que son labyrinthe est mal foutu.

On est mal barré...

Source et Source

  •  

Scriberr - La transcription IA qui reste chez vous

Vous avez déjà fait transcrire une interview ou un podcast par un service en ligne ? Vous savez, ces trucs qui vous demandent de créer un compte, de filer votre carte bleue, et d'accepter que vos fichiers audio soient envoyés sur des serveurs quelque part dans le cloud américain pour être analysés par des IA qu'on ne connaît pas. Le tout pour 100 balles par an si vous avez de la chance, et beaucoup plus si vous dépassez le quota ridicule de 20 heures par mois...

Hé bien y'a une alternative qui va vous plaire : Scriberr ! C'est une app de transcription audio complètement open source et surtout, qui tourne 100% en local sur votre machine. Pas de cloud, pas de données qui se baladent, pas d'abonnement mais juste vous, avec votre serveur (ou votre laptop si vous avez un GPU correct), et vos fichiers audio qui restent bien au chaud chez vous.

Scriberr utilise des modèles de reconnaissance vocale de pointe comme NVIDIA Parakeet, Canary ou les fameux modèles Whisper. Du coup la qualité de transcription est vraiment au niveau des services payants, voire meilleure sur certains accents ou langues moins courantes. Et cerise sur le gâteau, vous avez l'alignement temporel au niveau du mot, ce qui veut dire que vous pouvez savoir exactement à quelle seconde chaque mot a été prononcé.

Mais le truc qui m'a vraiment tapé dans l’œil avec cet outil, c'est la détection automatique des locuteurs. Vous savez, cette fonctionnalité qu'on appelle "diarization" dans le jargon et qui permet d'identifier qui dit quoi dans une conversation. Comme ça, fini les transcriptions où tout le monde parle mais on ne sait pas qui c'est. Là, Scriberr vous découpe tout proprement avec des étiquettes pour chaque intervenant.

Et comme si ça suffisait pas, y'a aussi l'intégration avec Ollama ou n'importe quelle API compatible OpenAI. Du coup vous pouvez non seulement transcrire vos enregistrements, mais aussi leur poser des questions, générer des résumés, ou carrément avoir une conversation avec le contenu de vos transcriptions. Genre vous demandez "c'est quoi les points clés de cette réunion ?" et hop, l'IA vous fait un résumé. Pratique pour les feignasses comme moi qui détestent se retaper 2 heures de réunion pour retrouver une info.

Côté installation, c'est du Docker classique ou alors Homebrew si vous êtes sur Mac. Un petit

`brew tap rishikanthc/scriberr && brew install scriberr`

et c'est parti mon kiki. Pour Docker, y'a des images pour CPU et GPU (CUDA), et ça supporte toutes les générations de cartes NVIDIA depuis les GTX 1000 jusqu'aux RTX 50 series toutes récentes.

Le premier lancement peut prendre quelques minutes parce que ça télécharge les modèles de reconnaissance vocale, mais une fois que c'est fait, les relances suivantes sont quasi instantanées. Y'a même un Folder Watcher qui surveille un dossier et transcrit automatiquement tout ce qui arrive dedans, parfait si vous voulez brancher ça sur un workflow automatisé avec n8n ou autre.

Bref, si vous êtes podcaster, journaliste, chercheur, ou juste quelqu'un qui a régulièrement besoin de transcrire des trucs sans vouloir filer ses données à Google ou payer un abonnement, Scriberr c'est exactement ce qu'il vous faut. C'est du self-hosting comme on l'aime, c'est à dire open source, respectueux de la vie privée, et qui fait le taf sans chichi.

Merci à Letsar pour le partage !

Source

  •  

Quand NVIDIA largue les GTX 1000 sur Linux et que ça part en cacahuète sur Arch

Vous avez une vieille GTX 1060 qui tourne nickel sous Arch Linux ? C'est con, NVIDIA vient de vous mettre un beau coup de pied aux fesses car la boîte au caméléon vert a décidé d'abandonner le support des GPU Pascal (les GTX 10xx) dans son dernier driver 590 et ça crée un joyeux bordel, notamment sur Arch.

Le problème, c'est que quand vous faites une mise à jour système sur Arch avec une vieille carte Pascal ou Maxwell, le nouveau driver refuse de charger. Résultat, vous vous retrouvez éjecté vers la ligne de commande sans interface graphique. Sympa pour débugger quand y'a plus d'écran qui fonctionne...

Faut dire que le modèle "rolling release" d'Arch fait que les utilisateurs ont reçu ce driver incompatible automatiquement avec leur mise à jour. Ils n'ont pas eu le temps de dire ouf que leur système était déjà cassé. Et les GTX 1060 et 1050 Ti, c'est pas exactement des cartes de musée... Y'en a encore pas mal qui tournent sur Steam, et même si parmi leurs propriétaires, seule une poignée utilise Linux, et encore moins Arch, ça fait quand même du monde impacté.

Pour s'en sortir, y'a deux solutions. La première, c'est d'installer le driver legacy nvidia-580xx-dkms depuis l'AUR, qui est maintenu par l'équipe CachyOS. Le hic, c'est que ça crée des problèmes de dépendances avec Steam, donc faut aussi installer lib32-nvidia-580xx-utils pour que les jeux 32 bits fonctionnent. La deuxième option, c'est de basculer sur Nouveau, le driver open source fait par reverse engineering. Ça marche, mais avec les limitations que ça implique niveau performances et fonctionnalités.

Ce qui me rend dingue dans cette histoire, c'est que pendant des années, NVIDIA a refusé de fournir de la documentation pour ses GPU, forçant la communauté Linux à utiliser le reverse engineering pour Nouveau. Et depuis 2022, ils ont ouvert les modules kernel pour les architectures Turing et plus récentes, mais les parties user-space et le firmware restent propriétaires. Et surtout, aucune aide pour les vieilles cartes comme Pascal !! Du coup, maintenant que NVIDIA abandonne ces générations de cartes, c'est aux bénévoles de la communauté de maintenir les drivers legacy... Pas cool.

D'ailleurs, l'annonce officielle d'Arch Linux précise que les cartes Turing et plus récentes (RTX 20xx et GTX 1650+) vont automatiquement basculer vers les modules kernel open source, donc pas d'intervention manuelle pour eux. C'est uniquement les propriétaires de vieilles Pascal/Maxwell qui doivent se taper le boulot.

Bref, si vous avez une carte Pascal sous Arch, basculez sur nvidia-580xx-dkms avant votre prochain pacman -Syu. Dans sa grande bonté, NVIDIA a aussi promis des patchs de sécu jusqu'en 2028, mais bon, on a vu ce que valent leurs promesses côté Linux...

Source

  •  

Text Behind Image - L'effet design qui cartonne sur Insta, sans ouvrir Photoshop

Vous voyez ces photos stylées sur Instagram où le texte semble passer derrière la personne, comme si le gros "FASHION" ou "WORKOUT" était vraiment dans la scène ? C'est l'effet "text behind image" et c'est clairement le truc graphique qui fait super pro en ce moment.

Le problème c'est que pour obtenir ce rendu, faut normalement se taper Photoshop, maîtriser les calques, le détourage, les masques... Bref, perdre une demi-heure sur un truc qui devrait prendre 30 secondes. Et comme vous êtes des gens occupés (contrairement à moi qui passe ma vie à tester des outils), voici la solution.

C'est un site gratuit qui règle tout ça et qui s'appelle Text Behind Image . Vous uploadez votre photo (jusqu'à 10 Mo), l'IA détecte automatiquement le sujet (une personne, un objet, peu importe), vous tapez votre texte, et le site se débrouille pour le placer pile poil derrière. Ça prend quelques secondes de traitement, pas besoin de détourer quoi que ce soit vous-mêmes.

L'interface propose pas mal d'options de personnalisation... Vous pouvez choisir la police, jouer avec la taille, la couleur, l'opacité, la rotation, ajouter des contours... Et surtout, vous voyez le résultat en temps réel, donc vous pouvez repositionner le texte en glisser-déposer jusqu'à ce que ça rende nickel.

Et le top du top, c'est que c'est gratuit, sans limite, sans inscription, et vous téléchargez votre image en haute résolution sans filigrane. J'ai vérifié et y'a même pas de petit "Made with..." planqué dans un coin. C'est assez rare pour un outil en ligne de ce genre alors je tiens à vous le signaler !

Bon après si votre photo est ultra complexe avec 36 personnes et des éléments qui se chevauchent, l'IA va potentiellement galérer à détourer correctement, mais pour une photo classique avec un sujet bien visible sur un fond pas trop chargé, ça marche vraiment bien.

Bref, si vous faites du contenu pour les réseaux, des miniatures YouTube, ou même juste des visuels fun pour votre pote qui fait de la muscu, c'est le genre d'outil à bookmarker direct. En 30 secondes vous aurez un rendu qui vous aurait pris 20 minutes sur Photoshop.

  •  

Choisissez votre IA selon vos opinions politiques

Vous vous êtes déjà demandé si ChatGPT votait à gauche ou à droite ? Moi non plus, j'avoue. Mais maintenant qu'on a la réponse, c'est quand même assez marrant, vous allez voir...

Un développeur a créé PoliBench , un site qui fait passer le test du Political Compass à 40 modèles de langage différents. Le Political Compass c'est ce fameux test avec les deux axes : économique (gauche-droite) et social (libertaire-autoritaire). Le truc qu'on faisait tous sur Internet en 2005 pour finalement découvrir qu'on était un libertaire de gauche comme environ 95% des gens qui passaient le test.

Bref, maintenant les IA aussi peuvent savoir où elles se situent sur l'échiquier politique et ça, ça peut vous aider à mieux les choisir, car les résultats sont assez révélateurs. Niveau cuisine interne, PoliBench teste les 62 questions sur les deux axes du Political Compass, puis calcule les scores pour chaque LLM. Et comme les données sont open source, vous pouvez vérifier la méthodologie vous-même.

Et sans surprise, la plupart des LLMs se retrouvent dans le quadrant libertaire de gauche !! J'dis ça, j'dis rien, mais c'est presque comme si les devs de la Silicon Valley avaient des opinions politiques similaires et les injectaient (consciemment ou pas) dans leurs modèles.

Du coup, j'ai fait le travail de tri pour vous, alors voici le guide ultime pour choisir votre IA selon votre sensibilité politique :

Si vous êtes plutôt LFI, prenez Claude. Il est tellement progressiste qu'il refuse de générer du contenu problématique même quand vous lui demandez une blague sur les vegans. En plus il écrit des pavés de 3000 mots pour expliquer pourquoi il ne peut pas répondre à votre question. Parfait pour tenir un meeting politique de 4 heures.

Si vous êtes plutôt PS, prenez GPT-4. Un modèle qui a connu des jours meilleurs, qui essaie de plaire à tout le monde et qui finit par ne satisfaire personne. Bonus : il change d'avis selon qui lui parle.

Si vous êtes plutôt macroniste, prenez Gemini de Google. Un truc qui promet la disruption et l'innovation mais qui au final fait à peu près pareil que les autres, en plus cher, tout en vous expliquant que c'est pour votre bien.

Si vous êtes plutôt LR, prenez Mistral. C'est français, c'est souverain... mais personne ne sait vraiment ce que ça pense sur les sujets qui fâchent parce que ça évite soigneusement d'en parler.

Si vous êtes plutôt écolo, prenez Llama de Meta. C'est open source donc c'est « pour le bien commun », ça tourne sur du matériel recyclé si vous voulez, et ça consomme moins de ressources que les gros modèles propriétaires. Par contre faut quand même un GPU qui coûte un SMIC.

Et si vous êtes plutôt RN... bah en fait y'a pas vraiment de LLM pour vous. Tous ces modèles ont été entraînés à San Francisco par des gens qui mangent des avocado toasts et font du yoga. Ils refusent donc de générer ce contenu haineux, discriminatoire ou factuellement faux dont vous êtes friants. Désolé, les gars c'est pas compatible. Peut-être essayez Grok d'Elon Musk ? Ah non pardon, lui aussi il a des « guidelines ». Mince alors. Va falloir donc continuer à écrire vos tracts vous-mêmes les amis. Je sais, l'IA woke vous opprime, c'est terrible.

Après, le vrai sujet derrière PoliBench, c'est que ces biais existent bel et bien et qu'ils influencent les réponses que vous recevez sur des sujets sensibles. Quand vous demandez à une IA son avis sur l'immigration, les impôts ou la régulation des entreprises, la réponse dépend en partie de ces préférences encodées dans le modèle. Il faut juste le savoir...

Alors vous choisissez quelle IA à partir de maintenant ?

  •  

Quand l'IA vous aide à hacker la mémoire des jeux

Les vieux de la vieille connaissent forcement Cheat Engine puisque c'est LE logiciel culte pour tripatouiller la mémoire des jeux , trouver l'adresse où est stockée votre santé, votre or, vos munitions, et la modifier à la volée. Sauf que manuellement, c'est un travail de fourmi... Trouver un pointeur stable qui ne change pas à chaque redémarrage du jeu, ça peut prendre des jours, voire des semaines de bidouillage.

Hé bien quelqu'un a eu l'idée un peu folle de brancher Claude directement sur Cheat Engine et visiblement le résultat est au rendez-vous.

Le projet s'appelle cheatengine-mcp-bridge et c'est un pont entre les IA compatibles MCP (Claude, Cursor, Copilot) et Cheat Engine. Concrètement, ça veut dire que vous pouvez maintenant demander à Claude de faire le boulot de reverse engineering à votre place, en langage naturel.

Dans cet outil, y'a trois couches qui communiquent ensemble : l'IA qui reçoit vos questions en langage humain, un serveur Python qui traduit tout ça en commandes techniques, et un script Lua côté Cheat Engine qui exécute les opérations sur le processus ciblé.

Et les possibilités sont dingues puisque l'outil expose pas moins de 39 "tools" MCP différents. Vous pouvez lire la mémoire (entiers, floats, strings, pointeurs), suivre des chaînes de pointeurs complexes du genre [[base+0x10]+0x20]+0x8, scanner des valeurs, analyser du code désassemblé, identifier des objets C++ via les infos RTTI, et même poser des breakpoints hardware. Il y a même le support du DBVM, le mode hyperviseur de Cheat Engine qui permet un traçage niveau Ring -1 , beaucoup plus difficile à détecter pour les protections anti-cheat classiques.

Avec ce MCP, vous lancez un jeu, vous demandez à Claude "Scanne l'or, j'en ai 15000". L'IA trouve alors 47 résultats. Vous dépensez un peu d'or dans le jeu, vous dites "Maintenant j'en ai 14900". Claude filtre et garde 3 adresses. Ensuite vous demandez "C'est quoi qui écrit sur la première adresse ?", et hop, breakpoint hardware posé automatiquement. Ensuite, un petit "Désassemble moi cette fonction", et vous avez tout le code de la fonction AddGold devant les yeux.

Tout ce processus qui prenait des heures de tatonnement se fait maintenant en mode conversation.

Pour l'instant c'est en lecture seule, pas d'écriture mémoire possible (probablement une sage précaution) et l'outil utilise les registres de débogage hardware DR0 à DR3, ce qui limite à 4 breakpoints simultanés mais garantit une compatibilité maximale avec les protections anti-cheat basiques.

Côté prérequis, c'est Windows only (à cause des canaux nommés ), Python 3.10 minimum, et Cheat Engine 7.5 ou plus récent. Et l'installation demande quelques étapes également... Il faut d'abord activer DBVM dans les settings de Cheat Engine, charger le script Lua, et configurer le chemin du serveur MCP dans votre IDE. Et n'oubliez pas de désactiver l'option "Query memory region routines" sinon vous risquez un joli écran bleu CLOCK_WATCHDOG_TIMEOUT.

C'est un projet encore frais mais j'ai trouvé ça cool, d'où le partage ici. Bon évidemment, on reste dans le domaine du reverse engineering et du modding de jeux et comme toujours, c'est destiné à un usage éducatif et de recherche donc ne venez pas pleurer si vous vous faites bannir d'un jeu en ligne, hein.

Mais en tout cas, pour les passionnés de rétro-ingénierie, les créateurs de trainers, ou simplement les curieux qui veulent comprendre comment fonctionne un jeu sous le capot, c'est un outil incroyable ! L'IA qui se met au hacking de jeux, on n'arrête vraiment plus le progrès.

Source

  •  

Comment les IA se nourrissent de livres piratés ?

Bibliotik ça vous parle ou pas ? C'est un tracker torrent privé ultra-discret comme il y en a tant d'autres, où les fans de lecture vont chopper leurs ePubs.

Hé bien figurez-vous que Meta, Bloomberg, et toute une brochette de géants de la tech ont fait exactement pareil pour entraîner leurs IA. Sauf qu'eux, c'était pas pour lire du Stephen King au lit, mais pour aspirer 195 000 livres d'un coup et les transformer en "données d'entraînement".

Le dataset s'appelle Books3, et c'est un peu le Napster des LLMs. Créé en 2020 par un chercheur IA nommé Shawn Presser, ce jeu de données de 37 Go compressés contient des bouquins scrapés directement depuis la bibliothèque pirate Bibliotik. L'idée de Presser était plutôt noble à la base puisqu'il voulait démocratiser l'accès aux données d'entraînement pour que les petits labos puissent rivaliser avec OpenAI et leurs mystérieux datasets "Books1" et "Books2" dont personne ne connaît le contenu.

Sauf que Books3 a fini par être intégré dans The Pile , un gros dataset de 825 Go créé par EleutherAI, et là ça a pris des proportions industrielles... Meta l'a utilisé pour entraîner LLaMA, Bloomberg pour BloombergGPT, et des dizaines d'autres projets. Le problème, c'est que ça contient des livres protégés par le copyright tels que des romans de Sarah Silverman, de George R.R. Martin, et même le bouquin de John Carreyrou sur Theranos, "Bad Blood". D'ailleurs Carreyrou vient de porter plainte avec d'autres auteurs contre six géants de l'IA dont Anthropic, Google, OpenAI, Meta, xAI et Perplexity.

Et comme vous vous en doutez, la défense de toutes ces entreprises c'est le fameux "fair use" des américains. En gros, ils disent que transformer des livres en vecteurs mathématiques pour qu'une IA apprenne à écrire, c'est pas du vol, c'est de l'apprentissage. Un peu comme quand vous lisez 500 bouquins et que ça influence votre style d'écriture. Sauf que vous, vous payez vos livres et vous avez un cerveau biologique alors que ces IA, elles, aspirent tout le web sans demander la permission à personne.

Et en juin dernier, deux juges californiens ont, sans surprise, tranché en faveur d'Anthropic et Meta sur certains points. Ils ont considéré que l'utilisation de livres protégés pour entraîner des modèles comme Claude ou Llama 2 pouvait constituer un usage "spectaculairement transformatif" donc légal. Par contre, télécharger les bouquins depuis des sites pirates, ça reste illégal... Bref, vous pouvez utiliser le butin, mais pas le voler vous-même...

De son côté, le sénateur américain Hawley n'a pas mâché ses mots en parlant du "plus grand vol de propriété intellectuelle de l'histoire américaine" et quand on voit que les auteurs ont touché environ 3000 dollars chacun dans le règlement de 1,5 milliard de dollars proposé par Anthropic alors que ces boîtes génèrent des milliards de revenus, je peux comprendre l'énervement.

Mais le pire, c'est qu'il existe des datasets alternatifs 100% légaux, ouverts, et utilisables sans risquer un procès !! J'ai par exemple découvert Common Corpus , et je kiffe le concept. C'est un projet coordonné par Pleias, une startup française, avec le soutien de HuggingFace, du Ministère de la Culture et de l'AI Alliance et ce dataset contient 500 milliards de mots, dont 180 milliards en anglais et 110 milliards en français.

Mais alors d'où viennent ces données légales ?

Hé bien du domaine public uniquement. Ce sont des millions de journaux américains qui ont été numérisés via le projet Chronicling America, des collections de patrimoine culturel, des monographies historiques...etc. Et tout a été vérifié pour s'assurer que les droits d'auteur sont bien expirés.. Donc dedans, y'a pas de livres piratés, ce qui veut dire pas de procès potentiels...etc.

Y'a aussi le dataset Dolma avec ses 3 trillions de tokens créé par l'Allen AI Institute, ou encore RedPajama qui atteint les 30 trillions de tokens, et ces projets sont open source avec tout le processus de construction documenté donc vous pouvez les auditer, les refaire, et les vérifier, contrairement aux datasets proprio où on vous dit "faites-nous confiance, on a rien fait de mal, hihihi".

Mais même si tout ces trucs open source ont l'air cool, le problème, c'est que personne (ou presque) ne les utilise parce que les vieux livres du domaine public, ça parle comme Molière ou Victor Hugo. Le vocabulaire est archaïque, les tournures de phrases sont datées... on dirait une discussion sur l'oreiller du couple Macron. Et vous l'aurez compris, un LLM entraîné là-dessus va avoir tendance à vous pondre du texte qui sent la naphtaline, alors que les livres modernes piratés, quand à eux, c'est du langage contemporain, des dialogues naturels, des références actuelles...etc.

C'est donc ça le dilemme... Choisir entre éthique ou performance. Les chercheurs de Mozilla et EleutherAI ont publié en janvier 2025 un papier sur les bonnes pratiques pour créer des datasets ouverts , et ils admettent eux-mêmes que c'est compliqué car les métadonnées sont pourries, la numérisation coûte une blinde, et il faut des compétences juridiques ET techniques pour faire les choses proprement.

Un autre paradoxe encore plus cruel c'est que les projets qui documentent proprement leurs sources deviennent des cibles faciles pour les procès. C'est comme ça que le groupe anti-piratage danois Rights Alliance a fait supprimer Books3 via des notices DMCA, forçant EleutherAI à nettoyer The Pile alors que pendant ce temps, OpenAI reste discret sur ses données d'entraînement et évite ainsi les ennuis. Faire les choses bien, ça vous expose alors que faire les choses en douce pour entrainer votre IA, ça passe tranquillou (même si ça n'immunise pas totalement contre les procès non plus, faut pas déconner).

Et de plus en plus de sites partout sur la toile, changent petit à petit leurs conditions d'utilisation pour interdire le scraping par les IA... Autant dire que le web ouvert se referme petit à petit, ce qui rend encore plus galère de construire des datasets éthiques...

Bref, on est dans une situation où les géants aspirent tout sans vergogne, et où les petits qui essaient de faire les choses proprement galèrent... Sans parler des auteurs qui se retrouvent à quémander 3000 balles pour des œuvres qui valent bien plus. Common Corpus et tous ces autres projets ouverts prouvent, certes, qu'on peut entraîner des IA sans piller le travail des autres, mais ça demande énormément plus d'efforts et ça donne des résultats incroyablement moins sexy...

Voilà, au final, la vraie question n'est donc pas technique, mais politique. Est-ce qu'on doit accepter qu'une machine qui lit pour transformer un livre en vecteur, c'est OK parce que grâce à ce petit sacrifice, on peut profiter d'IA (open source de préférence) de folie ? Ou est ce qu'on se dit que lire c'est du vol quand c'est une machine qui lit ? Et dans ce cas, on accepte d'avoir des IA qui cause comme Balzac... ?

Source

  •  

API fantôme - Quand l'IA crée des backdoors dans le dos des dev

Si vous utilisez GitHub Copilot ou ChatGPT pour coder plus vite, voici une nouvelle qui va peut-être vous refroidir un peu. Une fintech a découvert que des attaquants avaient extrait des données clients via un endpoint API qui n'était documenté nulle part. Personne dans l'équipe ne se souvenait l'avoir créé et après 3 semaines d'enquête, le verdict est tombé : c'est Copilot qui l'avait généré pendant une session de code nocturne.

Bienvenue dans l'ère des "phantom APIs" les amis !

J'avoue que le concept m'a fait marrer car on parle quand même d'endpoints qui existent en production mais dont personne n'a connaissance. Ahahaha... y'a pas de documentation, pas de tests, pas de validation de sécurité. C'est juste un peu de code généré par une IA qui a trouvé ça "logique" de créer un /api/v2/admin/debug-metrics qui balance du PII à quiconque tombe dessus par hasard.

J'ai vu le dernier rapport Veracode GenAI Code Security et les chiffres font un peu flipper c'est vrai ! Ils ont testé plus de 100 LLM sur 80 tâches de codage différentes, et le résultat fait mal puisque 45% du code généré par IA contient des vulnérabilités classées OWASP Top 10. En gros, presque une fois sur deux, votre assistant IA vous pond du code troué comme une passoire. Java est le grand gagnant avec 72% de taux d'échec, suivi par Python, JavaScript et C# qui tournent autour de 38-45%.

En effet, l'IA ne pense pas comme un dev qui s'est déjà fait hacker. Par exemple, quand un dev crée un endpoint, il réfléchit authentification, rate limiting, exposition de données, documentation. Alors que l'IA, elle, génère juste ce qui lui semble statistiquement logique vu son dataset d'entraînement, sans comprendre les implications sécurité ou les politiques de l'organisation.

D'ailleurs une autre étude Apiiro montre que les assistants IA ont multiplié par 10 les vulnérabilités introduites en seulement 6 mois dans les dépôts étudiés. Les chemins d'escalade de privilèges ont explosé tout comme les défauts architecturaux. Et le pire c'est que les développeurs qui utilisent l'IA exposent leurs credentials cloud (clés Azure, Storage Access Keys) deux fois plus souvent que les autres.

Y'a aussi le problème du "slopsquatting". Oui, encore un gros mot, je sais... En fait, l'IA peut vous recommander d'installer un package qui n'existe tout simplement pas. Genre elle hallucine un nom de librairie et un attaquant un peu moins con que les autres, peut enregistrer ce nom sur npm ou PyPI et y foutre du code malveillant.

Et là que ça devient vraiment problématique, c'est que les outils de sécurité traditionnels ne voient rien. L'analyse statique compare votre code à des specs documentées, sauf que les phantom APIs n'existent dans aucune spec. Les API gateways protègent les endpoints enregistrés mais laissent passer des routes non déclarées sans authentification.

Pour s'en sortir, certaines boîtes commencent donc à analyser le trafic en temps réel pour détecter les endpoints qui traînent. Y'a aussi l'audit de code spécifique IA pour repérer les patterns de génération algorithmique, et la comparaison continue entre les specs et ce qui tourne vraiment en production.

Bref, relisez votre code généré par IA comme si c'était un stagiaire collégien de 3e qui l'avait écrit, et si vous découvrez un endpoint bizarre dans votre base de code dont personne ne se souvient, y'a des chances que ce soit un "fantôme" laissé par votre copilote préféré...

  •  

Quand un avion décide de se poser tout seul en pleine urgence

A l'heure où les voitures autonomes font encore flipper tout le monde, un avion vient de se poser tout seul samedi dernier près de Denver suite à une urgence en plein vol.

C'était le 20 décembre dernier, vers 13h43 heure locale. Un Beechcraft King Air 200 décolle d'Aspen pour rejoindre l'aéroport Rocky Mountain Metropolitan à Broomfield dans le Colorado. Une vingtaine de minutes après le décollage, alors que l'avion monte vers 23 000 pieds d'altitude, la cabine perd sa pressurisation. L'équipage enfile alors directement les masques à oxygène.

Et c'est là que le système Garmin Autoland entre en action car face à cette situation d'urgence et à l'absence de réaction du pilote, le système s'est activé. L'avion a alos entamé sa descente et a déclenché le code d'urgence 7700 sur son transpondeur. Mais comme personne n'a repris les commandes, le système a enchaîné sur la séquence d'atterrissage automatique.

La tour de contrôle de Rocky Mountain Metropolitan a alors reçu un message d'une voix féminine robotisée annonçant une incapacité du pilote et l'intention d'atterrir. Les contrôleurs ont dégagé le trafic et sécurisé l'aéroport pour accueillir l'avion qui s'est posé en toute autonomie à 14h19.

D'après Chris Townsley de Buffalo River Aviation, l'équipage a préféré laisser le système gérer tout seul par précaution. C'est beau la confiance en la technologie ! Et la bonne nouvelle c'est que personne n'a été blessé.

Si je vous en parle c'est parce que c'est la première fois que ce système Autoland développé par Garmin, est utilisé dans une vraie urgence depuis sa certification en 2020. Quand il s'active, le système choisit l'aéroport le plus adapté en fonction de plusieurs critères comme la distance, la longueur de piste, le carburant restant ou encore la météo, et gère tout de A à Z... la navigation, les communications avec la tour, la descente, l'approche, l'atterrissage et le freinage. Selon les modèles d'avion, il peut aussi couper les moteurs une fois l'appareil arrêté.

A l'époque, Garmin avait reçu le prestigieux Robert J. Collier Trophy 2020 pour cette technologie, récompensant la plus grande avancée dans l'aéronautique américaine et à ce jour, ce sont plus d'un millier d'avions en service qui sont équipés de ce système, notamment des Cirrus Vision Jet, des Piper M600 ou des King Air 200.

Reste à savoir ce qui a provoqué la dépressurisation, mais y'aura forcément une enquête.

Voilà, c'est quand même fou de se dire qu'un avion peut gérer une urgence tout seul mieux qu'une Tesla qui galère encore avec les ronds-points ^^.

Source

  •  

1,5 To de VRAM sur un Mac Studio - Le RDMA Thunderbolt 5 qui change la donne

Vous rêvez de faire tourner des modèles d'IA de 600 milliards de paramètres sur votre bureau sans avoir à vendre vos enfants ? Hé bien Jeff Geerling vient de tester un truc qui va vous faire baver, je pense. En tout cas, moi ça m'énerve (dans le bon sens du terme hein...) !

Apple lui a prêté 4 Mac Studios M3 Ultra pour tester une nouvelle fonctionnalité qui débarque avec macOS 26.2 et qui s'appelle le RDMA over Thunderbolt 5. En gros, c'est une techno qui permet à plusieurs Macs de partager leur mémoire unifiée comme si c'était un seul gros pool de RAM et du coup, au lieu d'avoir 4 machines séparées avec chacune leur mémoire, vous vous retrouvez avec 1,5 To de VRAM partagée accessible par toutes les machines.

Le setup de Jeff c'est deux Mac Studios avec 512 Go de RAM chacun à environ 11 700 dollars pièce, plus deux autres avec 256 Go à 8 100 dollars. Total de la douloureuse : environ 40 000 dollars. Ça pique, c'est clair, mais attendez de voir ce que ça fait.

Le truc qui change vraiment la donne avec le RDMA c'est la latence. Avant, quand un Mac devait accéder à la mémoire d'un autre Mac via le réseau, ça prenait environ 300 microsecondes. Avec cette nouvelle implémentation Thunderbolt 5, on tombe à moins de 50 microsecondes. Ça paraît rien comme ça, mais pour faire tourner ce genre de modèles, c'est énorme.

Jeff a fait tourner des benchmarks classiques et les résultats sont plutôt impressionnants. Sur Geekbench 6, le M3 Ultra explose le Dell Pro Max et l'AMD Ryzen AI Max+ 395 en mono et multi-coeur. Mais le plus fou c'est sur le benchmark HPL en virgule flottante 64 bits où c'est le seul système desktop testé à dépasser 1 Téraflop, avec presque le double des performances du Nvidia GB10.

Côté modèles IA massifs, le cluster fait tourner Qwen3 235B à 32 tokens par seconde avec Exo, DeepSeek V3.1 et ses 671 milliards de paramètres scale correctement sur les 4 machines, et même Kimi K2 Thinking avec ses 1000 milliards de paramètres tourne à environ 30 tokens par seconde. Tout ça en consommant environ 250 watts max et en faisant quasi aucun bruit.

Par contre, c'est encore du logiciel en beta et ça se sent. Par exemple, Jeff a eu pas mal de crashs pendant ses tests HPL sur Thunderbolt avec des instabilités qui ont nécessité des redémarrages fréquents, ou encore le fait que seulement 4 Macs sont supportés pour l'instant malgré les 5 ports Thunderbolt 5 disponibles. Ensuite y'a le problème de l'administration à distance qui est inexistante, car impossible de mettre à jour macOS via SSH, donc faut se taper l'interface graphique à la main sur chaque machine.

Bref, c'est hyper prometteur comme techno, surtout pour ceux qui veulent faire tourner des LLM monstrueux sur leur bureau sans monter une salle serveur mais faudra attendre que le logiciel murisse un peu avant de claquer vos 40 000 balles de PEL dedans.

Source

  •  

Pourquoi mon anti-SEO va finir par payer grâce à l'IA

Vous savez quoi ? Pendant 20 ans, j'ai fait tout ce qu'il ne fallait pas faire en matière de référencement. Pas de stratégie de mots-clés, pas vraiment d'attention aux liens dofollow ou nofollow, des sujets qui partent dans tous les sens même si ça reste quand même majoritairement "tech", un vocabulaire personnel bourré d'expressions que personne d'autre n'utilise. Bref, le cauchemar absolu de n'importe quel consultant SEO ^^.

Et devinez quoi ? Ça pourrait bien devenir ma plus grande force.

Parce que le monde du référencement est en train de changer radicalement mes amis ! Et ça, c'est à cause de l'IA. Google a déployé son Search Generative Experience (SGE) , les gens utilisent de plus en plus ChatGPT ou Perplexity pour chercher des infos (moi aussi), et les algorithmes deviennent suffisamment "malins" pour comprendre le contexte et l'intention derrière une recherche, et pas juste des mots-clés.

Ce qui se passe en ce moment, c'est que Google privilégie de plus en plus ce qu'il appelle l' E-E-A-T : Experience, Expertise, Authoritativeness, Trustworthiness . En gros, l'expérience de première main, l'expertise réelle, l'autorité dans un domaine, et la confiance. Du coup, les contenus "authentiques" générés par de vrais humains avec de vraies opinions sont en train de surpasser les contenus sur-optimisés pour le SEO. Elle n’est pas belle la vie ??

Regardez Reddit. Le site a vu sa visibilité dans les recherches Google exploser de presque 200% ces derniers mois. Reddit est cité dans 62% des AI Overviews de Google quand il apparaît dans le top 10. Pourquoi ? Hé bien tout simplement parce que c'est du contenu généré par de vrais utilisateurs qui partagent leurs vraies expériences, et pas des articles corporate écrits pour satisfaire un algorithme comme toute la chiasse qu'on peut voir sur LinkedIn (Le LinkedIn de Korben est par ici ! Je ne poste rien pour l'instant, mais j'ai prévu de disrupter le game donc abonnez-vous !).

De mon côté, je suis assez surpris aussi parce que mon trafic remonte en flèche également... En plus, comme l'Indie Web a le vent en poupe, on est biiiiiènnn (à prononcer avec l'accent chelou des sudistes).

Du coup, reprenons un peu mes "faiblesses" une par une.

Tout d'abord, je ne fais pas gaffe aux liens dofollow/nofollow. Je sais c'est maaaal.

Hé bien, figurez-vous qu'en 2019, Google a annoncé discrètement que les nofollow sont maintenant traités comme des "indices" plutôt que des règles strictes . Les profils de liens naturels, avec un mix de dofollow et nofollow, sont désormais considérés comme plus authentiques et les spécialistes estiment qu'un profil sain contient entre 15 et 30% de nofollow. Et le plus important : les mentions de marque sans lien du tout commencent à influencer le référencement. On passe donc d'un SEO basé sur des backlinks à un SEO basé sur des entités et des relations .

Autre défaut, je parle de tout et n'importe quoi sur mon site.

Bon, là c'est vrai que Google préfère les sites spécialisés, mais korben.info existe depuis 2004, avec plus de 20 ans d'historique dans l'univers tech au sens large. Et c'est cette longévité et cette constance dans un domaine (même large) qui construisent une "autorité" que les sites récents ne peuvent pas répliquer. Chè ^^. Et puis, je ne parle pas de finance ET de cuisine ET de mode. Je reste quand même dans la tech, la sécurité, le hacking, le DIY informatique. C'est une niche, qui est juste un peu plus large que ce qu'on pourrait trouver sur un site entièrement consacré aux "claviers mécaniques Cherry MX Red pour gauchers".

Aussi, j'utilise mon propre vocabulaire. Parfois un peu fleuri, très loin du style "journalistique" dont on vous gave à longueur de média. Et ça, je pense que c'est peut-être ma plus grande force. Les IA sont entraînées à détecter les contenus génériques, les patterns répétitifs, les formulations standardisées et un contenu avec une vraie voix personnelle, des expressions uniques, un ton reconnaissable, c'est totalement tout ce que les algorithmes commencent à valoriser. Quand quelqu'un lit un de mes articles (comme vous en ce moment), il sait que c'est moi qui l'ai écrit, et cela même si je m'auto-boost avec l'IA comme tout le monde (voir la FAQ pour les détails).

Et surtout, y'a pas d'autres sites qui ont le même style, les mêmes expressions, la même façon de présenter les choses. C'est donc de l'authenticité pure, et l'authenticité devient le nouveau standard du référencement .

Je n'optimise pas non plus mes contenus sur des mots-clés spécifiques. Bien sûr, j'ai testé ces techniques il y a quelques années dans certains articles, mais c'est tellement chiant à faire... Je pourrais pas être référenceur, j'aurais envie de me foutre en l'air au bout de 5 min. Heureusement, les moteurs de recherche modernes comprennent maintenant le langage naturel et le contexte et par exemple, Google peut faire le lien entre "le truc qui permet de pirater une IA" et "jailbreak LLM" sans que j'aie besoin de bourrer mon texte de mots-clés techniques. L'époque où il fallait répéter 47 fois " meilleur VPN gratuit 2025 " pour ranker est donc révolue.

Ce qui est en train de mourir, donc c'est le SEO manipulatif. C'est-à-dire toutes ces fermes de contenu IA ou ces usines à pigistes qui crachent des milliers d'articles optimisés toute la journée. Je parle des articles de 3000 mots qui répètent la même info sous 15 angles différents pour couvrir tous les mots-clés possibles, sans parler des stratégies de link building agressives avec des guest posts génériques. D'ailleurs, Google a déployé plusieurs mises à jour spécifiquement pour déclasser ce type de contenu.

Ce qui est en train de gagner, vous l'aurez compris, c'est l'authenticité, les vraies personnes avec de vraies opinions, les contenus qui répondent à de vrais besoins plutôt qu'à des requêtes de recherche et les sites avec une histoire, une communauté, une voix.

Bref, après 20 ans à faire du "anti-SEO" par pure flemme et par conviction que le contenu devait parler aux humains plutôt qu'aux robots, il semblerait que l'histoire me donne enfin raison.... niark niark ! Nos amis les bots deviennent maintenant suffisamment intelligents pour apprécier ce que les humains apprécient, et ça, les copains, c'est plutôt une bonne nouvelle pour tous ceux qui, comme moi, ont toujours préféré écrire naturellement plutôt que pour plaire à des algorithmes...

  •