Scriberr - La transcription IA qui reste chez vous

28 décembre 2025 à 17:25

Vous avez déjà fait transcrire une interview ou un podcast par un service en ligne ? Vous savez, ces trucs qui vous demandent de créer un compte, de filer votre carte bleue, et d'accepter que vos fichiers audio soient envoyés sur des serveurs quelque part dans le cloud américain pour être analysés par des IA qu'on ne connaît pas. Le tout pour 100 balles par an si vous avez de la chance, et beaucoup plus si vous dépassez le quota ridicule de 20 heures par mois...

Hé bien y'a une alternative qui va vous plaire : Scriberr ! C'est une app de transcription audio complètement open source et surtout, qui tourne 100% en local sur votre machine. Pas de cloud, pas de données qui se baladent, pas d'abonnement mais juste vous, avec votre serveur (ou votre laptop si vous avez un GPU correct), et vos fichiers audio qui restent bien au chaud chez vous.

Scriberr utilise des modèles de reconnaissance vocale de pointe comme NVIDIA Parakeet, Canary ou les fameux modèles Whisper. Du coup la qualité de transcription est vraiment au niveau des services payants, voire meilleure sur certains accents ou langues moins courantes. Et cerise sur le gâteau, vous avez l'alignement temporel au niveau du mot, ce qui veut dire que vous pouvez savoir exactement à quelle seconde chaque mot a été prononcé.

Mais le truc qui m'a vraiment tapé dans l’œil avec cet outil, c'est la détection automatique des locuteurs. Vous savez, cette fonctionnalité qu'on appelle "diarization" dans le jargon et qui permet d'identifier qui dit quoi dans une conversation. Comme ça, fini les transcriptions où tout le monde parle mais on ne sait pas qui c'est. Là, Scriberr vous découpe tout proprement avec des étiquettes pour chaque intervenant.

Et comme si ça suffisait pas, y'a aussi l'intégration avec Ollama ou n'importe quelle API compatible OpenAI. Du coup vous pouvez non seulement transcrire vos enregistrements, mais aussi leur poser des questions, générer des résumés, ou carrément avoir une conversation avec le contenu de vos transcriptions. Genre vous demandez "c'est quoi les points clés de cette réunion ?" et hop, l'IA vous fait un résumé. Pratique pour les feignasses comme moi qui détestent se retaper 2 heures de réunion pour retrouver une info.

Côté installation, c'est du Docker classique ou alors Homebrew si vous êtes sur Mac. Un petit

`brew tap rishikanthc/scriberr && brew install scriberr`

et c'est parti mon kiki. Pour Docker, y'a des images pour CPU et GPU (CUDA), et ça supporte toutes les générations de cartes NVIDIA depuis les GTX 1000 jusqu'aux RTX 50 series toutes récentes.

Le premier lancement peut prendre quelques minutes parce que ça télécharge les modèles de reconnaissance vocale, mais une fois que c'est fait, les relances suivantes sont quasi instantanées. Y'a même un Folder Watcher qui surveille un dossier et transcrit automatiquement tout ce qui arrive dedans, parfait si vous voulez brancher ça sur un workflow automatisé avec n8n ou autre.

Bref, si vous êtes podcaster, journaliste, chercheur, ou juste quelqu'un qui a régulièrement besoin de transcrire des trucs sans vouloir filer ses données à Google ou payer un abonnement, Scriberr c'est exactement ce qu'il vous faut. C'est du self-hosting comme on l'aime, c'est à dire open source, respectueux de la vie privée, et qui fait le taf sans chichi.

Merci à Letsar pour le partage !

Source

FUTO Voice Input - L'appli de dictée vocale qui garde tout sur votre téléphone

Les news de Korben

Par :Korben

21 décembre 2025 à 08:00

Je sais pas vous, mais moi dès que j'ai un truc à écrire sur mon smartphone, je le dicte. Et que je sois sous Android ou soit iOS, je sais très bien que chaque mot que je prononce part directement sur les serveurs de Google ou Apple. Pourquoi j'ai trouvé FUTO Voice Input , intéressant parce que lui, garde tout sur votre téléphone...

C'est une appli Android qui utilise le modèle Whisper d'OpenAI pour faire de la reconnaissance vocale vraiment précise et ça tourne nickel sur un smartphone moderne. Trois tailles de modèle sont dispo : tiny, base, et small. La base suffira dans 90% des cas, mais vous pouvez basculer sur la small qui est un peu plus grosse, si vous avez un accent à couper au couteau ou si vous parlez dans le métro.

FUTO Voice Input supporte également 16 langues dont le français, l'anglais, l'allemand, l'espagnol, le japonais et plein d'autres et l'appli s'intègre directement comme clavier de saisie vocale Android, du coup elle fonctionne avec n'importe quelle application. Vous pouvez donc l'utiliser avec des claviers comme AnySoftKeyboard ou Unexpected Keyboard . Par contre, oubliez Gboard ou le clavier Samsung qui ont leur propre système verrouillé.

Le projet vient de FUTO, une organisation fondée par Eron Wolf (ex-investisseur de WhatsApp) et Louis Rossmann, le YouTubeur américain connu pour son combat pour le droit à la réparation, y bosse comme directeur de la com. Donc niveau éthique, je pense que c'est OK.

L'appli est dispo sur le Play Store, sur F-Droid, ou en APK direct d'environ 70 Mo. Y'a une version gratuite et une version payante sous forme de licence unique (pas d'abonnement, ouf) et le code source est ouvert et disponible sur GitLab.

Voilà, si vous en avez marre que vos paroles soient analysées par des serveurs à l'autre bout de la planète, FUTO Voice Input c'est une très bonne option !

Merci à PARADOXE_ pour l'info !

Vue normale