Claude Code vidéo : donner des yeux à Claude en 5 min

Définition
Claude Code vidéo est un skill open source qui donne à Claude Code la capacité d’analyser n’importe quelle vidéo — YouTube, Instagram, Loom, fichier local — en combinant extraction de frames (FFmpeg) et transcription synchronisée (yt-dlp + Whisper). Résultat : Claude voit et entend la vidéo, pas seulement le texte.
Ce skill Claude Code vidéo utilise yt-dlp + FFmpeg pour découper la vidéo en captures d’écran timestampées et en transcript synchronisé, puis envoie les deux à Claude d’un seul bloc. Une vidéo de 45 minutes est analysée en moins de 2 minutes pour environ 1 € — ou zéro si la vidéo YouTube dispose de sous-titres automatiques. Si vous accompagnez des équipes sur l’adoption de Claude Code, ou si vous intégrez l’analyse vidéo dans vos workflows de Vibe-Coding (Cursor, Lovable, Claude Code), ce skill est l’extension la plus efficace à date.
🎯 En bref
| Paramètre | Valeur |
|---|---|
| Temps d’installation | 5 minutes |
| Coût par vidéo YouTube (sous-titres dispo) | Gratuit |
| Coût max (30+ min, Whisper Groq) | ~1 € par run |
| Temps d’analyse (vidéo de 45 min) | < 2 minutes |
| Sites supportés par yt-dlp | 1 000+ |
| Stack technique | yt-dlp, FFmpeg, Whisper, Groq, Claude Code |
| Niveau requis | Intermédiaire (terminal + Python) |
| Disponibilité | Open source — GitHub (gratuit) |
Sommaire
J’ai testé une conférence YC d’une heure sur “How to Start a Startup” — Sam Altman à l’écran, graphiques, slides. En tapant /watch URL dans Claude Code vidéo, j’avais une synthèse complète en moins de 2 minutes. Pas seulement le transcript. Les graphiques projetés. Les titres de slides. Les annotations visuelles. C’est ça, la différence entre un outil de transcription classique et un vrai skill Claude Code.
J’avais essayé plusieurs solutions avant de tomber sur celle-ci. La majorité ne lisent que l’audio et ratent tout ce qui se passe à l’écran. Ce skill combine les deux canaux et donne à Claude Code une compréhension réelle du contenu — texte et image ensemble, avec timestamps synchronisés.
Voici exactement comment le pipeline fonctionne, comment l’installer, et trois cas d’usage qui ont changé ma façon de consommer du contenu.
“Pourquoi faire en quelques heures ce que vous pouvez faire en quelques minutes ?”
🎯 Le vrai problème : Claude Code ne peut pas regarder une vidéo
Anthropic n’a pas encore de modèle vidéo natif. Claude Code reçoit du texte et des images — pas de flux vidéo. Collez un lien YouTube dans Claude Code : il ne peut pas l’ouvrir. Il devine le contenu d’après le titre, au mieux.
Les outils qui “lisent” une vidéo ne font généralement qu’extraire le transcript. C’est utile, mais incomplet. La moitié du contenu intéressant d’une vidéo n’est pas dit à voix haute — les graphiques, les démos en direct, les slides annotées, les évolutions d’interface. Tout ça disparaît avec une approche transcript-only.
Ce skill Claude Code vidéo contourne le problème proprement. Il réduit la vidéo à ce que Claude sait déjà lire : des images + du texte. Le résultat dépasse largement ce qu’on obtient avec un simple transcript.
- Transcript seul → manque tout le contenu visuel (graphiques, démos, slides)
- Modèle vidéo IA tiers (ex : Gemini Video) → cher, ne s’intègre pas nativement dans Claude Code
- Skill Claude Code vidéo → frames + transcript synchronisé → compréhension complète
Concrètement : pour une conférence avec des graphiques projetés, Claude Code accède aux chiffres affichés à l’écran, aux titres de slides, aux annotations visuelles — pas seulement à ce qui a été dit au micro. L’erreur que je vois le plus souvent dans mes formations Claude Code, c’est de sous-estimer cette dimension multimodale du contenu vidéo.
Pour comprendre l’écosystème des skills Claude et leur logique d’installation, j’ai publié un guide complet : Claude Skills — le guide pro 2026. Ce skill vidéo s’inscrit dans la même logique d’extension des capacités natives de Claude Code.
🚀 L’architecture du skill : yt-dlp + FFmpeg + Whisper
La force du pipeline, c’est sa simplicité. Deux outils open source qui existent depuis plus d’une décennie font 90% du travail :
| Outil | Rôle dans le pipeline | Coût |
|---|---|---|
| yt-dlp | Téléchargement vidéo (1 000+ sites) + récupération sous-titres YouTube | Gratuit |
| FFmpeg | Extraction frames + extraction audio propre | Gratuit |
| Whisper via Groq | Transcription audio (si pas de sous-titres disponibles) | Gratuit (tier Groq) |
| Claude Code | Analyse frames + transcript → réponse structurée | ~0,50-1 € par run max |
Le pipeline Claude Code vidéo en 4 étapes
- yt-dlp télécharge la vidéo — ou récupère directement les sous-titres YouTube gratuits (pas de Whisper dans ce cas).
- FFmpeg extrait les frames — une capture toutes les X secondes. Le skill plafonne à 100 frames au-delà de 30 minutes : une vidéo de 30 min et une de 2h coûtent le même prix en tokens.
- FFmpeg extrait l’audio → Whisper via Groq transcrit si aucun sous-titre disponible. Le tier gratuit Groq couvre 2 heures de transcription par heure.
- Claude Code reçoit les deux — frames + transcript timestampé. Il corrèle ce qui est dit avec ce qui est montré à chaque instant.
yt-dlp et FFmpeg s’installent une seule fois en local. Aucun service tiers dans la boucle — pas de MCP, pas de wrapper propriétaire. Ce sont les mêmes outils qui font tourner 90% des applications vidéo que vous utilisez déjà. La robustesse est éprouvée depuis plus de dix ans par des millions de développeurs.
Pour les vidéos YouTube, le skill récupère directement les sous-titres automatiques — zéro appel Whisper, zéro coût de transcription. Whisper ne s’active que pour les contenus sans captions : fichiers locaux, Looms, Instagram Reels.
Pour aller plus loin sur les LLM, tokens et embeddings qui font fonctionner Claude Code, mon article 30 concepts IA vitaux pour 2026 détaille les fondations techniques sans jargon inutile.
🚀 Installation en 5 minutes
Le skill Claude Code vidéo est disponible gratuitement sur GitHub. Après avoir cloné le repo, les étapes sont les suivantes :
- Cloner le repo GitHub du skill
- Lancer les commandes d’installation (gestion automatique des dépendances yt-dlp, FFmpeg, Whisper)
- Authentification Groq (gratuit — créer un compte sur console.groq.com)
- Taper
/watch URLdans Claude Code
Une fois installé, vous n’interagissez qu’avec le résultat. Le skill gère lui-même le téléchargement, l’extraction de frames, la transcription et l’envoi à Claude Code. Pas de configuration à refaire entre deux vidéos.
Trois flags avancés utiles pour les cas d’usage professionnels :
--startet--end: cibler une fenêtre temporelle précise--zoom: extraction frame-par-frame sur un segment court
Pour analyser 10 secondes d’une vidéo de 2 heures, Claude Code se concentre uniquement sur cette séquence sans charger l’intégralité du contenu. C’est le détail d’ingénierie qui rend le skill praticable sur les longues conférences sans exploser la fenêtre de contexte.
Si vous comparez les différentes approches IA pour l’analyse de contenu, mon comparatif ChatGPT vs Claude vs Gemini donne une vision claire des forces de chaque outil — Claude Code se distingue justement par cette extensibilité via les skills.
“L’IA ne dort jamais. Comme vos problèmes administratifs”
💡 Trois cas d’usage concrets
1. Recherche de contenu et veille concurrentielle
Ce skill Claude Code vidéo change radicalement la veille. Donnez l’URL d’une vidéo et demandez à Claude Code d’analyser le hook : setup visuel, mots exacts, moment du pattern interrupt, ce qui apparaît à l’écran à la seconde 0. Ce qui prenait 10 minutes par vidéo — pause, scrub, prise de notes — prend maintenant une ligne de commande.
Pour la recherche éditoriale ou la veille concurrentielle, c’est l’outil le plus efficace que j’ai croisé dans l’écosystème IA vidéo. Les outils de transcription classiques ne lisent pas les frames — ils ratent tout le contenu visuel qui donne son sens au discours.
2. Debug de screen recordings
Cas développeur concret : un bug UI apparaît. Vous enregistrez 30 secondes de screen recording. Vous déposez le fichier dans Claude Code avec /watch et vous demandez ce qui se passe juste avant le crash. Claude Code lit les frames autour du moment critique, identifie le changement d’état, donne le frame exact où le problème commence. Des heures de debug économisées sur un type de problème que les logs ne capturent pas : les transitions visuelles, les états intermédiaires de l’interface.
3. Alimentation automatique d’un second brain Obsidian
C’est le cas d’usage le plus impressionnant du skill Claude Code vidéo. Le principe : donner à Claude Code la liste des créateurs à surveiller. Claude exécute le skill pour chaque vidéo automatiquement — frames, audio, tout — et génère des notes structurées en markdown directement dans le vault Obsidian. Résumé, concepts clés, timestamps des moments importants.
L’effet de composition est réel. Plus le second brain enregistre de vidéos, plus il a de contexte, plus les analyses deviennent précises. Pour mes formations, j’utilise cette approche pour alimenter ma base de connaissances sur les outils IA — c’est ce que j’enseigne aussi dans mes sessions sur NotebookLM et la gestion de contenu IA.
📊 Le coût réel : presque rien
| Scénario | Transcription | Tokens Claude Code | Total |
|---|---|---|---|
| Vidéo YouTube (sous-titres auto) | 0 € (yt-dlp natif) | ~0,50-1 € (100 frames) | < 1 € |
| Vidéo sans sous-titres (Groq) | Gratuit (tier Groq) | ~0,50-1 € | < 1 € |
| Fichier local / Loom / Reel | Groq free tier | ~0,50-1 € | < 1 € |
| Session test : 5+ heures de vidéo | Free tier Groq | < 10% budget session | Quelques € |
Le skill plafonne à 100 frames au-delà de 30 minutes. Une vidéo de 30 min et une de 2h coûtent le même prix en tokens Claude Code — c’est le choix d’ingénierie le plus intelligent du pipeline. Scalabilité linéaire sur les vidéos courtes, plafonnée sur les longues.
Le tier gratuit de Groq couvre 2 heures de transcription par heure. En deux semaines d’utilisation quotidienne intensive — test de la vidéo source — le budget Whisper n’a jamais dépassé le tier gratuit. Pour les volumes professionnels (50+ vidéos par jour), il faudra calculer. Pour un usage individuel ou en équipe jusqu’à 10 personnes, le free tier couvre l’essentiel.
Si vous intégrez Claude Code vidéo dans un contexte professionnel — audits IA, veille automatisée, formations équipe — ce type de workflow fait partie des démos que j’aborde dans mes formations IA Qualiopi. Et pour l’ensemble des tutoriels Claude Code disponibles sur le blog, consultez la bibliothèque complète des tutoriels IA.
“On ne demande pas à l’IA d’être intelligente. Juste d’être efficace”
❓ Questions fréquemment posées
Q1 : Claude Code vidéo fonctionne-t-il sur les vidéos privées ou locales ?
Oui. yt-dlp gère le téléchargement de vidéos privées si vous êtes authentifié, et le skill accepte aussi les fichiers vidéo locaux (.mp4, .mov). Pour les Looms ou recordings internes, vous déposez le fichier directement dans Claude Code. La transcription passe alors par Whisper via Groq — même logique que pour une vidéo sans sous-titres YouTube. Aucune configuration supplémentaire nécessaire.
Q2 : Claude Code peut-il vraiment voir ce qui se passe à l’écran dans une vidéo ?
Techniquement, Claude Code reçoit des captures d’écran extraites toutes les X secondes et un transcript timestampé. La corrélation frames + texte donne une compréhension réelle du contenu visuel. Sur une démo technique avec graphiques ou slides projetées, la différence avec un transcript seul est radicale : Claude Code voit les chiffres affichés, les titres de slides, les annotations — pas seulement ce qui a été dit au micro.
Q3 : Quel est le coût réel d’une session d’analyse vidéo Claude Code ?
Pour une vidéo YouTube avec sous-titres automatiques : zéro coût de transcription, environ 0,50 à 1 € en tokens Claude pour 100 frames. Groq offre 2 heures de transcription gratuite par heure. La majorité des vidéos YouTube coûtent moins de 1 € à analyser. Le skill plafonne à 100 frames au-delà de 30 minutes — coût prévisible quelle que soit la durée de la vidéo.
Q4 : Ce skill Claude Code vidéo est-il compatible avec les réseaux sociaux ?
yt-dlp supporte plus de 1 000 sites : YouTube, Instagram, TikTok, Vimeo, Dailymotion, Twitter/X, Loom, et bien d’autres. Les Reels Instagram et vidéos TikTok sont compatibles si les contenus sont publics. Pour les vidéos derrière authentification, vous passez vos cookies à yt-dlp. Le skill est agnostique du site source — si yt-dlp peut le télécharger, Claude Code peut l’analyser.
Q5 : Comment utiliser ce skill Claude Code pour alimenter un second brain Obsidian ?
Créez un workflow dans Claude Code qui automatise la veille : donnez une liste d’URLs ou de chaînes YouTube, Claude Code exécute le skill pour chaque vidéo et génère des notes structurées en markdown dans votre vault Obsidian. Les notes incluent résumé, concepts clés et timestamps des moments importants. Plus vous alimentez le système, plus les analyses gagnent en précision et en contexte.
Q6 : Quelle différence entre ce skill Claude Code vidéo et les outils de transcription classiques ?
Les outils classiques (Otter.ai, Descript, Whisper seul) extraient uniquement l’audio vers le texte. Ce skill Claude Code extrait frames + audio avec timestamps synchronisés. Claude Code peut répondre à “qu’est-ce qui apparaît à l’écran à la minute 12 ?” — question impossible avec une transcription seule. La valeur ajoutée est dans la corrélation temporelle entre ce qui est dit et ce qui est montré.
Christophe Girard
Consultant IA, Formateur & Créateur de Micro-SaaS — Fondateur d’ATLANTICOM
Basé en région nantaise, je crée des logiciels sur mesure et des Micro-SaaS pour les TPE/PME grâce au Vibe-Coding (Cursor, Claude Code, Bolt.new). Formations certifiées Qualiopi, audits IA, automatisations et outils internes sur-mesure : je vous aide à remplacer vos fichiers Excel par de vrais outils métier — en jours, pas en mois.
Audit IA
Automatisations
Micro-SaaS
“Avec l’IA, le futur, c’est maintenant !”
— ATLANTICOM