Bonjour à tous

Cette semaine, je voulais sortir un peu du cadre "outil business" pour tester quelque chose de différent : la génération de vidéos par IA.

Pourquoi ? On voit passer sur les réseaux sociaux beaucoup de vidéos générées par IA — qui mettent souvent en scène des chats pour une raison qui m'échappe — et je voulais me rendre compte par moi-même de si c'était facile ou pas d'en créer une.

Il y a pas mal d'outils qui existent, mais en faisant quelques recherches, je suis tombé sur Veo 3.1, le modèle vidéo de Google. Sur le papier, ça avait l'air d'être l'outil le plus qualitatif du marché. Alors j'ai testé.

Page d'accueil Veo 3.1

Veo 3.1 — la promesse d'une génération vidéo "state-of-the-art with granular control"

Si tu veux être sûr de ne pas rater les prochaines éditions, n'hésite pas à t'abonner.


Ce que tu vas trouver dans cette édition


Veo 3.1 — c'est quoi exactement ?

Veo 3.1 c'est le modèle de génération vidéo de Google, lancé fin 2025 et amélioré début 2026. Tu lui décris une scène en texte (ou tu lui donnes une image de référence), et il te génère une vidéo correspondante avec son intégré : ambiance sonore, bruits de fond, voix off si tu en demandes une.

Aujourd'hui, c'est considéré comme l'un des meilleurs modèles vidéo du marché. Sur les benchmarks de réalisme et de cohérence visuelle, Veo 3.1 est dans le top 3 mondial.

Argument marketing Veo 3.1

L'argument marketing de Google : vidéos cinématiques 4K avec gestion réaliste de la lumière, de l'ombre et de la physique

Concrètement, Veo 3.1 existe en plusieurs versions :

Tableau comparatif des modèles Veo

Les différentes versions de Veo 3.1 — la version Standard accepte texte, image et vidéo en entrée, jusqu'en 4K, en clips de 4, 6 ou 8 secondes

Le point crucial à retenir tout de suite : chaque clip généré fait 8 secondes maximum. Pour faire une vidéo plus longue, il faut générer plusieurs clips et les assembler ensuite au montage. On y reviendra, c'est la principale contrainte du modèle.


Combien ça coûte ? (et pourquoi c'est inhabituel)

C'est ici que le modèle économique change par rapport à ce qu'on a vu jusqu'ici dans Lucius. Veo 3.1 n'est pas un abonnement à 20€/mois.

Plus précisément : il existe bien des abonnements Google AI (Pro à 19,99$/mois, Ultra à 249,99$/mois), mais c'est plus subtil qu'il n'y paraît :

Une "clé API", c'est quoi exactement ? C'est un mode d'accès qu'on retrouve souvent dans le monde des développeurs et des entreprises. Tu obtiens un identifiant unique qui te permet d'appeler le service directement, sans passer par une interface grand public, et tu paies à l'usage. C'est plus flexible mais ça demande un peu plus de manipulation.

Les tarifs API actuels pour Veo 3.1 :

Dépenses API Gemini pour cette édition

Mes dépenses réelles pour cette édition : environ 25€ via l'API Gemini, principalement en Veo 3.1 Standard

Attention importante : avec une clé API, tu as donné ta carte sans limite par défaut. Sans contrôle, une session de tests peut très vite exploser. Pense à définir un plafond mensuel directement dans la console Google AI Studio (champ "Plafond de dépenses mensuel"). Ça t'évite la mauvaise surprise.


Le cas d'usage : produire une vidéo cohérente

L'objectif de mon test : produire une vidéo d'environ 1 minute pour Lucius, avec un fil narratif clair — "l'IA peut t'aider à décupler tes capacités". J'ai voulu faire quelque chose de dynamique, alternant deux villes (New York et Paris) pour montrer l'idée d'un quotidien augmenté par l'IA.

Pour ça, vu la limite de 8 secondes par clip, il a fallu générer plusieurs clips séparés et les assembler ensuite au montage.

Étape 1 — écrire des briefs précis (avec l'aide de Claude)

Premier apprentissage : la qualité du brief fait toute la différence. Si tu écris juste "une femme dans un taxi à New York", tu vas obtenir quelque chose de générique et souvent décevant. Il faut être beaucoup plus précis : ambiance, lumière, mouvement de caméra, expression du personnage, son ambiant.

Comme je ne suis pas réalisateur, j'ai utilisé Claude pour cadrer les scènes. Je lui ai expliqué le narratif global, l'envie de mêler New York et Paris, le ton recherché — et il m'a structuré 7 scènes avec, pour chacune, les bonnes catégories (SCENE, CAMERA, AUDIO, etc.) que Veo attend en entrée.

Interface Google AI Studio génération clip

L'interface Google AI Studio : tu écris ton brief détaillé (Scene / Camera / Audio), tu choisis durée, ratio et résolution, et tu lances la génération

Étape 2 — générer les clips (et gérer les bugs)

Une fois qu'on a les instructions, en théorie c'est assez simple : il suffit d'utiliser Veo comme un LLM classique — tu rentres le texte, il te sort une vidéo. Mais bizarrement, il y a eu pas mal de bugs.

Pendant mes tests, j'ai eu plusieurs fois des générations qui échouaient au milieu, des clips qui sortaient corrompus, ou des temps d'attente qui doublaient sans explication. Pour un produit de Google en preview payante, c'est surprenant.

Au final, pour obtenir 7 clips utilisables, j'ai dû lancer plutôt une dizaine de générations. Plusieurs générations ratées qui sont quand même facturées, ce qui explique en grande partie le coût final d'environ 25€.

Étape 3 — le problème de cohérence entre clips

Quand tu assembles plusieurs clips générés indépendamment, les personnages, lumières et décors changent légèrement d'un clip à l'autre. Pour moi, dans l'ensemble ça allait, mais on voit quand même que les personnages ne sont pas tout à fait les mêmes d'un clip à l'autre — même tête en gros, même style, mais pas exactement.

Veo 3.1 propose des fonctionnalités pour limiter ce problème (ajout d'images de référence, "scene extension"), mais ça reste un travail d'itération constant. Tu génères, tu compares, tu regénères jusqu'à avoir quelque chose de cohérent.

Étape 4 — le montage final

Une fois mes 7 clips récupérés, il restait à les assembler en une vraie vidéo : les mettre dans l'ordre narratif, gérer les transitions, ajouter une musique de fond cohérente, équilibrer le son.

J'ai fait ça dans iMovie (Mac, gratuit). Pour gagner du temps, je me suis fait aider par Cowork — un outil dont on parlera dans une prochaine édition. En résumé, Cowork c'est quand Claude prend le contrôle de ton ordinateur pour faire des choses à ta place : ouvrir des apps, manipuler des fichiers, suivre des étapes. Ça m'a permis de déléguer une bonne partie du travail d'assemblage technique.

Montage final dans iMovie

Le montage final dans iMovie : 7 clips Veo 3.1 + une piste musicale, avec transitions et habillage


Le résultat final

Après 1-2 heures de travail au total, voilà la vidéo que j'ai produite :

Vidéo finale Lucius #10 — clique pour voir sur YouTube

Voir la vidéo finale Lucius sur YouTube (1 minute)

Au final, c'est plutôt pas mal pour quelqu'un sans aucune expérience en production vidéo. Ça se voit que c'est de l'IA pour un œil averti — surtout sur les transitions entre clips et certaines incohérences — mais à mon avis, ça reste quand même assez réaliste.


Le verdict : 4/10

Je mets 4/10, et je vais expliquer pourquoi cette note est aussi basse alors que la qualité technique du modèle est vraiment haute.

Pour un usage grand public ou semi-pro, l'expérience est galère. Voilà les vrais points qui font mal :

Pour un professionnel de la vidéo, c'est sûrement une autre histoire. Quand tu compares 25€ pour générer une minute de vidéo cinématique à un tournage classique (équipe, matériel, lieux, post-prod), c'est dérisoire. Pour une pub courte, un teaser, un mockup créatif, le rapport qualité/prix est imbattable.

Pour une utilisation perso, je vois mal le cas d'usage au quotidien.

C'est peut-être mon utilisation qui était sous-optimale. Je ne suis pas un expert du domaine, et il y a probablement des angles que je n'ai pas explorés. Mais ce qui ressort de mon test, c'est que pour quelqu'un de non-tech qui n'a pas un usage pro vidéo précis en tête, le ROI temps/argent est compliqué à justifier.


À qui ça peut vraiment servir ?

Hors professionnels de la vidéo (créateurs de pubs, agences créatives, monteurs), les cas d'usage que je vois vraiment pour un non-tech :


Les alternatives

Sora 2 (OpenAI) — le principal concurrent de Veo 3.1. Disponible via abonnement ChatGPT Plus/Pro. Réputé excellent sur la stylisation et le mouvement, un peu en dessous sur le réalisme pur. Mêmes contraintes de clips courts (jusqu'à 20 secondes selon le plan).

Runway Gen-4 — la référence chez les pros et les créateurs depuis 2 ans. Très bonne stabilité, excellente cohérence personnages, abonnement à partir de 15$/mois. Probablement la meilleure option pour qui veut s'y mettre sérieusement sans passer par l'API.

Higgsfield — si ton objectif c'est de faire les vidéos virales qu'on voit sur Insta (les chats qui parlent, les memes animés, les effets viraux), c'est l'outil le plus simple. Beaucoup moins de contrôle que Veo 3.1, mais une courbe d'apprentissage divisée par 10. Conçu pour ce type de format court, pas pour de la production narrative.


Mot de fin

Édition un peu différente cette semaine — moins business, plus expérimentale. Si tu testes Veo 3.1 (ou Sora, ou Runway) dans le futur, fais-moi un retour. Je suis curieux de voir si quelqu'un trouve un vrai cas d'usage régulier que j'aurais loupé. Tu peux nous écrire à contact@readlucius.com.

Bonne semaine, on se retrouve samedi prochain.

Lucius