Veo 3.1 : faire une vidéo cinématique avec l'IA pour 25€

Bonjour à tous

Cette semaine, je voulais sortir un peu du cadre "outil business" pour tester quelque chose de différent : la génération de vidéos par IA.

Pourquoi ? On voit passer sur les réseaux sociaux beaucoup de vidéos générées par IA — qui mettent souvent en scène des chats pour une raison qui m'échappe — et je voulais me rendre compte par moi-même de si c'était facile ou pas d'en créer une.

Il y a pas mal d'outils qui existent, mais en faisant quelques recherches, je suis tombé sur Veo 3.1, le modèle vidéo de Google. Sur le papier, ça avait l'air d'être l'outil le plus qualitatif du marché. Alors j'ai testé.

Veo 3.1 — la promesse d'une génération vidéo "state-of-the-art with granular control"

Si tu veux être sûr de ne pas rater les prochaines éditions, n'hésite pas à t'abonner.

Ce que tu vas trouver dans cette édition

Ce qu'est Veo 3.1 et à quoi ça sert
Combien ça coûte (et pourquoi c'est inhabituel)
Le cas d'usage : essayer de produire une vidéo cohérente
Le résultat final et le verdict
Les alternatives qui existent

Veo 3.1 — c'est quoi exactement ?

Veo 3.1 c'est le modèle de génération vidéo de Google, lancé fin 2025 et amélioré début 2026. Tu lui décris une scène en texte (ou tu lui donnes une image de référence), et il te génère une vidéo correspondante avec son intégré : ambiance sonore, bruits de fond, voix off si tu en demandes une.

Aujourd'hui, c'est considéré comme l'un des meilleurs modèles vidéo du marché. Sur les benchmarks de réalisme et de cohérence visuelle, Veo 3.1 est dans le top 3 mondial.

L'argument marketing de Google : vidéos cinématiques 4K avec gestion réaliste de la lumière, de l'ombre et de la physique

Concrètement, Veo 3.1 existe en plusieurs versions :

Veo 3.1 Standard — la version complète, la plus chère, qui produit la meilleure qualité (jusqu'en 4K), accepte texte / image / vidéo en entrée, et offre le plus de contrôle. C'est celle que j'ai utilisée pour ce test.
Veo 3.1 Fast — une version allégée, environ 3x moins chère, plus rapide à générer, mais qui sacrifie un peu de qualité et de contrôle. Utile pour itérer rapidement.
Veo 3.1 Lite — la version la moins chère, pour faire des drafts ou tester une idée. Qualité encore en dessous, mais le coût devient marginal.

Les différentes versions de Veo 3.1 — la version Standard accepte texte, image et vidéo en entrée, jusqu'en 4K, en clips de 4, 6 ou 8 secondes

Le point crucial à retenir tout de suite : chaque clip généré fait 8 secondes maximum. Pour faire une vidéo plus longue, il faut générer plusieurs clips et les assembler ensuite au montage. On y reviendra, c'est la principale contrainte du modèle.

Combien ça coûte ? (et pourquoi c'est inhabituel)

C'est ici que le modèle économique change par rapport à ce qu'on a vu jusqu'ici dans Lucius. Veo 3.1 n'est pas un abonnement à 20€/mois.

Plus précisément : il existe bien des abonnements Google AI (Pro à 19,99$/mois, Ultra à 249,99$/mois), mais c'est plus subtil qu'il n'y paraît :

Google AI Pro (19,99$/mois) — J'ai cet abonnement personnellement. Théoriquement il donne accès à Veo, mais dans les faits c'est seulement la version Fast en mode trial, avec quelques générations par jour seulement. Pour faire ce que je voulais — plusieurs clips de qualité, version Standard avec contrôle granulaire — je n'ai pas pu utiliser mon abonnement Pro.
Google AI Ultra (249,99$/mois) — celui-là débloque vraiment Veo 3.1 Standard, le 4K, et des limites élevées. C'est l'option grand public sérieuse, mais à 250$/mois ce n'est pas un investissement à prendre à la légère.
Une clé API — c'est l'option que j'ai finalement choisie pour ce test. Tu donnes ta carte de crédit à Google, et tu es facturé en fonction de ton usage réel. Pas d'abonnement fixe, tu paies à la seconde de vidéo générée.

Une "clé API", c'est quoi exactement ? C'est un mode d'accès qu'on retrouve souvent dans le monde des développeurs et des entreprises. Tu obtiens un identifiant unique qui te permet d'appeler le service directement, sans passer par une interface grand public, et tu paies à l'usage. C'est plus flexible mais ça demande un peu plus de manipulation.

Les tarifs API actuels pour Veo 3.1 :

Veo 3.1 Standard — 0,40$/seconde (avec audio). Pour un clip de 8 secondes : ~3,20$.
Veo 3.1 Fast — 0,15$/seconde. Pour un clip de 8 secondes : ~1,20$.
Veo 3.1 Lite — ~0,05$/seconde. Pour des drafts ou des tests rapides.

Mes dépenses réelles pour cette édition : environ 25€ via l'API Gemini, principalement en Veo 3.1 Standard

Attention importante : avec une clé API, tu as donné ta carte sans limite par défaut. Sans contrôle, une session de tests peut très vite exploser. Pense à définir un plafond mensuel directement dans la console Google AI Studio (champ "Plafond de dépenses mensuel"). Ça t'évite la mauvaise surprise.

Le cas d'usage : produire une vidéo cohérente

L'objectif de mon test : produire une vidéo d'environ 1 minute pour Lucius, avec un fil narratif clair — "l'IA peut t'aider à décupler tes capacités". J'ai voulu faire quelque chose de dynamique, alternant deux villes (New York et Paris) pour montrer l'idée d'un quotidien augmenté par l'IA.

Pour ça, vu la limite de 8 secondes par clip, il a fallu générer plusieurs clips séparés et les assembler ensuite au montage.

Étape 1 — écrire des briefs précis (avec l'aide de Claude)

Premier apprentissage : la qualité du brief fait toute la différence. Si tu écris juste "une femme dans un taxi à New York", tu vas obtenir quelque chose de générique et souvent décevant. Il faut être beaucoup plus précis : ambiance, lumière, mouvement de caméra, expression du personnage, son ambiant.

Comme je ne suis pas réalisateur, j'ai utilisé Claude pour cadrer les scènes. Je lui ai expliqué le narratif global, l'envie de mêler New York et Paris, le ton recherché — et il m'a structuré 7 scènes avec, pour chacune, les bonnes catégories (SCENE, CAMERA, AUDIO, etc.) que Veo attend en entrée.

Interface Google AI Studio génération clip

L'interface Google AI Studio : tu écris ton brief détaillé (Scene / Camera / Audio), tu choisis durée, ratio et résolution, et tu lances la génération

Étape 2 — générer les clips (et gérer les bugs)

Une fois qu'on a les instructions, en théorie c'est assez simple : il suffit d'utiliser Veo comme un LLM classique — tu rentres le texte, il te sort une vidéo. Mais bizarrement, il y a eu pas mal de bugs.

Pendant mes tests, j'ai eu plusieurs fois des générations qui échouaient au milieu, des clips qui sortaient corrompus, ou des temps d'attente qui doublaient sans explication. Pour un produit de Google en preview payante, c'est surprenant.

Au final, pour obtenir 7 clips utilisables, j'ai dû lancer plutôt une dizaine de générations. Plusieurs générations ratées qui sont quand même facturées, ce qui explique en grande partie le coût final d'environ 25€.

Étape 3 — le problème de cohérence entre clips

Quand tu assembles plusieurs clips générés indépendamment, les personnages, lumières et décors changent légèrement d'un clip à l'autre. Pour moi, dans l'ensemble ça allait, mais on voit quand même que les personnages ne sont pas tout à fait les mêmes d'un clip à l'autre — même tête en gros, même style, mais pas exactement.

Veo 3.1 propose des fonctionnalités pour limiter ce problème (ajout d'images de référence, "scene extension"), mais ça reste un travail d'itération constant. Tu génères, tu compares, tu regénères jusqu'à avoir quelque chose de cohérent.

Étape 4 — le montage final

Une fois mes 7 clips récupérés, il restait à les assembler en une vraie vidéo : les mettre dans l'ordre narratif, gérer les transitions, ajouter une musique de fond cohérente, équilibrer le son.

J'ai fait ça dans iMovie (Mac, gratuit). Pour gagner du temps, je me suis fait aider par Cowork — un outil dont on parlera dans une prochaine édition. En résumé, Cowork c'est quand Claude prend le contrôle de ton ordinateur pour faire des choses à ta place : ouvrir des apps, manipuler des fichiers, suivre des étapes. Ça m'a permis de déléguer une bonne partie du travail d'assemblage technique.

Le montage final dans iMovie : 7 clips Veo 3.1 + une piste musicale, avec transitions et habillage

Le résultat final

Après 1-2 heures de travail au total, voilà la vidéo que j'ai produite :

Vidéo finale Lucius #10 — clique pour voir sur YouTube

Voir la vidéo finale Lucius sur YouTube (1 minute)

Au final, c'est plutôt pas mal pour quelqu'un sans aucune expérience en production vidéo. Ça se voit que c'est de l'IA pour un œil averti — surtout sur les transitions entre clips et certaines incohérences — mais à mon avis, ça reste quand même assez réaliste.

Le verdict : 4/10

Je mets 4/10, et je vais expliquer pourquoi cette note est aussi basse alors que la qualité technique du modèle est vraiment haute.

Pour un usage grand public ou semi-pro, l'expérience est galère. Voilà les vrais points qui font mal :

Bugs récurrents — la plateforme plante souvent, les générations ratent, et tu paies quand même
8 secondes max par clip — c'est court, ça force le montage et démultiplie le travail
Incohérences entre clips — même avec des briefs précis, les personnages et décors varient
Le brief est crucial — sans Claude pour structurer mes prompts, j'aurais été perdu
Le coût est imprévisible — facturation à la seconde, plafond à définir absolument

Pour un professionnel de la vidéo, c'est sûrement une autre histoire. Quand tu compares 25€ pour générer une minute de vidéo cinématique à un tournage classique (équipe, matériel, lieux, post-prod), c'est dérisoire. Pour une pub courte, un teaser, un mockup créatif, le rapport qualité/prix est imbattable.

Pour une utilisation perso, je vois mal le cas d'usage au quotidien.

C'est peut-être mon utilisation qui était sous-optimale. Je ne suis pas un expert du domaine, et il y a probablement des angles que je n'ai pas explorés. Mais ce qui ressort de mon test, c'est que pour quelqu'un de non-tech qui n'a pas un usage pro vidéo précis en tête, le ROI temps/argent est compliqué à justifier.

À qui ça peut vraiment servir ?

Hors professionnels de la vidéo (créateurs de pubs, agences créatives, monteurs), les cas d'usage que je vois vraiment pour un non-tech :

Créer une mini-vidéo pour un mariage ou un anniversaire — un montage personnalisé, avec un fil narratif, qui change vraiment des montages photo classiques
Faire une pub courte pour son business — si tu as une petite activité (boutique, services, restaurant) et que tu veux poster quelque chose qui sorte du lot sur Insta ou LinkedIn
Tester des concepts visuels avant un vrai tournage — utile pour les marketeux ou les créatifs qui veulent valider une idée avant d'engager un budget
Faire des effets spéciaux sur ses propres vidéos — Veo accepte une image ou vidéo en entrée et peut générer des variantes stylisées

Les alternatives

Sora 2 (OpenAI) — le principal concurrent de Veo 3.1. Disponible via abonnement ChatGPT Plus/Pro. Réputé excellent sur la stylisation et le mouvement, un peu en dessous sur le réalisme pur. Mêmes contraintes de clips courts (jusqu'à 20 secondes selon le plan).

Runway Gen-4 — la référence chez les pros et les créateurs depuis 2 ans. Très bonne stabilité, excellente cohérence personnages, abonnement à partir de 15$/mois. Probablement la meilleure option pour qui veut s'y mettre sérieusement sans passer par l'API.

Higgsfield — si ton objectif c'est de faire les vidéos virales qu'on voit sur Insta (les chats qui parlent, les memes animés, les effets viraux), c'est l'outil le plus simple. Beaucoup moins de contrôle que Veo 3.1, mais une courbe d'apprentissage divisée par 10. Conçu pour ce type de format court, pas pour de la production narrative.

Mot de fin

Édition un peu différente cette semaine — moins business, plus expérimentale. Si tu testes Veo 3.1 (ou Sora, ou Runway) dans le futur, fais-moi un retour. Je suis curieux de voir si quelqu'un trouve un vrai cas d'usage régulier que j'aurais loupé. Tu peux nous écrire à contact@readlucius.com.

Bonne semaine, on se retrouve samedi prochain.

Lucius