Блог гайд

Промт для генерации видео

Промт для видео — текстовое описание сцены плюс движение: какая камера, как она движется, как себя ведут объекты в кадре, какая длительность и темп. Промт для видео сложнее промта для картинки — нужно описать не только пространство, но и время.

В 2026 году ведущие модели: Sora 2 (OpenAI), Kling 3.0 (китайская, #1 ELO benchmark), Veo 3.1 (Google, с аудио), Runway Gen-4, Pika 2.2, Luma Dream Machine, Hailuo (MiniMax), Pixverse.

Структура промта для видео

[субъект и действие], [окружение и контекст],
[камера и её движение], [освещение],
[стиль и кинематография],
[длительность и темп]

Пример: medium shot of a young woman walking through a Moscow park at golden hour, camera tracks her slowly from the side, soft warm rim light, cinematic style in the look of Roger Deakins, 5 seconds, slow steady pace.

Из чего состоит промт для видео

1. Субъект и действие

Конкретное действие в развитии — не статичный кадр, а движение.

Плохо: «человек в офисе». Хорошо: «молодая женщина встаёт из-за стола, подходит к окну, останавливается и смотрит наружу».

2. Движение камеры

Самое сильное отличие промта для видео от промта для картинки. Кинематографические термины:

  • Static shot — статичная камера
  • Slow zoom in / out — медленный наезд/отъезд
  • Tracking shot — камера движется параллельно субъекту
  • Dolly in / out — камера движется к/от субъекта по прямой
  • Pan left/right — поворот камеры на оси
  • Tilt up/down — наклон камеры
  • Crane shot — кран сверху вниз
  • Handheld — ручная камера, лёгкая тряска
  • Steady cam — плавное движение без тряски
  • Aerial / drone shot — с дрона
  • Whip pan — резкий поворот камеры
  • Rack focus — смена фокуса между планами

3. План

  • Wide / establishing shot — общий
  • Medium shot — средний
  • Close-up — крупный план
  • Extreme close-up — деталь
  • Over-the-shoulder — из-за плеча

4. Освещение

То же, что для картинки, плюс изменение во времени:

  • Light shifts from warm to cool as the sun sets
  • A car passes, briefly illuminating the room with headlights
  • Sun breaks through clouds halfway through the shot

5. Длительность и темп

Большинство моделей в 2026 году генерируют 4-10 секунд за один промт. Темп:

  • Slow steady pace — медленный
  • Quick energetic cuts — быстрый
  • Real-time continuous shot — реальное время без склеек

6. Стиль и кинематография

Референсы операторов, режиссёров, эпох:

  • In the cinematic style of Roger Deakins
  • In the visual style of Wong Kar-wai
  • 35mm film grain, anamorphic lens, vintage cinema feel
  • Modern documentary look, handheld, natural light
  • Music video aesthetic, high contrast, bold color grading

Примеры рабочих промтов

Реклама продукта (Sora 2)

Medium close-up shot of a ceramic coffee mug on a wooden table
in a bright cafe. A hand reaches in and slowly lifts the mug,
steam rising from the surface. Camera stays static.
Soft natural window light from the left, shallow depth of field.
Cinematic style, 35mm lens look, muted warm palette
of cream and walnut.
5 seconds, slow steady pace, no music.

Кинематографический широкий план (Kling)

Wide establishing shot of a young man standing alone
on a Moscow rooftop at dawn, looking out over the city skyline.
Camera slowly cranes up and away,
revealing more of the city in soft pink-blue morning light.
Long shadows, single figure small in frame,
in the visual style of Roger Deakins cinematography.
Muted cool palette of slate blue and warm cream,
35mm anamorphic look. 8 seconds, slow contemplative pace.

Анимация продукта (Veo 3.1 с аудио)

Close-up shot of a smartphone lying on a wooden table.
The screen lights up, showing an incoming call notification.
Camera slowly dollies in on the screen as the phone vibrates.
Soft natural daylight, muted modern palette.
Audio: phone vibration sound, subtle ambient room tone.
5 seconds, real-time pace.

Документальный портрет (Runway)

Medium handheld shot of an elderly carpenter
working in his small workshop, sanding a piece of wood with focused hands.
Camera moves gently, observing.
Soft afternoon light from a high window,
warm muted palette of natural wood and worn fabric,
documentary cinematography style, natural color grading.
8 seconds, real-time observational pace.

Оживление статичного фото (image-to-video)

Большинство моделей поддерживают image-to-video: вы загружаете фото и описываете движение.

[uploaded photo of a young woman in a coffee shop]
She slowly turns her head toward the camera,
smiles softly, looks back down at her cup.
Soft natural light, subtle ambient movement of background patrons.
4 seconds, gentle calm pace.

Подробнее — нейросеть оживляет фото.

Особенности моделей

Sora 2 (OpenAI)

  • Лучшая физика и реализм движения
  • До 20 секунд за раз
  • Платно (требует ChatGPT Pro $200/мес или API)
  • Из РФ — через VPN
  • Подробнее — Sora обзор

Kling 3.0 (Kuaishou)

  • #1 в ELO benchmark 2026
  • Хорошо работает с image-to-video и сложным движением людей
  • Бесплатный лимит, без VPN
  • Подробнее — Kling обзор

Veo 3.1 (Google)

  • Единственная модель с нативным аудио в выводе
  • 8 секунд за раз, до 4K
  • Через Google AI Studio и Gemini Advanced
  • Подробнее — Veo обзор

Runway Gen-4

  • Студийная платформа с продакшен-функциями: моушн-кисти, Director Mode, расширение видео, замена объектов
  • Платный, $15-95/мес
  • Подробнее — Runway обзор

Pika, Luma, Hailuo, Pixverse

  • Более доступные/бесплатные альтернативы
  • Pika — короткие креативные клипы
  • Luma — атмосферные кинематографичные
  • Hailuo — бесплатно из РФ
  • Pixverse — вертикальные клипы для TikTok/Reels
  • Подробнее — нейросеть для видео обзор

Типичные ошибки

Слишком много движения. «Камера летит вокруг, субъект бежит, освещение меняется, на фоне всё взрывается» — модель сделает кашу. Один основной движение в кадре.

Длинные сцены. Просите 10 секунд — может получиться хуже, чем 5. Лучше 2 коротких клипа склеить, чем 1 длинный размазанный.

Промт без движения. «Девушка стоит у окна» — модель сделает почти статичный кадр или придумает движение сама. Всегда добавляйте действие.

Несовпадение план + камера. «Wide shot, close-up of her eyes» — противоречие. Один план на промт.

Игнорирование длительности. Если не указать длину — модель выдаст дефолтную (обычно 5 сек). Указывайте явно.

Image-to-video — частый сценарий

Часто проще:

  1. Сгенерировать статичный кадр в Midjourney или DALL-E — там больше контроля
  2. Загрузить как референс в Kling / Runway / Pika
  3. Описать только движение

Так получается стабильнее, чем text-to-video с нуля. См. нейросеть оживляет фото.

FAQ

Какая модель лучше для рекламного ролика? Sora 2 — если нужен максимальный реализм и бюджет позволяет. Kling 3.0 — если важна цена и доступность. Runway — если планируете монтаж и продакшен-функции.

Какая бесплатная модель лучшая? Hailuo и Шедеврум видео — бесплатно из РФ без VPN. Kling Free — лимитированно, но качество выше.

Можно ли сгенерировать видео с речью? Только Veo 3.1 — нативный аудио включая речь. В Runway и Sora звук добавляют отдельно (через ElevenLabs или встроенные инструменты).

Сколько стоит 1 минута AI-видео? В Sora 2: ~$10-30 за 5-10 секунд в зависимости от тарифа. Runway: $15-95/мес с разными лимитами. Бесплатные модели — медленнее и с лимитами.

Почему AI-видео выглядят странно? Главная проблема — мелкие детали (руки, лица в движении, текст). Лучшие модели 2026 года (Sora 2, Kling 3.0, Veo 3.1) решают это лучше, чем версии 2024 года, но артефакты ещё встречаются.