База идей

Captions: $508K в месяц на ИИ-редакторе видео — разбор кейса до $6M в год

Captions — мобильное приложение для монтажа видео, в котором ИИ берёт на себя самые трудоёмкие шаги: распознавание речи, генерация субтитров, дубляж на другие языки, исправление взгляда в камеру, синхронизация губ. $508 000 выручки в месяц ($6.1M ARR), 10 млн пользователей, 60+ человек в команде. За 4 года поднято более $100 млн инвестиций от Sequoia, Kleiner Perkins, Index Ventures и Andreessen Horowitz.

Главное в кейсе — как 2 фаундера за 3 дня собрали первый рабочий продукт и почему он сразу попал в нерв рынка.

Кто стоит за Captions

Гаурав Мисра — со-основатель и CEO. Родился в Бостоне, вырос в Нью-Дели, вернулся в США на бакалавриат по computer science в Boston University. До Captions работал ML-инженером в Microsoft и в инженерной команде Snapchat, где постепенно перешёл в продуктовый дизайн.

Дуайт Чёрчилл — второй со-фаундер. Они с Гауравом познакомились в стартапе Localytics (мобильная аналитика) в начале 2010-х. Вместе проработали недолго, но поддерживали связь почти 10 лет, регулярно обсуждая идеи и тренды. Когда настало время — у обоих был и опыт в инженерии, и в продуктовом менеджменте, и в машинном обучении.

Какую проблему решает Captions

Видео — самый сложный формат для создания. Раньше для приличного ролика нужны были специальные программы (Premiere, Final Cut), знания, время. Captions делает то же самое через текстовые команды на телефоне:

  • Загрузил ролик → ИИ автоматически распознал речь и расставил субтитры
  • Сказал «убери паузы» → ИИ сам нашёл и вырезал
  • Захотел дубляж на испанском с синхронизацией губ → ИИ сделал

Главная аудитория — не профессиональные видеоредакторы, а малый бизнес, прозюмеры и блогеры, у которых нет ни денег, ни времени осваивать профессиональные инструменты.

Как родилась идея

В 2021 году Гаурав и Дуайт заметили глобальный сдвиг: видео стало доминирующим форматом коммуникации в интернете. TikTok разогнал тренд, его подхватили Reels и Shorts. Все хотят снимать видео, но большинство не умеет монтировать.

Перед запуском они провели исследование с сообществом креаторов. Главные боли:

  1. Монтаж сложен и долог
  2. Расшифровка речи и расстановка субтитров — отдельная пытка
  3. Делать дубляж на другие языки — почти невозможно для одного человека

Это и стало стартовой точкой — автоматизировать самое больное: транскрипцию + субтитры.

Как собрали MVP за 3 дня

Первая версия Captions — буквально 3 дня работы. Стек минимальный:

  • Распознавание речи — Google Cloud Speech-to-Text API
  • UI — мобильное приложение
  • Логика — простой пайплайн: загрузил видео → API → текст → наложили на видео как субтитры

Запустили в App Store — и сразу пошёл органический трафик. Креаторы делились в TikTok, говорили «эта штука сама делает субтитры за минуту». Captions попала в viral на App Store, что и подтолкнуло развивать дальше.

После этого:

  • Заменили Google Speech-to-Text на OpenAI Whisper для лучшего качества и скорости
  • Добавили AI Edit — текстовые команды для монтажа («убери паузы», «обрежь начало»)
  • AI Creator — генерация и локализация видео:
    • AI Twin — клонирует твоё лицо и голос, генерит видео где «ты» говоришь любой текст
    • LipDub — реальная синхронизация губ при переводе на другой язык (30+ языков)
  • Для аудио — 11Labs (генерация и клонирование голоса)
  • Часть моделей — собственная разработка (особенно для генерации видео)

Стек и инструменты

КатегорияИнструмент
ОблакоGoogle Cloud Platform
LLMOpenAI (включая Whisper для STT)
Голос11Labs
Фронт мобильногоReact
ЯзыкTypeScript

Принципиальная архитектура — гибрид: критичные для качества модели свои (видео-генерация, LipDub), стандартные задачи (распознавание речи, голос) — на внешних API. Это позволяет инвестировать ресурсы в то, где можно дать уникальное качество, и не тратить на то, что уже хорошо решено рынком.

Деньги

  • Стартовые расходы: формально $0 — фаундеры сами всё собрали
  • Инвестиции: $100M+ поднято от Sequoia, Kleiner Perkins, Index Ventures, Andreessen Horowitz
  • Год запуска: 2020 (идея 2021)
  • Выручка: $508 000 в месяц ($6.1M ARR)
  • Пользователи: 10 000 000+ в 180 странах
  • Команда: 60 человек
  • Прибыльность: да

Стратегия роста

1. Качественный продукт для конкретной ниши. Captions сознательно не делали универсальный профессиональный редактор. Цель — малый бизнес + блогеры, у которых нет ни денег, ни времени учиться. Когда продукт точно попал в нерв этого сегмента — пошёл органический рост через сами TikTok-видео, снятые в Captions.

2. SEO как основной канал. Контент-маркетинг + оптимизация под поисковые запросы вокруг видео-монтажа, субтитров, дубляжа. Это даёт постоянный органический трафик без зависимости от рекламных бюджетов.

3. Платный трафик на тех же темах. Параллельно — целевая реклама в тех же странах и сегментах, чтобы добивать конверсию.

4. Стратегические партнёрства. Интеграции с крупными платформами и сервисами в инфлюенс-нише — расширяют охват без прямых маркетинговых затрат.

5. Подписочная модель. Captions сразу запустились с paid-only — никакого freemium. Месячный тариф $5–20 в зависимости от уровня. Логика:

  • Платная модель фильтрует «случайных» пользователей
  • Остаются те, кому продукт реально нужен → их feedback ценнее
  • Стабильный поток выручки → можно инвестировать в дальнейшее развитие

Pricing

  • $5/мес — базовый тариф
  • $20/мес — full-features (включая AI Twin, LipDub, дубляж на 30+ языков)

Различие тарифов — по количеству ИИ-операций и доступности продвинутых функций. Простая логика, без 5 уровней с галочками.

5 главных уроков из кейса

  1. Простота важнее функциональности. Captions выиграл у профессиональных редакторов не лучшим инструментарием, а меньшим барьером для входа. Если ты можешь обслужить только небольшую долю «продвинутых» — отдай эту нишу конкурентам, и сделай отлично для всех остальных.

  2. Фокус на боль конкретного сегмента. Малый бизнес и блогеры — не professional editors. Это разный продукт, разные приоритеты, разные ценности. Попытка обслужить всех сразу обычно даёт продукт, который никому не идеален.

  3. Используй готовые ИИ-кирпичи там, где можно. Whisper для распознавания речи. 11Labs для голоса. Свои модели — только там, где даёт уникальное качество. Не пытайся обогнать OpenAI в их же сильной области.

  4. Платная модель с первого дня. Это не про деньги, это про качество feedback. Платящие пользователи дают точные сигналы что улучшать. Бесплатные — шум, который размывает приоритеты.

  5. Скорость реакции на тренды. Когда появились новые возможности ИИ (text-to-video editing, lip-sync), Captions добавил их быстрее конкурентов. В fast-evolving индустрии это и есть главное конкурентное преимущество.

Что забрать для своего проекта

Если ты делаешь ИИ-продукт для нишевой аудитории:

  1. Сделай MVP за дни, не за месяцы. Captions запустился за 3 дня и попал в viral. Если идея сильная — лишние недели на «полировку» только теряют момент.
  2. Не пытайся обогнать ChatGPT в его же области. Используй его API. Свои модели — только где у тебя реальное преимущество (data, ниша, специфика).
  3. Узкая платная аудитория > широкая бесплатная. $5/мес × 100K платящих = $500K/мес. Это лучше чем 5M бесплатных пользователей с непонятной монетизацией.
  4. Один сегмент, один продукт. «Для блогеров и прозюмеров» — это уже фокус. «Для всех кто работает с видео» — уже размытие. Узость = конкурентное преимущество.

Похожие идеи

  • Chat Thing — $12K · No-code ИИ-чатботы из Notion и URL
  • SnapEdit — $20K · ИИ-редактор фотографий
  • SocialBee — $717K · Платформа для управления соцсетями
  • iContact — $4.17M · Email-маркетинг для малого бизнеса
  • Hootsuite — $29.2M · Social media management для бизнеса