Captions: $508K в месяц на ИИ-редакторе видео — разбор кейса до $6M в год
Captions — мобильное приложение для монтажа видео, в котором ИИ берёт на себя самые трудоёмкие шаги: распознавание речи, генерация субтитров, дубляж на другие языки, исправление взгляда в камеру, синхронизация губ. $508 000 выручки в месяц ($6.1M ARR), 10 млн пользователей, 60+ человек в команде. За 4 года поднято более $100 млн инвестиций от Sequoia, Kleiner Perkins, Index Ventures и Andreessen Horowitz.
Главное в кейсе — как 2 фаундера за 3 дня собрали первый рабочий продукт и почему он сразу попал в нерв рынка.
Кто стоит за Captions
Гаурав Мисра — со-основатель и CEO. Родился в Бостоне, вырос в Нью-Дели, вернулся в США на бакалавриат по computer science в Boston University. До Captions работал ML-инженером в Microsoft и в инженерной команде Snapchat, где постепенно перешёл в продуктовый дизайн.
Дуайт Чёрчилл — второй со-фаундер. Они с Гауравом познакомились в стартапе Localytics (мобильная аналитика) в начале 2010-х. Вместе проработали недолго, но поддерживали связь почти 10 лет, регулярно обсуждая идеи и тренды. Когда настало время — у обоих был и опыт в инженерии, и в продуктовом менеджменте, и в машинном обучении.
Какую проблему решает Captions
Видео — самый сложный формат для создания. Раньше для приличного ролика нужны были специальные программы (Premiere, Final Cut), знания, время. Captions делает то же самое через текстовые команды на телефоне:
- Загрузил ролик → ИИ автоматически распознал речь и расставил субтитры
- Сказал «убери паузы» → ИИ сам нашёл и вырезал
- Захотел дубляж на испанском с синхронизацией губ → ИИ сделал
Главная аудитория — не профессиональные видеоредакторы, а малый бизнес, прозюмеры и блогеры, у которых нет ни денег, ни времени осваивать профессиональные инструменты.
Как родилась идея
В 2021 году Гаурав и Дуайт заметили глобальный сдвиг: видео стало доминирующим форматом коммуникации в интернете. TikTok разогнал тренд, его подхватили Reels и Shorts. Все хотят снимать видео, но большинство не умеет монтировать.
Перед запуском они провели исследование с сообществом креаторов. Главные боли:
- Монтаж сложен и долог
- Расшифровка речи и расстановка субтитров — отдельная пытка
- Делать дубляж на другие языки — почти невозможно для одного человека
Это и стало стартовой точкой — автоматизировать самое больное: транскрипцию + субтитры.
Как собрали MVP за 3 дня
Первая версия Captions — буквально 3 дня работы. Стек минимальный:
- Распознавание речи — Google Cloud Speech-to-Text API
- UI — мобильное приложение
- Логика — простой пайплайн: загрузил видео → API → текст → наложили на видео как субтитры
Запустили в App Store — и сразу пошёл органический трафик. Креаторы делились в TikTok, говорили «эта штука сама делает субтитры за минуту». Captions попала в viral на App Store, что и подтолкнуло развивать дальше.
После этого:
- Заменили Google Speech-to-Text на OpenAI Whisper для лучшего качества и скорости
- Добавили AI Edit — текстовые команды для монтажа («убери паузы», «обрежь начало»)
- AI Creator — генерация и локализация видео:
- AI Twin — клонирует твоё лицо и голос, генерит видео где «ты» говоришь любой текст
- LipDub — реальная синхронизация губ при переводе на другой язык (30+ языков)
- Для аудио — 11Labs (генерация и клонирование голоса)
- Часть моделей — собственная разработка (особенно для генерации видео)
Стек и инструменты
| Категория | Инструмент |
|---|---|
| Облако | Google Cloud Platform |
| LLM | OpenAI (включая Whisper для STT) |
| Голос | 11Labs |
| Фронт мобильного | React |
| Язык | TypeScript |
Принципиальная архитектура — гибрид: критичные для качества модели свои (видео-генерация, LipDub), стандартные задачи (распознавание речи, голос) — на внешних API. Это позволяет инвестировать ресурсы в то, где можно дать уникальное качество, и не тратить на то, что уже хорошо решено рынком.
Деньги
- Стартовые расходы: формально $0 — фаундеры сами всё собрали
- Инвестиции: $100M+ поднято от Sequoia, Kleiner Perkins, Index Ventures, Andreessen Horowitz
- Год запуска: 2020 (идея 2021)
- Выручка: $508 000 в месяц ($6.1M ARR)
- Пользователи: 10 000 000+ в 180 странах
- Команда: 60 человек
- Прибыльность: да
Стратегия роста
1. Качественный продукт для конкретной ниши. Captions сознательно не делали универсальный профессиональный редактор. Цель — малый бизнес + блогеры, у которых нет ни денег, ни времени учиться. Когда продукт точно попал в нерв этого сегмента — пошёл органический рост через сами TikTok-видео, снятые в Captions.
2. SEO как основной канал. Контент-маркетинг + оптимизация под поисковые запросы вокруг видео-монтажа, субтитров, дубляжа. Это даёт постоянный органический трафик без зависимости от рекламных бюджетов.
3. Платный трафик на тех же темах. Параллельно — целевая реклама в тех же странах и сегментах, чтобы добивать конверсию.
4. Стратегические партнёрства. Интеграции с крупными платформами и сервисами в инфлюенс-нише — расширяют охват без прямых маркетинговых затрат.
5. Подписочная модель. Captions сразу запустились с paid-only — никакого freemium. Месячный тариф $5–20 в зависимости от уровня. Логика:
- Платная модель фильтрует «случайных» пользователей
- Остаются те, кому продукт реально нужен → их feedback ценнее
- Стабильный поток выручки → можно инвестировать в дальнейшее развитие
Pricing
- $5/мес — базовый тариф
- $20/мес — full-features (включая AI Twin, LipDub, дубляж на 30+ языков)
Различие тарифов — по количеству ИИ-операций и доступности продвинутых функций. Простая логика, без 5 уровней с галочками.
5 главных уроков из кейса
-
Простота важнее функциональности. Captions выиграл у профессиональных редакторов не лучшим инструментарием, а меньшим барьером для входа. Если ты можешь обслужить только небольшую долю «продвинутых» — отдай эту нишу конкурентам, и сделай отлично для всех остальных.
-
Фокус на боль конкретного сегмента. Малый бизнес и блогеры — не professional editors. Это разный продукт, разные приоритеты, разные ценности. Попытка обслужить всех сразу обычно даёт продукт, который никому не идеален.
-
Используй готовые ИИ-кирпичи там, где можно. Whisper для распознавания речи. 11Labs для голоса. Свои модели — только там, где даёт уникальное качество. Не пытайся обогнать OpenAI в их же сильной области.
-
Платная модель с первого дня. Это не про деньги, это про качество feedback. Платящие пользователи дают точные сигналы что улучшать. Бесплатные — шум, который размывает приоритеты.
-
Скорость реакции на тренды. Когда появились новые возможности ИИ (text-to-video editing, lip-sync), Captions добавил их быстрее конкурентов. В fast-evolving индустрии это и есть главное конкурентное преимущество.
Что забрать для своего проекта
Если ты делаешь ИИ-продукт для нишевой аудитории:
- Сделай MVP за дни, не за месяцы. Captions запустился за 3 дня и попал в viral. Если идея сильная — лишние недели на «полировку» только теряют момент.
- Не пытайся обогнать ChatGPT в его же области. Используй его API. Свои модели — только где у тебя реальное преимущество (data, ниша, специфика).
- Узкая платная аудитория > широкая бесплатная. $5/мес × 100K платящих = $500K/мес. Это лучше чем 5M бесплатных пользователей с непонятной монетизацией.
- Один сегмент, один продукт. «Для блогеров и прозюмеров» — это уже фокус. «Для всех кто работает с видео» — уже размытие. Узость = конкурентное преимущество.
Похожие идеи
- Chat Thing — $12K · No-code ИИ-чатботы из Notion и URL
- SnapEdit — $20K · ИИ-редактор фотографий
- SocialBee — $717K · Платформа для управления соцсетями
- iContact — $4.17M · Email-маркетинг для малого бизнеса
- Hootsuite — $29.2M · Social media management для бизнеса