12 мая 2026 г.

Together AI — облако для inference open-source моделей

Together AI (together.ai) — облачный провайдер, который держит на своих GPU открытые ИИ-модели и продаёт к ним API. В каталоге — Llama, Qwen, DeepSeek, Kimi, GLM, MiniMax, Mistral, Flux и ещё несколько сотен моделей. Главное отличие от OpenRouter — Together не агрегатор чужих API, а собственный inference-стек на своих H100/B200 с возможностью fine-tuning и аренды выделенных endpoint’ов.

В Wordstat — около 500 показов/мес по запросу «together ai» в Рунете. Узкая, но конкретная аудитория: разработчики, которые строят production на открытых моделях и не хотят зависеть от OpenAI или Anthropic.

Главное в 30 секунд

Параметр	Together AI
Что это	Inference-облако для open-source ИИ-моделей
Каталог	200+ моделей: Llama, Qwen, DeepSeek, Kimi, GLM, Flux, Mistral, Mixtral
Цена inference	$0.05–$9.00 за 1M токенов
Fine-tuning	LoRA $0.48–$2.90, full fine-tune $1.20–$8.00 за 1M обучающих токенов
Dedicated endpoint	H100 $6.49/час, B200 $11.95/час
Code Sandbox	$0.0446 за vCPU-час, $0.03 за сессию интерпретатора
Бесплатный кредит	$25 на старт (исторически)
Из РФ	Сайт открывается без VPN, оплата — зарубежной картой
Главные конкуренты	OpenRouter, Fireworks, Replicate, fal.ai, Groq

Что такое Together AI

Together AI — это inference-as-a-service для открытых моделей. Компания основана в 2022 году в Сан-Франциско; среди инвесторов — NVIDIA, Salesforce Ventures, Lux Capital и General Catalyst. В 2025-м раунд серии C на $305 млн, оценка $3.3 млрд — для small-business сценария фон спокойный.

Компания владеет дата-центрами с H100 и B200, держит open-source ИИ-модели в hot-режиме и продаёт доступ через API, совместимый с OpenAI SDK. На peak-нагрузках latency у Together стабильнее, чем у «облака из десятка маленьких провайдеров».

Внутри одного аккаунта работают четыре продукта:

Inference API — pay-per-token на десятках моделей.
Fine-tuning — обучение LoRA или полная донастройка на своём датасете.
Dedicated Endpoints — аренда выделенного GPU под одну модель с фиксированной стоимостью часа.
Code Sandbox — изолированная среда для запуска кода, который генерирует модель (для агентов и code-interpreter).

Биллинг везде разный: serverless inference — по токенам, dedicated — по GPU-часам, fine-tuning — по обучающим токенам плюс отдельная плата за хостинг готовой модели. Это важно учитывать при планировании бюджета.

Функции Together AI

Inference API

Серверный API с pay-per-token биллингом. Под капотом — OpenAI-совместимый endpoint, поэтому переезд с GPT занимает минут пять.

import OpenAI from "openai";

const client = new OpenAI({
 baseURL: "https://api.together.xyz/v1",
 apiKey: process.env.TOGETHER_API_KEY,
});

const response = await client.chat.completions.create({
 model: "deepseek-ai/DeepSeek-V4-Pro",
 messages: [{ role: "user", content: "Привет!" }],
 max_tokens: 500,
});

console.log(response.choices[0].message.content);

Поддерживается streaming, function calling (на моделях, где это умеет сама модель), structured output через JSON schema, vision на мультимодальных моделях.

Отдельная фишка — Batch API со скидкой до 50% для асинхронных задач. Запрос ставится в очередь, ответ приходит в течение 24 часов. Подходит для офлайн-обработки больших корпусов: классификация документов, генерация описаний для каталога, разметка данных.

Ещё одна экономия — cached input. На некоторых моделях повторяющийся системный промт оплачивается со скидкой 80–90%. По данным aipricing.guru — MiniMax M2.7 даёт скидку 80% на кэш, DeepSeek V4 Pro — около 90%. Помогает в чат-интерфейсах с длинным system prompt и в RAG, где контекст переиспользуется между запросами.

Fine-tuning

Загружается JSONL-датасет, выбирается базовая модель и метод — LoRA или full fine-tuning. Цены за 1M обучающих токенов по данным together.ai/pricing:

Метод	Модели до 100B	Специализированные модели
Supervised LoRA	$0.48–$2.90	$3.00–$100.00 (с минимальным чеком $6–$60)
Full Fine-Tuning	$1.20–$8.00	—

После обучения модель нужно где-то держать. Один из подводных камней, который разбирает eesel.ai — хостинг fine-tuned модели на одном H100 24/7 обходится примерно в $4 700/мес. Это перекрывает стоимость самого обучения для большинства задач. Если запросов мало — выгоднее serverless. Fine-tuning имеет смысл, когда нагрузка стабильная и модель работает в production непрерывно.

Dedicated Endpoints

Аренда выделенного GPU с одной моделью на нём. Цены:

1× H100 80GB — $6.49/час (~$4 700/мес при 24/7)
1× HGX B200 180GB — $11.95/час (~$8 600/мес)

Зачем это нужно:

Гарантированная задержка (нет очередей с другими клиентами).
Можно поднять кастомную fine-tuned модель.
Фиксированный счёт — не зависит от объёма токенов.

Точка окупаемости относительно serverless — примерно от 20–30M токенов/день на одной модели. Меньше — выгоднее платить за токены.

Code Sandbox

Изолированная среда, в которой модель может выполнять сгенерированный код — Python, shell, JS. Нужна для агентов и code-interpreter-сценариев. Тарификация:

vCPU — $0.0446/час
RAM — $0.0149/GiB-час
Сессия Code Interpreter — $0.03 (60 минут)

Аналог Code Interpreter у OpenAI, но без привязки к одной модели — можно гонять код из любой модели Together.

Агенты

Together не продаёт «агента» отдельным SKU — собирается из Inference API + Code Sandbox + опционально dedicated endpoint. В документации есть примеры на LangGraph, CrewAI и собственном Together Agents SDK. Для сложных production-агентов с tool calling и code execution стек получается дешевле, чем тот же сценарий на GPT-4o.

Какие модели поддерживает Together AI

В каталоге — 200+ моделей. Основные актуальные на 2026 год по данным Together AI и aipricing.guru:

Языковые модели

Модель	Input $/1M	Output $/1M	Где сильна
DeepSeek V4 Pro	$2.10	$4.40	reasoning, код, математика
DeepSeek V3.1	$0.60	$1.70	универсальный флагман
DeepSeek R1	$3.00	$7.00	reasoning с цепочкой рассуждений
Llama 3.3 70B	$0.88–$1.04	$0.88–$1.04	общий диалог
Qwen 3.7-Max	$1.25	$3.75	многоязычность, длинный контекст
Qwen 3.6 Plus	$0.50	$3.00	дешёвая альтернатива GPT-4o-mini
Kimi K2.6 (Moonshot)	$1.20	$4.50	200K+ контекст
GLM 5.1	$1.40	$4.40	китайская флагман-модель
MiniMax M2.7	$0.30	$1.20	дешёвый чат, хороший русский
GPT-OSS 120B	$0.15	$0.60	open-weights от OpenAI
GPT-OSS 20B	$0.05	$0.20	бюджетный класс
Mixtral 8x22B	~$1.20	~$1.20	sparse MoE, быстрые ответы

Картинки и видео

Flux (Black Forest Labs) — $0.0006–$0.134 за изображение в зависимости от модели и разрешения.
Видео-генерация — $0.14–$3.20 за ролик.

Embeddings

В каталоге есть embedding-модели — bge, jina, m2-bert. Цены — от $0.008 за 1M токенов. Хватает на полноценный RAG-стек без OpenAI.

Полный список — в docs.together.ai/docs/serverless/models. Обновляется почти каждую неделю — новые open-source релизы заходят в каталог через 1–3 дня после публикации весов.

Цены за 1M токенов

Общий разброс — от $0.05 до $9.00 за 1M токенов. Для ориентира — сравнение флагманов:

Модель	Together AI	OpenAI / Anthropic
DeepSeek V3.1	$0.60 / $1.70	— (нет)
Llama 3.3 70B	~$1.04 / $1.04	— (нет)
Эквивалент GPT-5	DeepSeek R1 $3 / $7	GPT-5 $10 / $40
Эквивалент Claude Opus	DeepSeek V4 Pro $2.10 / $4.40	Claude Opus 4 $15 / $75

Открытые модели через Together выходят в 3–10 раз дешевле проприетарных флагманов на сравнимых задачах. Не на всех — GPT-5 и Claude Opus 4 пока сильнее на сложных агентных и reasoning-задачах. Но для генерации контента, классификации, простого код-ассистента, RAG — open-source через Together почти всегда выгоднее.

Дополнительные скидки:

Batch API — до 50% для асинхронных задач.
Cached input — 80–90% скидки на повторяющийся контекст.
Reserved GPU кластеры — от $3.99/час за H100 при бронировании на 91–180 дней.

Доступ из РФ

Сайт together.ai открывается из России без VPN. Регистрация — по email или Google-аккаунту. Бесплатный кредит $25 даётся на старт (по последним данным, исторически — суммы менялись).

Оплата — только зарубежной картой. Российские карты не принимаются. Варианты:

Зарубежная карта — кипрская, армянская, казахстанская, грузинская.
Виртуальные карты через посредников — работают, но нужно следить за лимитами.
Через посредника-юрлицо с зарубежным счётом, если оборот большой.
Через готовые маркетплейсы вроде Djekxa — там продают аккаунты Together с балансом $5 за условные 600–800 рублей. Не для production (риск блокировки), но удобно один раз протестировать, прежде чем оформлять зарубежную карту.

API-вызовы из РФ без VPN работают стабильно. Прямой санкционной блокировки IP нет — в отличие от OpenAI и Anthropic, которые отрезают часть российских IP-диапазонов.

Подробнее про оплату зарубежных ИИ-сервисов — в статье про карты для оплаты ИИ.

152-ФЗ и где живут данные

Серверы Together AI — в США (Калифорния и Виргиния по основным регионам). Это сразу означает три вещи для российского бизнеса:

По 152-ФЗ ПД граждан РФ должны изначально собираться на серверах в РФ. Together — уже вторая точка. Допустимо, если первичный сбор в российском Postgres / S3, и наружу уходят только обезличенные эмбеддинги или промты.
Под GDPR Together подписывает DPA с SCC-клаузами. По 152-ФЗ это не помогает, но даёт юридическую базу для EU-клиентов.
Платёжные данные (карты, СБП) никогда не отправлять в LLM-запрос. PCI DSS — одинаково для Together, OpenAI и любого иностранного провайдера.

Практичный паттерн: вся работа с ПД — внутри РФ (GigaChat или YandexGPT), Together используется для генерации контента, кода, агентов и других сценариев, где ПД физически нет.

Что блокировать на стороне приложения

На Together нет «российского правового режима» — фильтрация контента это задача приложения. Минимум: регулярки против инъекции ПД и платёжных реквизитов в промт, своё логирование запросов (Together не хранит их долго), rate-limit по пользователю, чтобы один клиент не выжег весь кредит за час.

Together AI vs OpenRouter vs Replicate vs fal.ai

Четыре провайдера часто путают, потому что все продают «API к чужим моделям». Разница — в фокусе.

Параметр	Together AI	OpenRouter	Replicate	fal.ai
Модель работы	Собственный inference на своих GPU	Агрегатор API чужих провайдеров	Маркетплейс моделей сообщества	Inference на своих GPU
Open-source LLM	основной фокус	есть, но среди прочего	есть, через community	мало
Проприетарные (GPT, Claude, Gemini)	нет	✓ всё в одном API	нет	нет
Картинки	Flux	через сторонних	основной фокус	основной фокус
Видео	есть	через сторонних	есть	есть
Fine-tuning	✓	✗	частично	✗
Dedicated endpoints	✓	✗	✓	✓
Code Sandbox	✓	✗	✗	✗
Цена на open-source LLM	низкая	сравнимая	выше	—
Холодный старт	минимальный	минимальный	бывает 30+ сек	минимальный

Когда выбрать Together:

Production на open-source LLM с большим объёмом.
Нужен fine-tuning и хостинг кастомной модели.
Картинки Flux + LLM в одном аккаунте.

Когда выбрать OpenRouter:

Нужен доступ к Claude, GPT, Gemini в одном API.
Хочется быстро переключаться между провайдерами по цене или доступности.
Прототип, эксперименты, MVP.

Когда выбрать Replicate:

Картинки и видео — главный сценарий.
Нужны экзотические community-модели.

Когда выбрать fal.ai:

Генерация картинок и видео в real-time (низкая задержка — основной приоритет).

Часто используют комбинацию: Together для LLM-нагрузки, OpenRouter для проприетарных моделей в качестве fallback, fal.ai для real-time картинок.

Use cases

Production inference на open-source модели

Сценарий, где Together выигрывает чаще всего. Пример — чат-бот поддержки на Llama 3.3 70B или DeepSeek V3.1. При нагрузке 50M токенов/мес счёт получается $50–$300, тогда как тот же объём на Claude Sonnet — $500–$3 000. На больших объёмах разница становится критичной.

Fine-tune под бренд

Загружается датасет из тикетов поддержки, чатов с клиентами, корпоративных документов. Дообучается Qwen или Llama на LoRA. Полученная модель отвечает в стиле компании, знает продукт и не «галлюцинирует» лишнего. Хостится в Together на dedicated endpoint. Альтернатива — самостоятельная сборка на своих GPU, что дороже по времени инженеров.

Бюджетный AI-копирайтер

DeepSeek V3.1 ($0.60 / $1.70) для генерации описаний товаров, заголовков, мета-тегов. На каталоге в 10 000 SKU с обновлением раз в месяц — счёт около $10–$30. Сравнимо с человеком-копирайтером, который пишет одно описание за час.

RAG-стек целиком

Embeddings (bge-large) + Llama 3.3 для генерации ответов + Code Sandbox для проверки сгенерированного SQL. Полный RAG-стек на одном провайдере, один счёт, один SDK.

Агент с tool calling

LangGraph + DeepSeek V4 Pro в роли planner’а + Code Sandbox для выполнения шагов. Стек дешевле и предсказуемее, чем GPT-4o-агент на тех же задачах. Подробности — в обзоре Claude Code и общем разборе агентов.

Эксперименты и бенчмарки

Через один SDK можно прогнать одну и ту же задачу через 10 моделей за 5 минут. Полезно при выборе модели под конкретный сценарий — Llama 3.3 vs Qwen 3.6 vs DeepSeek V3.1 vs Kimi K2.6 на ваших реальных данных.

Главные ошибки новичков

1. Использование маленьких моделей на сложных задачах. Llama 3.3 8B хуже Claude Opus на сложной логике. GPT-OSS 20B тоже не флагман. Перед production-выкатом тестируйте 3–5 моделей разного размера на реальных задачах и считайте качество, а не только цену.

2. Игнорирование hidden costs у fine-tuning. Обучение стоит $50–$500. Хостинг 24/7 на H100 — $4 700/мес. Если нагрузка маленькая — выгоднее serverless без fine-tune. Если стабильная — считайте окупаемость dedicated endpoint.

3. Отсутствие cached input на повторяющемся system prompt. На моделях с поддержкой кэша скидка 80–90%. Если system prompt в каждом запросе одинаковый и длинный — это экономит десятки процентов от счёта.

4. Без proper system prompt. Open-source модели чувствительнее к качеству промта, чем GPT-5 или Claude. Базовый шаблон — роль, задача, формат ответа, примеры. Подробнее в /promt/.

5. Запросы через российские IP без проверки. API работает из РФ, но некоторые CDN-пути иногда деградируют. Если важна стабильность — арендуйте VPS в нейтральном регионе и проксируйте оттуда.

6. Лицензии моделей. Llama имеет Meta License с ограничениями для крупных компаний (>700M MAU). Mistral, Qwen, DeepSeek — Apache 2.0 / MIT, свободно. Перед коммерческим использованием проверьте лицензию.

Где Together лучше и где хуже

Together лучше всего, когда:

Нужен production inference на open-source моделях с предсказуемой ценой за токен. По eesel.ai — $0.03–$4.50 за 1M токенов, Llama / DeepSeek / Qwen перекрывают качество flagship на 80–90% при цене в 3–10 раз ниже.
Нужен fine-tuning с возможностью сразу хостить результат. У OpenRouter этого нет, у Replicate частично, у fal.ai — нет.
Нужно много моделей в одном аккаунте и SDK — каталог 200+ позиций, обновляется почти каждую неделю.
Нужны dedicated endpoints на H100 / B200 с фиксированной ценой за час.
Нужна OpenAI-совместимость — переезд с GPT идёт заменой baseURL и ключа.

Together хуже, когда:

Нужны flagship-проприетарные модели — GPT-5, Claude Opus 4, Gemini 2.5 Pro. На Together их нет — это OpenRouter или напрямую Anthropic и OpenAI.
Нужна готовая экосистема уровня OpenAI: Assistants API, Realtime API, нативный Whisper, DALL-E, файловый Code Interpreter. Together даёт кубики, не готовую сборку.
Нужны специализированные сервисы — Whisper, text-embedding-3-large, ElevenLabs. Open-source альтернативы есть, но требуют экспериментов.
Нужна локализация в РФ под 152-ФЗ. Together — США; для серверов в России — GigaChat, YandexGPT или self-hosted.
Нужен бытовой чат-интерфейс для команды без разработчиков. Together — это API.

Решение обычно сводится к одному вопросу: готов ли строить production на open-source моделях? Если да — Together даёт лучшую цену и тулкит. Если нет — OpenRouter, Anthropic, OpenAI.

Сколько реально стоит счёт: 3 сценария

Цены за 1M токенов на бумаге выглядят красиво. На счёте в конце месяца — иногда нет. По данным cloudzero.com и aipricing.guru — три типичных сценария.

MVP AI-стартапа, 5M токенов/мес. Чат-бот на DeepSeek V3.1: 5M input × $0.60 + 2M output × $1.70 + 10M embeddings × $0.008 ≈ $6.50/мес. Стартового кредита $25 хватает на 3–4 месяца разработки. Минимальный депозит — $5.

Продакшен 200M токенов/мес. Контент-фабрика на DeepSeek V3.1, 60% хитов в кэш системного промта. Input без кэша 80M × $0.60 = $48, в кэше 120M × $0.06 = $7.20, output 80M × $1.70 = $136. Итого ≈ $191/мес. На том же объёме Claude Sonnet — около $1 400, GPT-5 — около $2 000. Разница в 7–10 раз.

Fine-tuned модель в hot-режиме. Qwen 3.6 Plus, 30M токенов LoRA × $1.20 = $36, плюс dedicated H100 24/7 (730 ч × $6.49) = $4 738. Итого первый месяц ≈ $4 774. Точка безразличия — около 30M токенов/день на одной модели. Меньше — serverless-инференс LoRA-адаптеров в десятки раз дешевле. По cloudzero.com — самый частый сценарий «переплатили в 50–200 раз».

Together AI vs локальный Ollama

Альтернатива serverless — запустить ту же открытую модель локально через Ollama или vLLM.

Together AI (cloud):

Не нужно своё железо.
Pay-per-use — платите только за токены.
Промышленная скорость inference (H100/B200).
Готовое масштабирование.

Ollama (local):

Бесплатно после покупки железа.
Конфиденциальность абсолютная — ничего не уходит наружу.
Нужно сильное железо: 32+ GB RAM, GPU для нормальной скорости.
Llama 70B на MacBook M3 Max — около 10 tok/s, что в 10–20 раз медленнее облака.

Для production под нагрузкой — Together. Для разработки, экспериментов, локальных пет-проектов или критичной конфиденциальности — Ollama. Часто схема комбинированная: разработка локально на Ollama, production на Together с теми же моделями.

FAQ

Чем Together AI отличается от OpenRouter? Together — собственный inference-стек на своих GPU с фокусом на open-source ИИ-моделях, fine-tuning и dedicated endpoints. OpenRouter — агрегатор, который маршрутизирует запросы к десяткам внешних провайдеров (включая сам Together). Для production на одной open-source модели — Together. Для гибкого доступа ко всем флагманам сразу — OpenRouter.

Работает ли Together AI в России? Да. Сайт together.ai и API открываются без VPN. Оплата — только зарубежной картой, российские не принимаются.

Сколько стоит начать? Регистрация бесплатна, на старте даётся около $25 кредита (сумма менялась). Минимальный платный депозит — $5. Pay-per-use, без подписок.

Можно ли fine-tune модель Together AI на своих данных? Да. Поддерживается LoRA (дешевле) и full fine-tuning (дороже). Цены — $0.48–$8.00 за 1M обучающих токенов в зависимости от размера модели. После обучения модель хостится в Together или экспортируется (где лицензия модели позволяет).

Какая модель самая выгодная по цене и качеству? В 2026 году — DeepSeek V3.1 ($0.60 / $1.70) для большинства универсальных задач и MiniMax M2.7 ($0.30 / $1.20) для простого диалога с хорошим русским. На reasoning — DeepSeek V4 Pro или R1, дороже но сильнее на математике и коде.

Поддерживает ли function calling? Да, на моделях, где это умеет сама архитектура: Llama 3.3 Instruct, Qwen 3 Chat, DeepSeek V3.1/V4 Pro, Mixtral, Mistral Large. Реализация совместима с OpenAI SDK.

Можно ли подключить Together к Cursor или Claude Code? Через OpenAI-совместимый base URL — технически да. На практике Cursor и Claude Code оптимизированы под Anthropic и GPT — open-source модели на агентных задачах с правкой кода работают заметно слабее. Для самой генерации кода в IDE — работает, для агентного workflow — лучше нативные Anthropic-модели.

Что такое Code Sandbox в Together AI? Изолированная среда для выполнения кода, который сгенерировала модель — Python, shell, JS. Нужна для агентов и code-interpreter-сценариев. Тарифицируется по vCPU-часам и оперативной памяти, плюс $0.03 за 60-минутную сессию интерпретатора.

Когда выбирать dedicated endpoint вместо serverless? Когда стабильная нагрузка от 20–30M токенов/день на одной модели. H100 стоит ~$4 700/мес при 24/7. На меньших объёмах serverless дешевле и проще.

Есть ли у Together SLA и техподдержка? Для крупных клиентов на dedicated endpoints — да, по договору. На serverless tier — best-effort, отдельного гарантированного SLA нет.

Можно ли коммерчески использовать модели Together AI? Зависит от лицензии конкретной модели. Llama — Meta License (ограничения для очень крупных компаний). Mistral, Qwen, DeepSeek, Mixtral — Apache 2.0 / MIT, разрешено везде. Проверяйте лицензию перед запуском.

Хранит ли Together AI запросы и ответы? По умолчанию — короткое окно для биллинга и отладки. Долгосрочное обучение на ваших данных без явного согласия не ведётся. Для строгих требований конфиденциальности — dedicated endpoint или enterprise-договор с отключением логирования.

Какие модели Together лучше всего подходят для русского языка? По наблюдениям — MiniMax M2.7, DeepSeek V3.1, Qwen 3.6 Plus и Qwen 3.7-Max уверенно держат русский. Llama 3.3 70B знает русский, но иногда сваливается в английские термины. Mistral Large — средне. Для критичных задач протестируйте 3–4 модели на своих промтах через OpenRouter или playground Together.

Подходит ли Together AI для RAG? Да. Embedding-модели (bge, jina, m2-bert) + LLM (DeepSeek V3.1 или Llama 3.3) + опционально Code Sandbox для проверки SQL — полный RAG-стек на одном провайдере. Для прода обычно добавляют ещё векторную базу (Qdrant, pgvector, Weaviate) — сам Together векторное хранилище не предоставляет.

Можно ли работать с Together AI без VPN? Да. И сайт, и API доступны из России без VPN. Это одно из главных преимуществ перед OpenAI и Anthropic, у которых часть IP-диапазонов РФ заблокирована. Если в офисе используется собственная сеть с агрессивными firewall-правилами — может потребоваться разрешить api.together.xyz.

Что выбрать — Together или Hugging Face Inference? Together быстрее, дороже за токен, но даёт production-grade SLA и автоскейлинг. Hugging Face Inference — дешевле и гибче, но холодные старты и нестабильный latency делают её больше про эксперименты. Production — Together или Replicate. Прототип — Hugging Face.

Как Together AI считает токены? Стандартный токенайзер используемой модели (Llama использует Tiktoken-like схему Meta, DeepSeek — свой DSV-токенайзер). Один токен — примерно 0.75 слова на английском и 1.5–2 байта UTF-8 на русском. На русском счёт выходит чуть дороже, чем на английском при том же объёме осмысленного текста.

Что делать, если модель неожиданно убрали из каталога? В Together такое случается с релизами, которые не набрали трафика. Бизнес-логика — закрепляться на нескольких моделях сразу и держать fallback через OpenAI-совместимый API. На случай ухода модели API возвращает 404 — это сразу видно в мониторинге и можно переключить роутинг.

Дальше

OpenRouter — агрегатор всех провайдеров ИИ-моделей: когда нужен доступ к GPT, Claude, Gemini в одном API.
Hugging Face — каталог моделей и Inference API: альтернатива Together для прототипов и community-моделей.
Replicate — облако для генеративных моделей: для картинок и видео сильнее, чем Together.
Llama — обзор флагмана Meta: подробно про лицензию и линейку моделей.
DeepSeek — китайский флагман: главная open-source альтернатива GPT-5.
Mistral — европейский open-source провайдер: когда важна Apache 2.0 и собственный инференс в EU.
Qwen — открытые модели Alibaba: что Qwen 3 умеет на русском.
API нейросетей — обзор всех вариантов: сравнительная таблица провайдеров.
Хостинг для ИИ-проекта: где держать своё приложение на Together.
Anthropic / Claude API: когда нужен flagship уровень reasoning.