Блог инфра

Together AI — API для open-source моделей

Together AI (together.ai) — облачный API-провайдер, специализированный на open-source LLM: Llama 4, Mistral, Qwen, Yi, DeepSeek, Codestral и десятки других. Главное отличие от OpenRouter — фокус на open-source стек и hosting fine-tuned моделей.

В Wordstat — 500 показов/мес в Рунете. Узкий, но конкретный запрос среди разработчиков 2026, которые хотят уйти от vendor lock-in или сэкономить на API.

Главное в 30 секунд

ПараметрTogether AI
ТипAPI-провайдер open-source LLM
МоделиLlama 4, Mistral, Qwen, Yi, DeepSeek, Codestral, и др.
Цена$0.20-2.00 за 1M токенов
Fine-tuning✓ можно дообучать модели
Hosting custom✓ Dedicated endpoints
Из РФ✓ доступен без VPN, оплата зарубежной картой
Главный конкурентOpenRouter, Fireworks AI, Replicate

Зачем Together AI

1. Open-source стек = без vendor lock-in

Если Anthropic / OpenAI завтра поднимут цены или ограничат доступ, open-source модели остаются. Llama, Mistral, Qwen — можно даже запустить локально через Ollama.

2. Дешевле проприетарных флагманов

МодельЦена за 1M токенов
Llama 4 405B~$3/$3 (in/out)
Mistral Large~$3/$9
Qwen 3 72B~$0.90/$0.90
DeepSeek-V3~$0.27/$1.10
Codestral 22B~$0.20/$0.20

Сравните с GPT-5 ($10/$40) или Claude Opus 4 ($15/$75) — открытые модели в 5-50 раз дешевле при сравнимом качестве на многих задачах.

3. Fine-tuning

Можно дообучать модели на своих данных и хостить их у Together. Это сильно дешевле и проще чем сделать самим.

4. Хостинг своих моделей

Dedicated endpoints — поднимаете свою модель (open-source + ваше fine-tuning) на выделенном сервере. Подходит для критичных production-задач с гарантированной задержкой.

Together AI vs OpenRouter

ПараметрTogether AIOpenRouter
Open-source моделиосновной фокусесть, не основное
Проприетарные (Claude/GPT/Gemini)нет
Fine-tuning
Dedicated endpoints
Цена на open-sourceочень низкаясравнимая
Универсальностьopen-source onlyвсе провайдеры

Когда выбрать Together:

  • Хотите open-source стек
  • Нужен fine-tuning
  • Готовы исключить проприетарные модели

Когда выбрать OpenRouter:

  • Хотите универсальный доступ ко всем моделям
  • Не критично open-source

Часто используют оба: Together для open-source workloads, OpenRouter для проприетарных.

Как начать

Шаг 1. Регистрация

  1. together.ai → Sign up
  2. Через email / Google
  3. Подтвердить email
  4. Бесплатный кредит на старт ($1-5)

Шаг 2. Пополнение

Settings → Billing → пополнить. Минимум $5. Нужна зарубежная карта.

Шаг 3. API-ключ

API Keys → Create. Сохранить безопасно.

Шаг 4. Использование

Together совместим с OpenAI SDK:

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.together.xyz/v1",
  apiKey: process.env.TOGETHER_API_KEY,
});

const response = await client.chat.completions.create({
  model: "meta-llama/Llama-4-70B-Instruct",
  messages: [{ role: "user", content: "Привет!" }],
  max_tokens: 500,
});

console.log(response.choices[0].message.content);

Кейсы использования

Бюджетный AI-копирайтер

DeepSeek-V3 ($0.27/1M токенов) для генерации продуктовых описаний. На 10 000 описаний в день — ~$10/мес. Сравнить с Claude Sonnet — будет ~$500/мес.

Локальный код-ассистент

Codestral 22B через Together. Заменяет Claude Code на простых задачах, экономит на API в 10 раз.

RAG-система

Эмбеддинги через Together (есть embedding-модели) + Llama для генерации ответов. Полный стек open-source.

Fine-tuned модель под нишу

Загружаете датасет в Together, дообучаете Mistral 7B под вашу нишу. Получаете кастомную модель, хостится у Together.

Эксперименты с моделями

Сравниваете Llama 4 vs Qwen 3 vs DeepSeek-V3 на ваших задачах. Через один API.

Главные ошибки новичков

1. Использование маленьких моделей на сложных задачах. Llama 4 8B хуже Claude Opus на сложной логике. Тестируйте каждую задачу.

2. Без понимания цены на разных моделях. 70B-модель в 10 раз дороже 8B, но не всегда в 10 раз лучше для вашей задачи.

3. Без caching. Together не имеет такого prompt-caching как Anthropic. Для повторных промтов — кэшируйте на стороне приложения.

4. Использование без proper system prompt. Open-source модели чувствительнее к качеству промта чем GPT-5 / Claude. Подробнее в /promt/.

Together AI vs локальный Ollama

Альтернатива — запустить Llama / Mistral на своём железе через Ollama / vLLM.

Together AI (cloud):

  • Не нужно своё железо
  • Pay-per-use
  • Промышленные скорости

Ollama (local):

  • Бесплатно (электричество)
  • Конфиденциальность абсолютная
  • Нужно сильное железо (32+ GB RAM, желательно GPU)
  • Скорость зависит от железа (на MacBook M3 Max — ~10 tok/s для 70B)

Для production обычно — Together (предсказуемая скорость). Для личного использования или критичной конфиденциальности — Ollama.

FAQ

Together AI бесплатный? Есть бесплатный кредит на старт ($1-5). Дальше — pay-per-use, минимум $5 пополнение.

Работает ли в России? Да, together.ai открывается без VPN. Оплата — зарубежной картой через zarub.

Что лучше — Together или OpenRouter? Together — для open-source стека и fine-tuning. OpenRouter — для универсального доступа ко всем провайдерам. Часто оба нужны для разных задач.

Можно ли коммерчески использовать модели Together? Зависит от лицензии модели. Llama 4 имеет Meta License с ограничениями для крупных компаний. Mistral / Qwen — Apache 2.0 / MIT, можно везде.

Какая модель самая выгодная? DeepSeek-V3 ($0.27/$1.10) — лучшая цена/качество среди флагманов на большинстве задач. Llama 4 405B — самый сильный open-source.

Поддерживает ли function calling? Да, на моделях которые это поддерживают (Llama 4 Instruct, Mistral Large, Qwen Chat).

Можно ли подключить к Cursor или Claude Code? Технически да через OpenAI-совместимый base URL. Но эти инструменты заточены под Claude — open-source модели могут работать заметно хуже на агентных задачах.