Старт
Модели
Пять виртуальных моделей покрывают все рабочие нагрузки Caicaini. Выбирай по возможностям, а не по вендору: передавай id в поле model каждого запроса /v1/messages или /v1/chat/completions.
Идентификаторы моделей
Это единственные допустимые значения для поля model. Любое другое — включая старые id, которые ты мог видеть где-то ещё, — возвращает 400 с типом invalid_request_error.
caicaini/auto
Auto (умный роутинг)
Умный роутер. На каждый поворот выбирает модель, исходя из сложности промпта, нужных возможностей и оставшегося баланса.
Когда у тебя нет сильного предпочтения. В среднем самая дешёвая по кредитам.
caicaini/opus
Opus
Самая мощная модель. Подходит для тяжёлого рассуждения, многошагового планирования, агентских циклов и кода, который нужно держать в голове сразу по многим файлам.
Сложные задачи, где качество важнее цены.
caicaini/sonnet
Sonnet
Сбалансированная универсальная модель. Отлично выдаёт структурированный вывод, RAG-вопросы-ответы, суммаризацию и большинство агентских циклов.
Сильный дефолт для продакшен-трафика.
caicaini/kimi
Lite
Экономичная модель с окном контекста 256K и нативной мультимодальностью. Отлично подходит для retrieval по длинному контексту, вопрос-ответа по документам и высокообъёмных пайплайнов, где цена важнее последних 5% качества.
Большие объёмы, длинные документы, всё, где доминирует юнит-экономика.
caicaini/haiku
Haiku
Самая быстрая модель. Подстроена под короткие, чувствительные к латентности повороты: классификация, роутинг, лёгкая суммаризация и встраиваемые UX-фичи, которым нужен ответ за секунду.
Нагрузки с критической латентностью.
GET /v1/models
Эндпойнт-список возвращает те же пять записей плюс флаги возможностей. Используй его, чтобы скрывать вызовы в клиенте по фиче-флагам (показывать кнопку «проанализировать изображение» только если у выбранной модели supports_vision равно true).
curl https://caicaini.com/v1/models \
-H "Authorization: Bearer cai_api_YOUR_KEY"Форма ответа
{
"data": [
{
"id": "caicaini/auto",
"object": "model",
"display_name": "Auto (smart routing)",
"description": "Routes intelligently to the cheapest model that handles the request well.",
"context_window": 200000,
"max_output_tokens": 8192,
"supports_vision": true,
"supports_tools": true,
"supports_thinking": true
},
{
"id": "caicaini/opus",
"object": "model",
"display_name": "Opus",
"description": "Highest-capability model. Best for complex reasoning, deep analysis, and code that benefits from deliberate thought.",
"context_window": 1000000,
"max_output_tokens": 32768,
"supports_vision": true,
"supports_tools": true,
"supports_thinking": true
},
{
"id": "caicaini/sonnet",
"object": "model",
"display_name": "Sonnet",
"description": "Balanced model. Strong reasoning at a more economical price point.",
"context_window": 1000000,
"max_output_tokens": 16384,
"supports_vision": true,
"supports_tools": true,
"supports_thinking": true
},
{
"id": "caicaini/kimi",
"object": "model",
"display_name": "Lite",
"description": "Fast, low-cost model with native multimodal support. Great default for chat and code completion.",
"context_window": 262144,
"max_output_tokens": 32768,
"supports_vision": true,
"supports_tools": true,
"supports_thinking": true
},
{
"id": "caicaini/haiku",
"object": "model",
"display_name": "Haiku",
"description": "Fastest, cheapest tier. Best for high-throughput simple completions and lightweight tooling.",
"context_window": 200000,
"max_output_tokens": 8192,
"supports_vision": true,
"supports_tools": true,
"supports_thinking": false
}
]
}Как выбрать модель
- Начинай со всеми
caicaini/auto. После пары сотен поворотов посмотри в логах, какие модели роутер реально выбирает, и реши, нужно ли пинить. - Для retrieval по длинному контексту (более ~200K входных токенов) пинь
caicaini/kimiради юнит-экономики илиcaicaini/opus/caicaini/sonnet, если нужно окно в 1M токенов. - Для агентских циклов с расширенным размышлением пинь
caicaini/opusилиcaicaini/sonnetи выставляй полеthinkingв запросе. - Для поворотов с субсекундной латентностью пинь
caicaini/haiku. Не используй её для задач с длинным синтезом или расширенным размышлением.