Caicaini
Начать

Старт

Модели

Пять виртуальных моделей покрывают все рабочие нагрузки Caicaini. Выбирай по возможностям, а не по вендору: передавай id в поле model каждого запроса /v1/messages или /v1/chat/completions.

Идентификаторы моделей

Это единственные допустимые значения для поля model. Любое другое — включая старые id, которые ты мог видеть где-то ещё, — возвращает 400 с типом invalid_request_error.

caicaini/auto

Auto (умный роутинг)

Умный роутер. На каждый поворот выбирает модель, исходя из сложности промпта, нужных возможностей и оставшегося баланса.

Контекст 200KМакс. выход 8,192vision · tools · thinking

Когда у тебя нет сильного предпочтения. В среднем самая дешёвая по кредитам.

caicaini/opus

Opus

Самая мощная модель. Подходит для тяжёлого рассуждения, многошагового планирования, агентских циклов и кода, который нужно держать в голове сразу по многим файлам.

Контекст 1MМакс. выход 32,768vision · tools · thinking

Сложные задачи, где качество важнее цены.

caicaini/sonnet

Sonnet

Сбалансированная универсальная модель. Отлично выдаёт структурированный вывод, RAG-вопросы-ответы, суммаризацию и большинство агентских циклов.

Контекст 1MМакс. выход 16,384vision · tools · thinking

Сильный дефолт для продакшен-трафика.

caicaini/kimi

Lite

Экономичная модель с окном контекста 256K и нативной мультимодальностью. Отлично подходит для retrieval по длинному контексту, вопрос-ответа по документам и высокообъёмных пайплайнов, где цена важнее последних 5% качества.

Контекст 256KМакс. выход 32,768vision · tools · thinking

Большие объёмы, длинные документы, всё, где доминирует юнит-экономика.

caicaini/haiku

Haiku

Самая быстрая модель. Подстроена под короткие, чувствительные к латентности повороты: классификация, роутинг, лёгкая суммаризация и встраиваемые UX-фичи, которым нужен ответ за секунду.

Контекст 200KМакс. выход 8,192vision · tools

Нагрузки с критической латентностью.

GET /v1/models

Эндпойнт-список возвращает те же пять записей плюс флаги возможностей. Используй его, чтобы скрывать вызовы в клиенте по фиче-флагам (показывать кнопку «проанализировать изображение» только если у выбранной модели supports_vision равно true).

curl https://caicaini.com/v1/models \
  -H "Authorization: Bearer cai_api_YOUR_KEY"

Форма ответа

ответ · 200 OK
{
  "data": [
    {
      "id": "caicaini/auto",
      "object": "model",
      "display_name": "Auto (smart routing)",
      "description": "Routes intelligently to the cheapest model that handles the request well.",
      "context_window": 200000,
      "max_output_tokens": 8192,
      "supports_vision": true,
      "supports_tools": true,
      "supports_thinking": true
    },
    {
      "id": "caicaini/opus",
      "object": "model",
      "display_name": "Opus",
      "description": "Highest-capability model. Best for complex reasoning, deep analysis, and code that benefits from deliberate thought.",
      "context_window": 1000000,
      "max_output_tokens": 32768,
      "supports_vision": true,
      "supports_tools": true,
      "supports_thinking": true
    },
    {
      "id": "caicaini/sonnet",
      "object": "model",
      "display_name": "Sonnet",
      "description": "Balanced model. Strong reasoning at a more economical price point.",
      "context_window": 1000000,
      "max_output_tokens": 16384,
      "supports_vision": true,
      "supports_tools": true,
      "supports_thinking": true
    },
    {
      "id": "caicaini/kimi",
      "object": "model",
      "display_name": "Lite",
      "description": "Fast, low-cost model with native multimodal support. Great default for chat and code completion.",
      "context_window": 262144,
      "max_output_tokens": 32768,
      "supports_vision": true,
      "supports_tools": true,
      "supports_thinking": true
    },
    {
      "id": "caicaini/haiku",
      "object": "model",
      "display_name": "Haiku",
      "description": "Fastest, cheapest tier. Best for high-throughput simple completions and lightweight tooling.",
      "context_window": 200000,
      "max_output_tokens": 8192,
      "supports_vision": true,
      "supports_tools": true,
      "supports_thinking": false
    }
  ]
}

Как выбрать модель

  • Начинай со всеми caicaini/auto. После пары сотен поворотов посмотри в логах, какие модели роутер реально выбирает, и реши, нужно ли пинить.
  • Для retrieval по длинному контексту (более ~200K входных токенов) пинь caicaini/kimi ради юнит-экономики или caicaini/opus / caicaini/sonnet, если нужно окно в 1M токенов.
  • Для агентских циклов с расширенным размышлением пинь caicaini/opus или caicaini/sonnet и выставляй поле thinking в запросе.
  • Для поворотов с субсекундной латентностью пинь caicaini/haiku. Не используй её для задач с длинным синтезом или расширенным размышлением.