Audio API: text-to-speech и speech-to-text

POST /v2/audio/speech — синтез речи (TTS)

Создаёт аудиофайл на основе входного текста с заданным голосом и моделью.

Запрос

POST {{API_HOST}}/v2/audio/speech

Заголовки

X-Auth-Token: YOUR_API_KEY
Content-Type: application/json

Тело запроса

{
  "model": "tts-1",
  "text": "Привет, это сервис F5AI.",
  "voice": "alloy"
}

model

string

Да

Код модели TTS (например, tts-1)
Список моделей вендоров

text

string

Да

Текст для синтеза

voice

string

Да

Голос (поддерживается моделью, напр. alloy)

POST /v2/audio/transcription — распознавание речи (STT)

Конвертирует загруженный аудиофайл в текст с использованием модели STT.

Запрос

POST {{API_HOST}}/v2/audio/transcription

Заголовки

X-Auth-Token: YOUR_API_KEY
Content-Type: multipart/form-data

Поля формы

model

string

Да

STT модель (например, whisper-1)

language

string

Да

Язык речи (ru, en, de, ...)

file

string

Да

Аудиофайл в формате mp3, wav, ogg и др.

Пример запроса

Пример ответа на транскрипцию

{
  "text": "Здравствуйте! Это сервис распознавания речи F5AI.",
  "language": "russian",
  "duration": 12.5
}

Применение