OpenAI заявила у четвер, що її API тепер включатиме низку нових функцій голосового інтелекту, призначених для допомоги розробникам у створенні застосунків, які можуть говорити, транскрибувати та перекладати розмови з користувачами.
Нова модель компанії, GPT‑Realtime‑2, є ще однією голосовою моделлю, створеною для реалістичної вокальної симуляції, здатної спілкуватися з користувачами. Однак, на відміну від своєї попередниці (GPT-Realtime-1.5), ця модель побудована на міркуваннях класу GPT‑5, які, за словами OpenAI, були створені для обробки складніших запитів від користувачів.
Компанія також запускає GPT‑Realtime‑Translate, яка, як випливає з назви, призначена для надання послуг перекладу в реальному часі, що «не відстають» від користувача в розмові. Функція включає понад 70 вхідних мов (тобто мов, які вона може розуміти) та 13 вихідних мов (мов, які вона передає співрозмовнику).
Нарешті, компанія також запустила нову можливість транскрибування, GPT-Realtime-Whisper, яка надає користувачам функцію перетворення мовлення на текст у реальному часі, що фіксується під час взаємодії.
«Разом моделі, які ми запускаємо, переходять від простого аудіо типу “запит-відповідь” до голосових інтерфейсів, які дійсно можуть виконувати роботу: слухати, міркувати, перекладати, транскрибувати та діяти в процесі розмови», — заявила компанія.
Кому будуть корисні ці оновлення? Очевидною цільовою аудиторією є компанії, які хочуть розширити свої можливості обслуговування клієнтів. Однак OpenAI також зазначає, що її нові функції допоможуть у широкому спектрі сфер, включаючи освіту, медіа, заходи та платформи для творців контенту, серед інших.
Хоч якими корисними здаються ці інструменти з корпоративної точки зору, також видається ймовірним, що їх можуть використовувати не за призначенням. Компанія заявила, що вбудувала захисні механізми, щоб запобігти зловживанню новими функціями для створення спаму, шахрайства чи інших форм онлайн-зловживань. У систему вбудовано певні тригери, тому «розмови можуть бути зупинені, якщо буде виявлено, що вони порушують наші рекомендації щодо шкідливого контенту», — повідомила OpenAI.
Усі нові голосові моделі включені до Realtime API від OpenAI. Translate та Whisper тарифікуються за хвилину, тоді як GPT-Realtime-2 тарифікується за споживання токенів.

Залишити відповідь
Щоб відправити коментар вам необхідно авторизуватись.