Mistral випускає нову модель генерації мовлення з відкритим кодом

Фото для новини: Mistral випускає нову модель генерації мовлення з відкритим кодом

Французька компанія Mistral, що займається штучним інтелектом, у четвер випустила нову модель перетворення тексту на мовлення з відкритим кодом, яку можуть використовувати голосові ШІ-асистенти або в корпоративних сценаріях, як-от підтримка клієнтів. Модель, яка дозволяє підприємствам створювати голосових агентів для продажів та взаємодії з клієнтами, ставить Mistral у пряму конкуренцію з такими компаніями, як ElevenLabs, Deepgram та OpenAI.

Нова модель, під назвою Voxtral TTS, підтримує дев’ять мов, включаючи англійську, французьку, німецьку, іспанську, нідерландську, португальську, італійську, хінді та арабську.

«Наші клієнти просили про мовну модель. Тому ми створили невелику мовну модель, яка може поміститися на розумному годиннику, смартфоні, ноутбуці або інших периферійних пристроях. Її вартість складає частку від будь-чого іншого на ринку, але вона пропонує найсучаснішу продуктивність», — розповів П’єр Сток, віце-президент з наукових операцій у Mistral AI, TechCrunch під час телефонного інтерв’ю.

Mistral заявила, що нова модель може адаптувати власний голос на основі зразка тривалістю менше п’яти секунд і може вловлювати такі характеристики, як тонкі акценти, модуляції, інтонації та нерівності в потоці мовлення. Модель, заснована на Ministral 3B, може легко перемикатися між мовами, не втрачаючи характеристик голосу, що корисно для таких випадків використання, як дублювання або переклад у реальному часі. Сток сказав, що компанія хотіла, щоб модель звучала по-людськи, а не роботизовано.

За словами компанії, модель розроблена для роботи в реальному часі. Вона має час до першого звуку (TTFA) — показник того, коли модель починає «говорити» після отримання вхідних даних — 90 мс для 10-секундного зразка з 500 символів. Модель також має коефіцієнт реального часу (RTF) 6x, що означає, що вона може відтворити 10-секундний кліп приблизно за 1,6 секунди.

На початку цього року Mistral запустила пару моделей транскрипції: одну для великої пакетної обробки, а іншу — для випадків використання в реальному часі з низькою затримкою. З новою мовною моделлю компанія, ймовірно, прагне надати підприємствам повний набір голосових продуктів.

«Ми плануємо мати наскрізну платформу, яка може обробляти мультимодальні потоки вхідних даних, включаючи аудіо, текст та зображення, а також вихідні дані. Основна перевага цього полягає в тому, що ви отримуєте набагато більше інформації за допомогою наскрізної агентної системи, яка підтримує аудіо як вхідні, так і вихідні дані», — сказав Сток.

Позиціонування Mistral полягає в тому, що її компонент з відкритим кодом і можливість налаштування допоможуть підприємствам обирати її голосові моделі перед конкурентами, оскільки вони зможуть налаштовувати їх так, як хочуть.

Comments

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *