Компанія корпоративного ШІ Cohere у четвер запустила свою першу голосову модель: Transcribe — це модель автоматичного розпізнавання мовлення з відкритим кодом, яка може використовуватися для таких завдань, як ведення нотаток та аналіз мовлення.
Відносно легка — всього 2 мільярди параметрів — модель призначена для використання зі споживчими GPU для тих, хто хоче розгорнути її самостійно. Наразі вона підтримує 14 мов: англійську, французьку, німецьку, італійську, іспанську, португальську, грецьку, нідерландську, польську, китайську, японську, корейську, в’єтнамську та арабську.
Cohere стверджує, що Transcribe перевершує такі моделі, як Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 та Qwen3-ASR-1.7B Speech у таблиці лідерів Hugging Face Open ASR, досягаючи середнього рівня помилок у словах (WER) 5,42, що є найнижчим показником серед усіх моделей у цьому бенчмарку.
Компанія стверджує, що Transcribe мала середній рівень переваги в 61% над іншими моделями, коли люди-оцінювачі оцінювали її транскрипції на точність, зв’язність і зручність використання. Однак модель відставала від своїх конкурентів, коли потрібно було транскрибувати португальську, німецьку та іспанську мови.
Cohere заявляє, що Transcribe може обробляти 525 хвилин аудіо за хвилину, що є високим показником для моделі її класу.
Компанія планує інтегрувати Transcribe у свою платформу оркестрації корпоративних агентів North і надає модель через свій API безкоштовно. Модель також буде доступна в Model Vault, керованій платформі інференсу Cohere.
Моделі розпізнавання мовлення стають дедалі популярнішими зі зростанням попиту на додатки для ведення нотаток та диктування, такі як Granola та Wispr Flow.
На початку цього року Cohere, за повідомленнями, сказала інвесторам, що генерує щорічний повторюваний дохід у розмірі 240 мільйонів доларів у 2025 році, і її генеральний директор Ейдан Гомес, за цитованими даними, заявив, що стартап може вийти на біржу «найближчим часом».

Залишити відповідь