Головна

Cohere запускає модель голосу з відкритим кодом, спеціально призначену для транскрипції

26.03.2026

від

Компанія корпоративного ШІ Cohere у четвер запустила свою першу голосову модель: Transcribe — це модель автоматичного розпізнавання мовлення з відкритим кодом, яка може використовуватися для таких завдань, як ведення нотаток та аналіз мовлення.

Відносно легка — всього 2 мільярди параметрів — модель призначена для використання зі споживчими GPU для тих, хто хоче розгорнути її самостійно. Наразі вона підтримує 14 мов: англійську, французьку, німецьку, італійську, іспанську, португальську, грецьку, нідерландську, польську, китайську, японську, корейську, в’єтнамську та арабську.

Cohere стверджує, що Transcribe перевершує такі моделі, як Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 та Qwen3-ASR-1.7B Speech у таблиці лідерів Hugging Face Open ASR, досягаючи середнього рівня помилок у словах (WER) 5,42, що є найнижчим показником серед усіх моделей у цьому бенчмарку.

Компанія стверджує, що Transcribe мала середній рівень переваги в 61% над іншими моделями, коли люди-оцінювачі оцінювали її транскрипції на точність, зв’язність і зручність використання. Однак модель відставала від своїх конкурентів, коли потрібно було транскрибувати португальську, німецьку та іспанську мови.

Cohere заявляє, що Transcribe може обробляти 525 хвилин аудіо за хвилину, що є високим показником для моделі її класу.

Компанія планує інтегрувати Transcribe у свою платформу оркестрації корпоративних агентів North і надає модель через свій API безкоштовно. Модель також буде доступна в Model Vault, керованій платформі інференсу Cohere.

Моделі розпізнавання мовлення стають дедалі популярнішими зі зростанням попиту на додатки для ведення нотаток та диктування, такі як Granola та Wispr Flow.

На початку цього року Cohere, за повідомленнями, сказала інвесторам, що генерує щорічний повторюваний дохід у розмірі 240 мільйонів доларів у 2025 році, і її генеральний директор Ейдан Гомес, за цитованими даними, заявив, що стартап може вийти на біржу «найближчим часом».

←Previous: WhatsApp тепер може створювати чернетки відповідей, згенеровані штучним інтелектом, на основі ваших розмов

Next: Conntour залучає $7 млн від General Catalyst, YC для створення пошукової системи на основі ШІ для систем відеоспостереження→

Comments

Залишити відповідь Скасувати коментар

Щоб відправити коментар вам необхідно авторизуватись.

Instax Wide 400 розвиває простоту миттєвої фотографії та розтягує її — буквально

Звільнені працівники Oracle намагалися домовитися про кращу вихідну допомогу. Oracle відмовив.

Ринок нерухомості Сан-Франциско збожеволів

Prime Video слідом за Netflix і Disney додає в застосунок TikTok-подібну стрічку «Clips»

Instax Wide 400 розвиває простоту миттєвої фотографії та розтягує її — буквально

Звільнені працівники Oracle намагалися домовитися про кращу вихідну допомогу. Oracle відмовив.