Компанія Voice AI Speechify щойно запустила власний додаток для Windows, який використовує локально збережені моделі, щоб забезпечити диктування в різних додатках і читання вголос статей, документів або PDF-файлів за допомогою своєї бібліотеки голосів.
Компанія конкурує з такими сервісами, як Wispr Flow, Willow і Superwhisper, які також надають додатки для диктування та транскрипції на різних платформах.
Speechify повідомила, що її додаток для Windows виконує обробку голосу повністю на пристрої на комп’ютерах Copilot+ (з NPU від AMD, Intel і Qualcomm) та інших ПК з Windows 11, які мають графічні процесори від Intel і AMD.
Додаток використовує три моделі, що працюють локально: нейронне перетворення тексту в мову, виявлення голосової активності в реальному часі та транскрипцію на базі Whisper. Користувачі можуть налаштувати додаток на перемикання на хмарні моделі або навіть змінювати їх під час використання.
Компанія, яка має понад 50 мільйонів користувачів, заявила, що модель SIMBA може генерувати аудіо з сімома різними налаштуваннями швидкості, дозволяючи користувачам озвучувати документи або веб-сторінки. Для виявлення голосової активності компанія використовує модель з відкритим кодом Silero.
“Понад мільярд людей на планеті використовують Windows. Із запуском цієї версії для Windows ми гарантуємо, що читання, а тепер і письмо, ніколи не будуть перешкодою, незалежно від того, який пристрій ви використовуєте або як ви віддаєте перевагу працювати. Ми особливо раді можливостям у корпоративному секторі, враховуючи, скільки професіоналів просили Speechify на своїх ПК”, — заявив у пресрелізі Кліфф Вайцман, засновник і генеральний директор Speechify.
Минулого місяця компанія запустила функцію транскрипції зустрічей, подібну до Granola, але вона була обмежена зустрічами в браузері. Тепер, коли компанія має додатки на різних платформах, вона, ймовірно, перенесе цю функцію у власні додатки для транскрибування зустрічей у будь-якому додатку або браузері.
До кількох років тому Speechify зосереджувалася переважно на сценаріях використання перетворення тексту в мову, таких як читання вголос статей та електронних листів, а також створення подкастів із документів. Останнім часом компанія намагається стати повнофункціональним голосовим додатком для користувачів, запускаючи функції диктування, транскрипції зустрічей і голосового асистента.
Історію було оновлено після нового повідомлення компанії про те, що вона використовує SIMBA для генерації аудіо.

Залишити відповідь