Шон Шень вважає, що ШІ потребуватиме здатності запам’ятовувати те, що він бачить, щоб досягти успіху у фізичному світі. Компанія Шеня Memories.ai використовує інструменти ШІ від Nvidia для створення інфраструктури, яка дозволить носимим пристроям і роботам запам’ятовувати та відтворювати візуальні спогади.
Memories.ai оголосила про співпрацю з напівпровідниковим гігантом Nvidia на своїй конференції GTC у понеділок. Завдяки цьому партнерству Memories.ai використовує Nvidia Cosmos-Reason 2 — розумну візіомовну модель, та Nvidia Metropolis — референтну архітектуру для пошуку та підсумовування відео, щоб продовжити розробку своєї технології візуальної пам’яті.
Шень (на фото зліва) розповів TechCrunch, що ідея створити компанію виникла у нього та його співзасновника й технічного директора Бена Чжоу (на фото справа) під час створення системи ШІ для окулярів Ray-Ban від Meta. Розробка ШІ-окулярів наштовхнула їх на думку про те, як люди насправді використовуватимуть технологію в реальному житті, якщо не зможуть пригадати відеодані, які вони записують.
Вони озирнулися навколо, щоб побачити, чи хтось уже створює подібне рішення візуальної пам’яті для ШІ. Коли виявилося, що ніхто, вони вирішили відокремитися від Meta і створити його самостійно.
«ШІ вже дуже добре працює в цифровому світі. А що щодо фізичного світу? — сказав Шень. — Носимі пристрої з ШІ, робототехніка також потребують пам’яті. … Зрештою, потрібно, щоб ШІ мав візуальну пам’ять. Ми віримо в таке майбутнє».
Загалом, здатність систем ШІ запам’ятовувати є відносно новою. OpenAI оновила ChatGPT, щоб він почав запам’ятовувати попередні чати у 2024 році, і доопрацювала цю функцію у 2025 році. xAI Ілона Маска та Google Gemini також запустили власні інструменти пам’яті за останні два роки.
Але ці досягнення значною мірою зосереджені на текстовій пам’яті, зазначив Шень. Текстова пам’ять набагато структурованіша і її легше індексувати, але вона не така корисна для фізичних ШІ-застосунків, які здебільшого взаємодіють зі світом через зір і візуальні образи.
Memories.ai була заснована у 2024 році і наразі залучила 16 мільйонів доларів: 8 мільйонів у посівному раунді в липні 2025 року та ще 8 мільйонів як продовження. Раунд очолила Susa Ventures, до нього також увійшли Seedcamp, Fusion Fund, Crane Venture Partners та інші.
Шень сказав, що успішна побудова цього візуального шару пам’яті потребувала двох речей: створення інфраструктури, необхідної для вбудовування та індексації відео у формат даних, який можна зберігати та відтворювати, а також збору даних, потрібних для навчання моделі саме цьому.
Компанія запустила свою велику візуальну модель пам’яті (LVMM) у липні 2025 року. Шень сказав, що її можна порівняти з меншою версією Gemini Embedding 2 — мультимодальної моделі індексації та пошуку, випущеної на початку цього місяця.
Для збору даних компанія створила LUCI — апаратний пристрій, який носять «збирачі даних» компанії та який записує відео для навчання моделі. Шень зазначив, що вони не планують ставати апаратною компанією і не продаватимуть ці пристрої, а створили власний, тому що не були задоволені готовими відеореєстраторами, орієнтованими на високу чіткість та енергоємні відеоформати.
Компанія випустила друге покоління цієї LVMM і підписала партнерство з Qualcomm для роботи на процесорах Qualcomm починаючи з кінця цього року.
Шень також повідомив, що Memories.ai вже працює з деякими великими компаніями-виробниками носимих пристроїв, але відмовився розкривати, з якими саме. Незважаючи на наявний попит, Шень бачить ще більші можливості в носимих пристроях і робототехніці в майбутньому.
«Що стосується комерціалізації, ми більше зосереджені на моделі та інфраструктурі, тому що зрештою ми вважаємо, що ринок носимих пристроїв і робототехніки з’явиться, але, ймовірно, не прямо зараз», — сказав Шень.

Залишити відповідь