Інсайдер Facebook створює модерацію контенту для епохи ШІ

Коли Бретт Левенсон покинув Apple у 2019 році, щоб очолити напрямок цілісності бізнесу у Facebook, соціальний медіагігант був у розпалі наслідків скандалу з Cambridge Analytica. Тоді він думав, що зможе просто вирішити проблему модерації контенту Facebook за допомогою кращих технологій.

Однак, як він швидко зрозумів, проблема була глибшою, ніж технології. За його словами, люди-модератори мали запам’ятовувати 40-сторінковий документ з правилами, який був машинним чином перекладений їхньою мовою. Потім на кожен позначений фрагмент контенту вони мали близько 30 секунд, щоб вирішити не лише, чи порушує цей контент правила, але й що з ним робити: заблокувати його, заборонити користувача, обмежити поширення. За словами Левенсона, ці швидкі рішення були лише «трохи кращими за 50% точності».

«Це було схоже на підкидання монетки — чи зможуть люди-модератори правильно застосувати політики, і це відбувалося через багато днів після того, як шкода вже була завдана», — розповів Левенсон TechCrunch.

Такий уповільнений, реактивний підхід не є сталим у світі спритних і добре фінансованих ворожих суб’єктів. Поява ШІ-чатботів лише посилила проблему, оскільки невдачі модерації контенту призвели до низки гучних інцидентів, наприклад, коли чатботи давали підліткам поради щодо самопошкодження або зображення, згенеровані ШІ, оминали фільтри безпеки.

Розчарування Левенсона призвело до ідеї «політики як коду» — способу перетворити статичні документи з правилами на виконувану логіку, яку можна оновлювати та тісно пов’язувати з правозастосуванням. Це розуміння призвело до заснування Moonbounce, яка, як ексклюзивно дізнався TechCrunch, у п’ятницю оголосила про залучення 12 мільйонів доларів фінансування. Раунд спільно очолили Amplify Partners і StepStone Group.

Moonbounce працює з компаніями, надаючи додатковий рівень безпеки скрізь, де генерується контент — чи то користувачем, чи то ШІ. Компанія навчила свою власну велику мовну модель аналізувати політики клієнта, оцінювати контент під час виконання, надавати відповідь за 300 мілісекунд або швидше та вживати заходів. Залежно від уподобань клієнта, цей захід може виглядати так, що система Moonbounce сповільнює розповсюдження контенту, поки він очікує на подальшу перевірку людиною, або може блокувати високоризиковий контент у реальному часі.

Сьогодні Moonbounce обслуговує три основні вертикалі: платформи з контентом, створеним користувачами, такі як додатки для знайомств; ШІ-компанії, що створюють персонажів або компаньйонів; та ШІ-генератори зображень.

Левенсон зазначив, що Moonbounce підтримує понад 40 мільйонів щоденних перевірок і обслуговує понад 100 мільйонів щоденних активних користувачів на платформі. Клієнти включають стартап ШІ-компаньйонів Channel AI, компанію з генерації зображень і відео Civitai, а також платформи рольових ігор із персонажами Dippy AI і Moescape.

«Безпека насправді може бути перевагою продукту, — сказав Левенсон TechCrunch. — Просто ніколи не була, тому що це завжди відбувалося пізніше, а не те, що ви можете вбудувати у свій продукт. І ми бачимо, що наші клієнти знаходять справді цікаві та інноваційні способи використовувати нашу технологію, щоб зробити безпеку диференціатором і частиною історії свого продукту».

Керівник відділу довіри та безпеки Tinder нещодавно пояснив, як ця платформа для знайомств використовує такі послуги на основі великих мовних моделей для досягнення 10-кратного покращення точності виявлень.

«Модерація контенту завжди була проблемою, яка дошкуляла великим онлайн-платформам, але тепер, коли великі мовні моделі є в центрі кожного застосунку, це завдання стає ще складнішим», — сказав у заяві Ленні Прусс, генеральний партнер Amplify Partners. «Ми інвестували в Moonbounce, тому що передбачаємо світ, де об’єктивні запобіжники в реальному часі стануть основою, що забезпечує роботу кожного ШІ-опосередкованого застосунку».

ШІ-компанії стикаються з дедалі більшим юридичним та репутаційним тиском після того, як чатботів звинуватили у підштовхуванні підлітків та вразливих користувачів до самогубства, а генератори зображень, такі як Grok від xAI, використовувалися для створення інтимних зображень без згоди. Очевидно, що внутрішні механізми безпеки дають збій, і це стає питанням відповідальності. Левенсон зазначив, що ШІ-компанії дедалі частіше звертаються за допомогою до сторонніх організацій, щоб посилити інфраструктуру безпеки.

«Ми — третя сторона, яка знаходиться між користувачем і чатботом, тому наша система не перевантажена контекстом так, як сам чат, — сказав Левенсон. — Чатбот сам має пам’ятати, потенційно, десятки тисяч токенів, які були раніше… Ми займаємося виключно забезпеченням виконання правил у реальному часі».

Левенсон керує компанією з 12 осіб разом зі своїм колишнім колегою по Apple Ешем Бхардваджем, який раніше створював великомасштабну хмарну інфраструктуру та інфраструктуру ШІ для ключових продуктів виробника iPhone. Їхнім наступним фокусом є можливість під назвою «ітеративне спрямування», розроблена у відповідь на такі випадки, як самогубство 14-річного хлопчика з Флориди у 2024 році, який став залежним від чатбота Character AI. Замість грубої відмови, коли виникають шкідливі теми, система перехоплюватиме розмову та перенаправлятиме її, змінюючи підказки в реальному часі, щоб спонукати чатбота до більш активної та підтримуючої відповіді.

«Ми сподіваємося додати до нашого набору дій здатність спрямовувати чатбота в кращому напрямку, по суті, взяти підказку користувача та змінити її, щоб змусити чатбота бути не просто емпатичним слухачем, а корисним слухачем у таких ситуаціях», — сказав Левенсон.

Коли його запитали, чи передбачає його стратегія виходу поглинання такою компанією, як Meta, що замкне коло його роботи над модерацією контенту, Левенсон відповів, що усвідомлює, наскільки добре Moonbounce вписалася б у технологічний стек його колишнього роботодавця, а також свої фідуціарні обов’язки як генерального директора.

«Мої інвестори вбили б мене за ці слова, але я б ненавидів, якби хтось купив нас, а потім обмежив технологію, — сказав він. — Мовляв: “Гаразд, тепер це наше, і ніхто інший не може отримувати з цього користь”».

Instax Wide 400 розвиває простоту миттєвої фотографії та розтягує її — буквально

Звільнені працівники Oracle намагалися домовитися про кращу вихідну допомогу. Oracle відмовив.

Ринок нерухомості Сан-Франциско збожеволів

Prime Video слідом за Netflix і Disney додає в застосунок TikTok-подібну стрічку «Clips»

Instax Wide 400 розвиває простоту миттєвої фотографії та розтягує її — буквально

Звільнені працівники Oracle намагалися домовитися про кращу вихідну допомогу. Oracle відмовив.

Інсайдер Facebook створює модерацію контенту для епохи ШІ

Comments

Залишити відповідь Скасувати коментар

Instax Wide 400 розвиває простоту миттєвої фотографії та розтягує її — буквально

Звільнені працівники Oracle намагалися домовитися про кращу вихідну допомогу. Oracle відмовив.

Ринок нерухомості Сан-Франциско збожеволів

Prime Video слідом за Netflix і Disney додає в застосунок TikTok-подібну стрічку «Clips»

Instax Wide 400 розвиває простоту миттєвої фотографії та розтягує її — буквально

Звільнені працівники Oracle намагалися домовитися про кращу вихідну допомогу. Oracle відмовив.