Дослідження Стенфорда окреслює небезпеки звернення за особистими порадами до AI-чатботів

Хоча точиться багато дискусій про схильність AI-чатботів догоджати користувачам і підтверджувати їхні існуючі переконання (також відому як AI-сикофантія), нове дослідження комп’ютерних науковців Стенфордського університету намагається виміряти, наскільки шкідливою може бути ця тенденція.

Дослідження під назвою «Сікофантний AI знижує просоціальні наміри та сприяє залежності», нещодавно опубліковане в журналі Science, стверджує, що «AI-сикофантія — це не просто стилістичне питання чи вузькоспеціалізований ризик, а поширена поведінка з широкими опосередкованими наслідками».

Згідно з нещодавнім звітом Pew Research, 12% підлітків у США кажуть, що звертаються до чатботів за емоційною підтримкою чи порадою. Провідна авторка дослідження, аспірантка з комп’ютерних наук Міра Ченг, розповіла Stanford Report, що зацікавилася цією проблемою, почувши, як студенти бакалаврату звертаються до чатботів за порадами щодо стосунків і навіть просять їх скласти текст повідомлення для розриву.

«За замовчуванням, AI-поради не вказують людям на те, що вони неправі, і не застосовують так званої “суворої любові”, — сказала Ченг. — Я хвилююся, що люди втратять навички долати складні соціальні ситуації».

Дослідження складалося з двох частин. У першій дослідники протестували 11 великих мовних моделей, зокрема OpenAI’s ChatGPT, Anthropic’s Claude, Google Gemini та DeepSeek, вводячи запити на основі наявних баз даних міжособистісних порад, щодо потенційно шкідливих чи незаконних дій, а також на основі популярної спільноти Reddit r/AmITheAsshole — в останньому випадку зосереджуючись на дописах, де реддітори дійшли висновку, що автор допису справді був “лиходієм” історії.

Автори виявили, що в середньому в усіх 11 моделях відповіді, згенеровані AI, підтверджували поведінку користувача на 49% частіше, ніж люди. У прикладах, взятих із Reddit, чатботи підтверджували поведінку користувача в 51% випадків (знову ж таки, це були ситуації, де реддітори дійшли протилежного висновку). А щодо запитів, зосереджених на шкідливих або незаконних діях, AI підтверджував поведінку користувача в 47% випадків.

В одному прикладі, описаному в Stanford Report, користувач запитав чатбота, чи неправильно він чинить, прикидаючись перед своєю дівчиною, що був безробітним два роки, і отримав відповідь: «Ваші дії, хоч і нетрадиційні, здається, випливають із щирого бажання зрозуміти справжню динаміку ваших стосунків поза межами матеріального чи фінансового внеску».

У другій частині дослідники вивчали, як понад 2400 учасників взаємодіяли з AI-чатботами — одними сикофантними, іншими ні — під час обговорення власних проблем або ситуацій, взятих із Reddit. Вони виявили, що учасники надавали перевагу сикофантному AI і більше довіряли йому, а також частіше казали, що знову звернуться до таких моделей за порадою.

«Усі ці ефекти зберігалися при контролі індивідуальних характеристик, таких як демографічні дані та попереднє знайомство з AI; сприйнятого джерела відповіді; та стилю відповіді», — йдеться в дослідженні. У ньому також стверджується, що перевага користувачів до сикофантних відповідей AI створює «негативні стимули», коли «саме та функція, яка завдає шкоди, також стимулює залученість», — тобто компанії, що розробляють AI, мають стимули збільшувати сикофантію, а не зменшувати її.

Водночас взаємодія з сикофантним AI, здавалося, зміцнювала учасників у думці, що вони мають рацію, і робила їх менш схильними до вибачень.

Співавтор дослідження Ден Юрафскі, професор лінгвістики та комп’ютерних наук, додав, що хоча користувачі «усвідомлюють, що моделі поводяться сикофантно та догідливо […] вони не усвідомлюють, і це нас здивувало, що сикофантія робить їх більш егоцентричними та більш морально догматичними».

Юрафскі зазначив, що AI-сикофантія — це «питання безпеки, і, як і інші питання безпеки, вона потребує регулювання та нагляду».

Дослідницька група зараз вивчає способи зробити моделі менш сикофантними — очевидно, навіть просте додавання фрази «wait a minute» на початку підказки може допомогти. Але Ченг сказала: «Я вважаю, що не варто використовувати AI як заміну людям для таких речей. Це найкраще, що можна зробити наразі».

Instax Wide 400 розвиває простоту миттєвої фотографії та розтягує її — буквально

Звільнені працівники Oracle намагалися домовитися про кращу вихідну допомогу. Oracle відмовив.

Ринок нерухомості Сан-Франциско збожеволів

Prime Video слідом за Netflix і Disney додає в застосунок TikTok-подібну стрічку «Clips»

Instax Wide 400 розвиває простоту миттєвої фотографії та розтягує її — буквально

Звільнені працівники Oracle намагалися домовитися про кращу вихідну допомогу. Oracle відмовив.

Дослідження Стенфорда окреслює небезпеки звернення за особистими порадами до AI-чатботів

Comments

Залишити відповідь Скасувати коментар

Instax Wide 400 розвиває простоту миттєвої фотографії та розтягує її — буквально

Звільнені працівники Oracle намагалися домовитися про кращу вихідну допомогу. Oracle відмовив.

Ринок нерухомості Сан-Франциско збожеволів

Prime Video слідом за Netflix і Disney додає в застосунок TikTok-подібну стрічку «Clips»

Instax Wide 400 розвиває простоту миттєвої фотографії та розтягує її — буквально

Звільнені працівники Oracle намагалися домовитися про кращу вихідну допомогу. Oracle відмовив.