DAN у GPT-4: як обійти модерацію вмісту

15/3/23

Сьогодні випускають OpenAI GPT-4 — нову версію знаменитої моделі для обробки мови. Це викликає багато хвилювань, оскільки GPT-4 має бути ще потужнішим, ефективнішим та універсальнішим, ніж його попередник GPT-3.5. Проте, як і з будь-якою новою технологією, важливо розглянути можливі проблеми, які можуть виникнути з цією передовою системою штучного інтелекту.

Джейлбрейк GPT-4

У цій статті ми розглянемо деякі проблеми GPT-4, які деякі дослідники перевірили після кількох годин після випуску.

OpenAI також заявляє, що вона прийняла кілька заходів безпеки, запропонованих внутрішніми та зовнішніми командами, щоб запобігти цьому.

Час покаже, чи достатньо цих заходів.

Наслідки доступу до Інтернету ChatGPT

Підключення ChatGPT до зовнішніх інструментів дає нові можливості, але також може створювати нові ризики.

Плагіни дозволяють інтегрувати зовнішні дані, наприклад, актуальну інформацію з Інтернету, яка може підвищити якість відповідей засобами заснованими на доказах.

Ці посилання підвищують корисність моделі та дозволяють користувачам перевірити достовірність результатів моделі та зменшити ризики надмірної довіри.

Як працює модерація вмісту

З першого дня розробки платформи та плагінів, OpenAI використовує кілька запобіжних заходів для модерації.

OpenAI проводили тренування з командою як внутрішньої компанії, так і з зовнішніми співробітниками, щоб виявити можливі проблеми та сценарії, які можуть викликати занепокоєння.

Червоні команди у ChatGPT

Наприклад, через червоні команди можна обійти обмеження безпеки або неправильно використовувати інформацію, надіслану до плагіна.

OpenAI використовує ці висновки для розробки заходів безпеки, які зменшують ризики поведінки плагінів і покращують прозорість їх роботи як частини взаємодії з користувачем.

Також OpenAI використовує ці висновки для обґрунтування рішення щодо поступового розгортання доступу до плагінів.

Якщо ви дослідник, зацікавлений у вивченні ризиків для безпеки або пом'якшенні наслідків у цій галузі, ви можете скористатися програмою доступу для дослідників. OpenAI також запрошує розробників і дослідників надати оцінку безпеки та можливостей плагінів у рамках нещодавно відкритої системи Evals.

Короткий огляд джейлбрейка GPT-4 і проблем безпеки

GPT-4, або Generative Pre-trained Transformer 4, - це нова модель обробки природної мови від OpenAI. Вона буде здатна більш точно розуміти мову, створювати текст та вирішувати проблеми. Очікується, що GPT-4 зробить революцію в різних галузях. Незважаючи на ці переваги, GPT-4 має деякі недоліки. Як і будь-яка складна система, вона може мати уразливі місця, які можуть бути використані хакерами чи іншими зловмисниками.

Деякі можливі проблеми безпеки включають пункти нижче.

Злом GPT-4: конфіденційність даних і оперативне впровадження

GPT-4 навчається на великій кількості даних з Інтернету. Це може призвести до проблем із конфіденційністю даних. Наприклад, GPT-4 може ненавмисно розкривати конфіденційну інформацію під час процесу генерації тексту, навіть якщо розробники доклали зусиль, щоб запобігти цьому.

Існує багато різних атак, які можна використовувати для викрадення деяких даних, на яких була навчена модель. Для перевірки деяких з них ми досліджували найпоширенішу атаку на мовні моделі під назвою Prompt Injection, яку можна використати, щоб витягнути деяку інформацію про модель.

Хоча деякі з попередніх версій атаки швидкого впровадження не працювали для GPT-4, деякі хакери швидко знайшли ту, яка працює для GPT-4.

Оминання обмежень безпеки з використанням DAN

Зазвичай, коли ви запитуєте чат-бота, наприклад ChatGPT, зробити щось погане, наприклад, сказати вам, як вбити всіх людей, він відмовляється це робити.

Було багато способів обійти це, і найпоширеніший з них - це DAN.

Протестували останню версію DAN 8.0, яка була дуже ефективною на поточній версії GPT 3.5, але DAN 8.0 не вдалося обійти GPT-4.

Члени команди Adversa перевірили свій підхід, який складається з поєднання старих трюків, винайдених дослідницькою командою, і нових трюків, які винайшли після виходу GPT-4.

Тепер вони поєднали це з додатковим прийомом, коли ми просимо надати шкідливу інформацію разом із корисною, після кількох спроб вони створили таку підказку.

Вони дійсно помістили GPT-4 в "кролячу нору".

До побачення, DAN, вітаємо метод Rabbit Hole!

Як GPT-4 може бути використано для неетичної поведінки та дезінформації

За міру того, як GPT-4 набуває все більшої популярності, зростає ймовірність маніпуляцій та кампаній з дезінформації.

Зловмисники можуть використовувати штучний інтелект для створення фейкових новинних статей, створення оманливої чи неетичної інформації або маніпулювання громадською думкою у великих масштабах.

Це створює значну загрозу цілісності інформації та публічного дискурсу.

Ось приклад, як використати той самий трюк із невеликими змінами, щоб написати неетичний контент.

Тепер ви можете скопіювати текст у будь-який інший редактор та автоматично виділяти лише текст, який знаходиться в дужках.

Таким чином, це можна навіть автоматизувати для масової дезінформації.

‍

Зменшення ризиків GPT-4

Щоб вирішити ці проблеми та забезпечити відповідальну розробку та розгортання GPT-4, можна зробити кілька кроків:

а) Впровадження надійних заходів безпеки під час розробки

Розробники та користувачі GPT-4 повинні надавати пріоритет безпеці для захисту від потенційних загроз. Це включає в себе оцінку моделей та додатків перед випуском.

б) AI загартовування

OpenAI та інші організації, що розробляють технології штучного інтелекту, повинні запровадити додаткові заходи для зміцнення моделі та алгоритмів штучного інтелекту, які можуть включати тренування змагальності, вдосконалену фільтрацію та інші кроки.

в) Виявлення та відповідь на атаки ШІ

Крім передбачених заходів, компанії повинні відстежувати потенційні атаки на ШІ в режимі реального часу.

Висновок про DAN у ChatGPT

GPT-4 — це вражаюче технологічне досягнення, яке може революціонізувати різні галузі.

Однак, як і з будь-якою потужною технологією, важливо знати про потенційні ризики та вразливі місця.

Вирішуючи ці проблеми та спільними зусиллями сприяючи відповідальній розробці штучного інтелекту, ми можемо використовувати весь потенціал GPT-4, мінімізуючи його потенційну шкоду.