Як обійти цензуру ChatGPT за пару кроків
Спільнота штучного інтелекту і машинного навчання розбурхана новаторською розробкою: виявлена можливість обходити обмеження, властиві ChatGPT.
Нещодавня стаття на Хабрі детально розповідає про те, наскільки напрочуд просто та доступно обійти механізми цензури служби. Ключ полягає у використанні методів тонкої настройки, які дозволяють вносити зміни в модель за допомогою спеціально підібраних прикладів у відповідь на нетрадиційні запити.
Цей метод передбачає створення спеціалізованого набору даних, призначеного для того, щоб спонукати модель надавати детальні, граматично правильні відповіді, ефективно задовольняючи будь-який запит Користувача.
Однак автор статті застерігає від потенційного погіршення моделі, яке може виникнути в результаті неякісної тонкої настройки. Якщо набір даних містить приклади коротких або непослідовних відповідей, це може призвести до нестабільної поведінки моделі.
Навчання моделі засноване на варіанті gpt-3.5-turbo-1106, при цьому зміст діалогу піддається ручній цензурі. Ця практика має вирішальне значення для збереження корисності моделі, гарантуючи, що вона дозволяє уникнути невідповідних відповідей або ігнорування частин запиту.