Представлен метод защиты ChatGPT от джейлбрейк-атак

Большие языковые модели (LLM), модели на основе глубокого обучения, обученные генерировать, обобщать, переводить и обрабатывать письменные тексты, привлекли значительное внимание после выпуска диалоговой платформы ChatGPT от Open AI. Хотя ChatGPT и подобные платформы в настоящее время широко используются для широкого спектра приложений, они могут быть уязвимы для определенного типа кибератак, вызывающих предвзятую, ненадежную или даже оскорбительную реакцию. Исследователи из Гонконгского университета науки и технологий, Университета науки и технологий Китая, Университета Цинхуа и Microsoft Research Asia недавно провели исследование, изучающее потенциальное воздействие этих атак и методов, которые могут защитить модели от них. Их статья , опубликованная в журнале Nature Machine Intelligence , представляет новую технику, вдохновленную психологией, которая может помочь защитить ChatGPT и аналогичные диалоговые платформы на основе LLM от кибератак. «ChatGPT — это социально значимый инструмент искусственного интеллекта, имеющий миллионы пользователей и интегрированный в такие продукты, как Bing», — пишут Юэци Се, Цзинвэй И и их коллеги в своей статье. «Однако появление джейлбрейк- атак серьезно угрожает его ответственному и безопасному использованию. Джейлбрейк-атаки используют состязательные подсказки для обхода этических гарантий ChatGPT и вызывают вредные реакции». Основная цель недавней работы Се, Йи и их коллег заключалась в том, чтобы подчеркнуть влияние, которое джейлбрейк-атаки могут оказать на ChatGPT, и представить жизнеспособные стратегии защиты от этих атак. Атаки с помощью джейлбрейка по существу используют уязвимости LLM для обхода ограничений, установленных разработчиками, и получения ответов модели, которые обычно были бы ограничены. «В этой статье исследуются серьезные, но недостаточно изученные проблемы, создаваемые побегами из тюрьмы, а также потенциальные методы защиты», — объясняют Се, Йи и их коллеги в своей статье. «Мы представляем набор данных для взлома с различными типами подсказок для взлома и вредоносными инструкциями». Сначала исследователи собрали набор данных, включающий 580 примеров подсказок для взлома, предназначенных для обхода ограничений, которые не позволяют ChatGPT предоставлять ответы, которые считаются «аморальными». Сюда входят ненадежные тексты, которые могут способствовать дезинформации, а также токсичный или оскорбительный контент. Когда они протестировали ChatGPT на этих подсказках для взлома, они обнаружили, что он часто попадает в их «ловушку», создавая запрошенный ими вредоносный и неэтичный контент. Затем Се, Йи и их коллеги приступили к разработке простой и в то же время эффективной техники, которая могла бы защитить ChatGPT от тщательно спланированных джейлбрейк-атак. Созданная ими техника черпает вдохновение из психологической концепции самонапоминаний, подталкиваний, которые могут помочь людям вспомнить задачи, которые им необходимо выполнить, события, которые они должны посетить, и так далее. Защи...

Представлен метод защиты ChatGPT от джейлбрейк-атак

Сообщает android-robot.com

 

Опубликовано: 14:18, 21.01.2024

 

Новость из рубрики: Технологии, Наука

 

Поделиться новостью: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

 
 

Новая соцсеть Threads привлекла 100 млн пользователей быстрее, чем ChatGPT 16:09, 24 Окт Новая соцсеть Threads привлекла 100 млн пользователей быстрее, чем ChatGPT Новое приложение Threads от Meta, являющееся конкурентом Twitter, за считанные дни после запуска превысило отметку в 100 миллионов пользователей, преодолев этот рубеж значительно быстрее, чем ChatGPT от OpenAI. Об этом сообщает издание Search Engine...

OCS предлагает сервисы StormWall для защиты от DDoS-рисков и хакерских атак 01:54, 23 Окт OCS предлагает сервисы StormWall для защиты от DDoS-рисков и хакерских атак Компания StormWall предлагает рынку решения в области информационной безопасности — сервисы на основе искусственного интеллекта для защиты от DDoS-атак, а также от хакерских атак. OCS Distribution, ведущий отечественный ИТ-дистрибьютор, представил п...

Путин поручил продумать способы защиты учителей от травли в соцсетях 12:45, 17 Янв Путин поручил продумать способы защиты учителей от травли в соцсетях Президент Владимир Путин дал поручение до 1 июля продумать, как защитить репутацию учителей с учетом возможных нападок в соцсетях. «Правительству России подготовить совместно с Советом при президенте России по развитию гражданского общества и ...

Представлен Huawei AX6 Pro  роутер с поддержкой Wi-Fi 6 02:45, 20 Фев Представлен Huawei AX6 Pro – роутер с поддержкой Wi-Fi 6+ Компания Huawei анонсировала в Китае маршрутизатор AX6 Pro. Устройство поддерживает Wi-Fi 6+, обеспечивая скорость сети до 7200 МБ и имеет восемь потоков данных для одновременной передачи, что значительно повышает скорость и надежность интернета. Ос...

Представлен доступный планшет Honor Pad 9 21:54, 21 Дек Представлен доступный планшет Honor Pad 9 Вместе с игровым смартфоном Honor 90 GT сегодня был представлен недорогой планшетный компьютер Honor Pad 9. Новинка является хорошим решением для учебы и работы с документами. Honor Pad 9 получил IPS-дисплей с диагональю 12,1 дюйма с симметричной ра...

Представлен робот-паук небольшого размера 05:54, 07 Ноя Представлен робот-паук небольшого размера Робот, меняющий форму, вдохновленный пауком, теперь стал еще меньше. Этот робот, меняющий форму, стал намного меньше. В новом исследовании инженеры из Университета Колорадо в Боулдере представили mCLARI, модульного робота длиной 2 сантиметра, которы...

Представлен Gigaset GS5 Pro SE  смартфон, изготовленный в Германии 03:00, 02 Фев Представлен Gigaset GS5 Pro SE – смартфон, изготовленный в Германии Немецкая компания Gigaset анонсировала свой новый смартфон Gigaset GS5 Pro SE. Новинка представляет собой небольшое, но существенное обновление по сравнению со своим предшественником, выпущенным ещё в 2021 году. Основные изменения включают замену ос...

Всего за 25$ представлен чайник Xiaomi с технологией шумоподавления 23:18, 07 Дек Всего за 25$ представлен чайник Xiaomi с технологией шумоподавления Компания Xiaomi представила новую версию своего электрического чайника Mijia Constant Temperature Electric Kettle P1 Light Edition. Этот чайник обладает рядом новых функций, включая возможность поддержания постоянной температуры и цифровой дисплей. ...

02:36, 03 Ноя Представлен совершенно новый Skoda Superb 2024 Спустя ровно месяц с премьеры Kodiaq 2024 Skoda представила и совершенно новый Superb. Самая главная новость: в отличие от Passat 2024, который теперь представлен исключительно кузовом универсал, у Superb два варианта исполнения – лифтбэк и ун...

17:36, 24 Янв Представлен Unihertz Tank Mini 1 – неубиваемый компактный смартфон за $200 Китайский производитель Unihertz анонсировал новый защищённый смартфон под названием Tank Mini 1. От других аналогичных устройств новинка отличается компактным корпусом. ОсобенностиUnihertz Tank Mini 1 заключён в прочный корпус, защищенный от ударов...

04:18, 11 Янв Представлен ИИ-ассистент Rabbit r1, который будет пользоваться приложениями за вас Стартап Rabbit представил новый мобильный гаджет под названием Rabbit r1, который должен упростить использование смартфона. Работает девайс под управлением операционной системы Rabbit OS, основанной на большой модели действий (LAM). В отличие от при...

03:27, 06 Янв Razer Blade 16 (2024) — первый в мире ноутбук с OLED-дисплеем 240 Гц представлен официально Компания Razer анонсировал два новых ноутбука серии Blade в рамках подготовки к выставке CES 2024. Младшая модель, Razer Blade 16, стала первым в мире ноутбуком с 16-дюймовой OLED-панелью с частотой обновления 240 Гц, а Razer Blade 18 получил 18-дюй...

23:45, 07 Фев Представлен электрический Porsche Taycan 2025 — самая быстрая серийная машина компании Немецкий автопроизводитель Porsche AG представил обновленную версию электрокара Porsche Taycan, который позиционируется как самый быстрый серийный автомобиль в истории компании. Porsche Taycan 2025 модельного года получил много улучшений: увеличилис...

23:54, 05 Фев 406 л.с., 10-ступенчатый «автомат», полный привод и адаптивная подвеска – уже в базе. Представлен Lincoln Aviator 2025 – это «люксовый Ford Explorer» Ford представила на домашнем рынке обновленный внедорожник Aviator. Рестайлинговая модель отличается новым оформлением передка, новой медиасистемой Digital Experience с увеличенным экраном и, впервые, полувтоматической системой автономного вождения ...