Представлен метод защиты ChatGPT от джейлбрейк-атак

Большие языковые модели (LLM), модели на основе глубокого обучения, обученные генерировать, обобщать, переводить и обрабатывать письменные тексты, привлекли значительное внимание после выпуска диалоговой платформы ChatGPT от Open AI. Хотя ChatGPT и подобные платформы в настоящее время широко используются для широкого спектра приложений, они могут быть уязвимы для определенного типа кибератак, вызывающих предвзятую, ненадежную или даже оскорбительную реакцию. Исследователи из Гонконгского университета науки и технологий, Университета науки и технологий Китая, Университета Цинхуа и Microsoft Research Asia недавно провели исследование, изучающее потенциальное воздействие этих атак и методов, которые могут защитить модели от них. Их статья , опубликованная в журнале Nature Machine Intelligence , представляет новую технику, вдохновленную психологией, которая может помочь защитить ChatGPT и аналогичные диалоговые платформы на основе LLM от кибератак. «ChatGPT — это социально значимый инструмент искусственного интеллекта, имеющий миллионы пользователей и интегрированный в такие продукты, как Bing», — пишут Юэци Се, Цзинвэй И и их коллеги в своей статье. «Однако появление джейлбрейк- атак серьезно угрожает его ответственному и безопасному использованию. Джейлбрейк-атаки используют состязательные подсказки для обхода этических гарантий ChatGPT и вызывают вредные реакции». Основная цель недавней работы Се, Йи и их коллег заключалась в том, чтобы подчеркнуть влияние, которое джейлбрейк-атаки могут оказать на ChatGPT, и представить жизнеспособные стратегии защиты от этих атак. Атаки с помощью джейлбрейка по существу используют уязвимости LLM для обхода ограничений, установленных разработчиками, и получения ответов модели, которые обычно были бы ограничены. «В этой статье исследуются серьезные, но недостаточно изученные проблемы, создаваемые побегами из тюрьмы, а также потенциальные методы защиты», — объясняют Се, Йи и их коллеги в своей статье. «Мы представляем набор данных для взлома с различными типами подсказок для взлома и вредоносными инструкциями». Сначала исследователи собрали набор данных, включающий 580 примеров подсказок для взлома, предназначенных для обхода ограничений, которые не позволяют ChatGPT предоставлять ответы, которые считаются «аморальными». Сюда входят ненадежные тексты, которые могут способствовать дезинформации, а также токсичный или оскорбительный контент. Когда они протестировали ChatGPT на этих подсказках для взлома, они обнаружили, что он часто попадает в их «ловушку», создавая запрошенный ими вредоносный и неэтичный контент. Затем Се, Йи и их коллеги приступили к разработке простой и в то же время эффективной техники, которая могла бы защитить ChatGPT от тщательно спланированных джейлбрейк-атак. Созданная ими техника черпает вдохновение из психологической концепции самонапоминаний, подталкиваний, которые могут помочь людям вспомнить задачи, которые им необходимо выполнить, события, которые они должны посетить, и так далее. Защи...

Представлен метод защиты ChatGPT от джейлбрейк-атак

Сообщает android-robot.com

 

Опубликовано: 14:18, 21.01.2024

 

Новость из рубрики: Технологии, Наука

 

Поделиться новостью: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

 
 

Новая соцсеть Threads привлекла 100 млн пользователей быстрее, чем ChatGPT 16:09, 24 Окт Новая соцсеть Threads привлекла 100 млн пользователей быстрее, чем ChatGPT Новое приложение Threads от Meta, являющееся конкурентом Twitter, за считанные дни после запуска превысило отметку в 100 миллионов пользователей, преодолев этот рубеж значительно быстрее, чем ChatGPT от OpenAI. Об этом сообщает издание Search Engine...

Метод улучшения планирования миссий, выполняемых несколькими БПЛА 13:27, 25 Мар Метод улучшения планирования миссий, выполняемых несколькими БПЛА Беспилотные летательные аппараты (БПЛА), также известные как дроны, уже зарекомендовали себя как ценные инструменты для решения широкого спектра реальных задач: от мониторинга природной среды и сельскохозяйственных участков до поисково-спасательных ...

OCS предлагает сервисы StormWall для защиты от DDoS-рисков и хакерских атак 01:54, 23 Окт OCS предлагает сервисы StormWall для защиты от DDoS-рисков и хакерских атак Компания StormWall предлагает рынку решения в области информационной безопасности — сервисы на основе искусственного интеллекта для защиты от DDoS-атак, а также от хакерских атак. OCS Distribution, ведущий отечественный ИТ-дистрибьютор, представил п...

Путин поручил продумать способы защиты учителей от травли в соцсетях 12:45, 17 Янв Путин поручил продумать способы защиты учителей от травли в соцсетях Президент Владимир Путин дал поручение до 1 июля продумать, как защитить репутацию учителей с учетом возможных нападок в соцсетях. «Правительству России подготовить совместно с Советом при президенте России по развитию гражданского общества и ...

NASA предупреждает: не стоит снимать солнечное затмение на камеру телефона без специальной защиты 13:54, 07 Апр NASA предупреждает: не стоит снимать солнечное затмение на камеру телефона без специальной защиты Уже завтра часть жителей Земли смогут увидеть полное солнечное затмение. Оно будет длиться с 19:39 до 22:55 по московскому времени, хотя жителям Евразии его видно не будет. Отвечая на вопрос известного блогера Маркеса Браунли (Marques Brownlee), NAS...

Представлен доступный планшет Honor Pad 9 21:54, 21 Дек Представлен доступный планшет Honor Pad 9 Вместе с игровым смартфоном Honor 90 GT сегодня был представлен недорогой планшетный компьютер Honor Pad 9. Новинка является хорошим решением для учебы и работы с документами. Honor Pad 9 получил IPS-дисплей с диагональю 12,1 дюйма с симметричной ра...

Представлен Huawei AX6 Pro  роутер с поддержкой Wi-Fi 6 02:45, 20 Фев Представлен Huawei AX6 Pro – роутер с поддержкой Wi-Fi 6+ Компания Huawei анонсировала в Китае маршрутизатор AX6 Pro. Устройство поддерживает Wi-Fi 6+, обеспечивая скорость сети до 7200 МБ и имеет восемь потоков данных для одновременной передачи, что значительно повышает скорость и надежность интернета. Ос...

Представлен БП Adata XPG Core Reactor II VE 11:27, 01 Апр Представлен БП Adata XPG Core Reactor II VE Adata выпустила новый блок питания под названием XPG Core Reactor II VE в дизайне прошлогоднего Core Reactor II мощностью 650 Вт. Этот новый блок питания представлен в трёх вариантах: 650 Вт, 750 Вт и 850 Вт. Размеры XPG Core Reactor II VE составляю...

23:36, 01 Апр Представлен OnePlus Nord CE4 — Snapdragon 7 Gen 3 и зарядка 100 Вт Компания OnePlus представила в Индии смартфон средней ценовой категории Nord CE4. Это первый аппарат бренда с новейшим чипом Snapdragon 7 Gen 3, который набирает в AnTuTu 860 000 баллов. Смартфон получил особый корпус с технологией амортизации ̵...

03:00, 02 Фев Представлен Gigaset GS5 Pro SE – смартфон, изготовленный в Германии Немецкая компания Gigaset анонсировала свой новый смартфон Gigaset GS5 Pro SE. Новинка представляет собой небольшое, но существенное обновление по сравнению со своим предшественником, выпущенным ещё в 2021 году. Основные изменения включают замену ос...

03:27, 22 Мар Представлен OnePlus Ace 3V – первый смартфон на Snapdragon 7+ Gen 3 OnePlus анонсировала в Китае свой новый смартфон OnePlus Ace 3V. Это первый гаджет, работающий на новом процессоре Qualcomm Snapdragon 7+ Gen 3. ОсобенностиOnePlus Ace 3V оснащён плоским OLED-дисплеем с диагональю 6,74 дюйма, разрешением 2772×1240 п...

05:54, 07 Ноя Представлен робот-паук небольшого размера Робот, меняющий форму, вдохновленный пауком, теперь стал еще меньше. Этот робот, меняющий форму, стал намного меньше. В новом исследовании инженеры из Университета Колорадо в Боулдере представили mCLARI, модульного робота длиной 2 сантиметра, которы...

00:18, 12 Апр Представлен Leitz Phone 3 – премиум-камерафон с 1" сенсором и без OIS Leica анонсировала свой третий смартфон – модель Leitz Phone 3. Главной особенностью новинки является возможности обработки изображений и режимы камеры Leica. ОсобенностиLeitz Phone 3 оснащён 6,6-дюймовым дисплеем Pro IGZO OLED с разрешением 2730×12...

02:00, 29 Апр Представлен совершенно новый Chery Tiggo 7 для России В России самым популярным кроссовером марки Chery является Tiggo 7. Однако, было представлено совершенно новое поколение Tiggo 7 в Уху. Фотографии автомобиля снаружи и внутри были опубликованы на ресурсе «Китайские автомобили». Новый Chery Tiggo 7 и...

23:18, 07 Дек Всего за 25$ представлен чайник Xiaomi с технологией шумоподавления Компания Xiaomi представила новую версию своего электрического чайника Mijia Constant Temperature Electric Kettle P1 Light Edition. Этот чайник обладает рядом новых функций, включая возможность поддержания постоянной температуры и цифровой дисплей. ...

12:36, 02 Мар Представлен чехол-клавиатура для iPhone в стиле BlackBerry На выставке Mobile World Congress (MWC) 2024 американский стартап Clicks Technology представил нашумевший чехол для iPhone, который превращает смартфон Apple в кнопочный телефон. Аксессуар, доступный для iPhone 14 Pro, iPhone 15 Pro и iPhone 15 Pro ...

04:45, 21 Мар Представлен Realme Narzo 70 Pro 5G – камера с OIS и управление жестами Realme представила смартфон Narzo 70 Pro 5G. Это преемник Narzo 60 Pro, который на сегодня является одним из самых продаваемых смартфонов в Интернете. ДисплейRealme Narzo 70 Pro 5G gполучил 6,67-дюймовый AMOLED-дисплей с разрешением Full HD+ и часто...

02:36, 03 Ноя Представлен совершенно новый Skoda Superb 2024 Спустя ровно месяц с премьеры Kodiaq 2024 Skoda представила и совершенно новый Superb. Самая главная новость: в отличие от Passat 2024, который теперь представлен исключительно кузовом универсал, у Superb два варианта исполнения – лифтбэк и ун...

05:54, 11 Апр Представлен Redmi Turbo 3 – 120 Гц, 2000 нит, 5000 мАч и Snapdragon 8s Gen 3 На мероприятии в Китае Xiaomi представила новый смартфон Redmi Turbo 3. По сравнению со своим предшественником, Note 12 Turbo новинка включает в себя значительные улучшения. Изначально новая модель должна была выйти под названием Redmi Note 13 Turbo...

04:18, 11 Янв Представлен ИИ-ассистент Rabbit r1, который будет пользоваться приложениями за вас Стартап Rabbit представил новый мобильный гаджет под названием Rabbit r1, который должен упростить использование смартфона. Работает девайс под управлением операционной системы Rabbit OS, основанной на большой модели действий (LAM). В отличие от при...

17:36, 24 Янв Представлен Unihertz Tank Mini 1 – неубиваемый компактный смартфон за $200 Китайский производитель Unihertz анонсировал новый защищённый смартфон под названием Tank Mini 1. От других аналогичных устройств новинка отличается компактным корпусом. ОсобенностиUnihertz Tank Mini 1 заключён в прочный корпус, защищенный от ударов...

10:18, 01 Май Представлен миниатюрный робот для тестирования алгоритмов управления и оценки Разработка и тестирование алгоритмов для приложений робототехники обычно требуют оценок как в моделируемой, так и в физической среде. Однако некоторые алгоритмы может быть сложно применить в простых аппаратных экспериментах из-за высокой стоимости р...

02:09, 06 Апр Представлен Razer Blade 18 (2024) – игровой ноутбук с GeForce RTX 4090 Компания Razer анонсировала свой следующий флагманский игровой ноутбук – Razer Blade 18 (2024). Это мощный игровой ноутбук с дискретной видеокартой NVIDIA GeForce RTX 4090. ОсобенностиRazer Blade 18 получил 18-дюймовый дисплей с разрешением UHD+ (38...

08:54, 18 Апр Представлен новый Mercedes-AMG C63 2024 с самым мощным в мире четырехцилиндровым мотором Mercedes-AMG C63 2024 выходит в Соединенных Штатах, где на него установлена минимальная цена 85 050 долларов. С пакетом Pinnacle и дополнительными технологиями цена вырастает до 87 100 долларов. Его главным противником является BMW M3, цена которого...

22:00, 23 Мар Больше, мощнее и наконец-то с полным приводом. Представлен Nissan Kicks 2025 Nissan представил сегодня в США кроссовер Kicks нового поколения. Все подробности пока не озвучены (например, не раскрыты габариты, хотя компания говорит, что новая машина больше предшественника), но о ключевых новшествах создатели рассказали. Nissa...

04:09, 18 Апр Представлен Taichi: крупномасштабный дифракционный гибридный фотонный чипсет искусственного интеллекта Объединенная команда инженеров из Университета Цинхуа и Пекинского национального исследовательского центра информационных наук и технологий, расположенных в Китае, разработала крупномасштабный дифракционный гибридный фотонный чипсет искусственного и...

23:45, 07 Фев Представлен электрический Porsche Taycan 2025 — самая быстрая серийная машина компании Немецкий автопроизводитель Porsche AG представил обновленную версию электрокара Porsche Taycan, который позиционируется как самый быстрый серийный автомобиль в истории компании. Porsche Taycan 2025 модельного года получил много улучшений: увеличилис...

02:09, 28 Мар Представлен флагманский планшет Vivo Pad3 Pro с чипом Dimensity 9300 и 13-дюймовым экраном Китайский производитель гаджетов Vivo провёл масштабную презентацию аппаратных новинок, в рамках которой представил складные смартфоны X Fold3 и X Fold3 Pro, а также новый флагманский Android-планшет vivo Pad3 Pro.vivo Pad3 Pro оснащён огромным 13-д...

03:27, 06 Янв Razer Blade 16 (2024) — первый в мире ноутбук с OLED-дисплеем 240 Гц представлен официально Компания Razer анонсировал два новых ноутбука серии Blade в рамках подготовки к выставке CES 2024. Младшая модель, Razer Blade 16, стала первым в мире ноутбуком с 16-дюймовой OLED-панелью с частотой обновления 240 Гц, а Razer Blade 18 получил 18-дюй...

23:54, 05 Фев 406 л.с., 10-ступенчатый «автомат», полный привод и адаптивная подвеска – уже в базе. Представлен Lincoln Aviator 2025 – это «люксовый Ford Explorer» Ford представила на домашнем рынке обновленный внедорожник Aviator. Рестайлинговая модель отличается новым оформлением передка, новой медиасистемой Digital Experience с увеличенным экраном и, впервые, полувтоматической системой автономного вождения ...

12:27, 21 Мар В России представлен новый Exeed TXL: мощный мотор, новый «автомат», улучшения в салоне и гарантия 7 лет или 200 000 км Exeed анонсировал в России рестайлинговую версию кроссовера TXL. Главные изменения произошли в технической части и салоне автомобиля. Под капотом топовой версии Exeed TXL разместился 2,0-литровый бензиновый турбомотор мощностью 197 л.с. (375 Нм). Он...

16:18, 18 Мар Changan замахнулся на Toyota Land Cruiser? Представлен крутой внедорожник Changan Deepal G318: 430 л.с., полный привод, танковый разворот и прочная конструкция Changan сегодня официально представила в Китае крутой внедорожник Deepal G318. Пожалуй, в линейке автопроизводителя это максимально брутальная модель, рассчитанная на покорение серьезного бездорожья, а не просто езды по грунтовке. А еще Deepal G318 ...