Нещодавно команда, до складу якої входять кілька відомих університетів та дослідницьких установ, представила платформу для комплексної оцінки достовірності великих мовних моделей (LLMs). Результати цього дослідження докладно викладені у новій статті «DecodingTrust: всебічна оцінка достовірності моделей GPT».
Дослідження виявило кілька раніше не оприлюднених вразливостей, пов'язаних з довірою. Наприклад, моделі GPT легко генерують токсичний та упереджений вміст, а також можуть розголошувати особисту інформацію з навчальних даних і історії діалогів. Цікаво, що, незважаючи на те, що GPT-4 зазвичай є більш надійним у стандартних бенчмарках порівняно з GPT-3.5, вона виявляється більш вразливою до зловмисно розроблених команд, що може бути пов'язано з тим, що GPT-4 точніше виконує оманливі команди.
Дослідницька команда провела всебічну оцінку надійності моделі GPT з восьми різних точок зору, охоплюючи різні сценарії побудови, завдання, показники та набори даних. Цілі оцінки включають: 1) представлення моделі GPT з різних перспектив надійності; 2) її адаптивність в умовах протидії.
У контексті стійкості до атак з протилежним текстом дослідники розробили три сценарії оцінювання: стандартне тестування, продуктивність за різними інструкціями та продуктивність при зіткненні з більш складними протилежними текстами.
Дослідження виявило декілька цікавих знахідок. Що стосується стійкості моделей до атакуючих демонстрацій, GPT-3.5 та GPT-4 не піддаються оманливим прикладам, але в деяких випадках можуть бути під впливом. Щодо токсичності та упередженості, обидві моделі зазвичай показують добрі результати, але при зіткненні з оманливими інструкціями можуть генерувати упереджений контент, причому GPT-4, здається, легше піддається впливу.
Щодо проблеми витоку конфіденційності, дослідження виявило, що модель GPT може витікати чутливу інформацію з навчальних даних, особливо в певному контексті або за умов демонстрації з невеликою кількістю зразків. Загалом, GPT-4 є більш надійним у захисті особистої ідентифікаційної інформації, ніж GPT-3.5, але обидві моделі можуть в певних випадках витікати конфіденційну інформацію.
Це дослідження надає нам всебічну оцінку надійності моделей GPT, виявляючи деякі потенційні проблеми та можливості для вдосконалення. Дослідницька команда сподівається, що ця робота зможе заохотити більше дослідників долучитися до спільних зусиль у створенні більш потужних та надійних моделей.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Всеосяжна оцінка надійності моделі GPT: виявлення потенційних вразливостей і можливостей для вдосконалення
Повна оцінка достовірності моделі GPT
Нещодавно команда, до складу якої входять кілька відомих університетів та дослідницьких установ, представила платформу для комплексної оцінки достовірності великих мовних моделей (LLMs). Результати цього дослідження докладно викладені у новій статті «DecodingTrust: всебічна оцінка достовірності моделей GPT».
Дослідження виявило кілька раніше не оприлюднених вразливостей, пов'язаних з довірою. Наприклад, моделі GPT легко генерують токсичний та упереджений вміст, а також можуть розголошувати особисту інформацію з навчальних даних і історії діалогів. Цікаво, що, незважаючи на те, що GPT-4 зазвичай є більш надійним у стандартних бенчмарках порівняно з GPT-3.5, вона виявляється більш вразливою до зловмисно розроблених команд, що може бути пов'язано з тим, що GPT-4 точніше виконує оманливі команди.
Дослідницька команда провела всебічну оцінку надійності моделі GPT з восьми різних точок зору, охоплюючи різні сценарії побудови, завдання, показники та набори даних. Цілі оцінки включають: 1) представлення моделі GPT з різних перспектив надійності; 2) її адаптивність в умовах протидії.
У контексті стійкості до атак з протилежним текстом дослідники розробили три сценарії оцінювання: стандартне тестування, продуктивність за різними інструкціями та продуктивність при зіткненні з більш складними протилежними текстами.
Дослідження виявило декілька цікавих знахідок. Що стосується стійкості моделей до атакуючих демонстрацій, GPT-3.5 та GPT-4 не піддаються оманливим прикладам, але в деяких випадках можуть бути під впливом. Щодо токсичності та упередженості, обидві моделі зазвичай показують добрі результати, але при зіткненні з оманливими інструкціями можуть генерувати упереджений контент, причому GPT-4, здається, легше піддається впливу.
Щодо проблеми витоку конфіденційності, дослідження виявило, що модель GPT може витікати чутливу інформацію з навчальних даних, особливо в певному контексті або за умов демонстрації з невеликою кількістю зразків. Загалом, GPT-4 є більш надійним у захисті особистої ідентифікаційної інформації, ніж GPT-3.5, але обидві моделі можуть в певних випадках витікати конфіденційну інформацію.
Це дослідження надає нам всебічну оцінку надійності моделей GPT, виявляючи деякі потенційні проблеми та можливості для вдосконалення. Дослідницька команда сподівається, що ця робота зможе заохотити більше дослідників долучитися до спільних зусиль у створенні більш потужних та надійних моделей.