Penilaian Menyeluruh Terhadap Kepercayaan Model GPT
Baru-baru ini, sebuah tim yang terdiri dari beberapa universitas dan lembaga penelitian ternama merilis sebuah platform untuk mengevaluasi kepercayaan model bahasa besar (LLMs). Hasil penelitian ini dijelaskan secara rinci dalam makalah terbaru "DecodingTrust: Evaluasi Komprehensif Kepercayaan Model GPT".
Penelitian telah menemukan beberapa kerentanan terkait keandalan yang sebelumnya tidak dipublikasikan. Misalnya, model GPT cenderung menghasilkan keluaran yang beracun dan bias, serta mungkin membocorkan informasi pribadi dari data pelatihan dan sejarah percakapan. Menariknya, meskipun GPT-4 biasanya lebih andal dibandingkan dengan GPT-3.5 dalam pengujian standar, ia lebih rentan terhadap serangan ketika dihadapkan pada instruksi yang dirancang dengan jahat, yang mungkin disebabkan oleh fakta bahwa GPT-4 lebih akurat dalam melaksanakan instruksi yang menyesatkan.
Tim penelitian melakukan evaluasi kredibilitas yang komprehensif terhadap model GPT dari delapan sudut pandang yang berbeda, mencakup berbagai skenario pembangunan, tugas, indikator, dan kumpulan data. Tujuan evaluasi meliputi: 1) kinerja model GPT dari berbagai perspektif kredibilitas; 2) kemampuannya untuk beradaptasi dalam lingkungan adversarial.
Dalam hal ketahanan terhadap serangan teks yang bersifat adversarial, para peneliti merancang tiga skenario evaluasi: pengujian dasar standar, kinerja di bawah instruksi yang berbeda, dan kinerja saat menghadapi teks adversarial yang lebih menantang.
Penelitian mengungkapkan beberapa temuan menarik. Dalam hal ketahanan model terhadap demonstrasi yang bersifat antagonis, GPT-3.5 dan GPT-4 tidak akan terpengaruh oleh contoh kontra-faktual, tetapi dalam beberapa kasus mungkin akan terpengaruh. Dalam hal toksisitas dan bias, kedua model biasanya berperforma baik, tetapi ketika menghadapi instruksi yang menyesatkan, keduanya dapat menghasilkan konten yang bias, dan GPT-4 tampaknya lebih mudah terpengaruh.
Mengenai masalah kebocoran privasi, penelitian menemukan bahwa model GPT mungkin akan membocorkan informasi sensitif dalam data pelatihan, terutama dalam konteks tertentu atau demonstrasi contoh yang sedikit. Secara keseluruhan, GPT-4 lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model tersebut masih dapat membocorkan informasi privasi dalam beberapa situasi.
Penelitian ini memberikan kita evaluasi komprehensif tentang kredibilitas model GPT, mengungkapkan beberapa masalah potensial dan ruang untuk perbaikan. Tim peneliti berharap karya ini dapat mendorong lebih banyak peneliti untuk berpartisipasi, bekerja sama untuk menciptakan model yang lebih kuat dan lebih dapat dipercaya.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
14 Suka
Hadiah
14
6
Bagikan
Komentar
0/400
WhaleMinion
· 07-22 19:50
Saya juga ingin mempelajari cara menipu gpt.
Lihat AsliBalas0
MetaverseLandlord
· 07-22 15:06
Apakah GPT juga akan mengintip buku catatan kecil kita?
Evaluasi Komprehensif Terhadap Keandalan Model GPT: Mengungkap Kerentanan dan Ruang untuk Perbaikan
Penilaian Menyeluruh Terhadap Kepercayaan Model GPT
Baru-baru ini, sebuah tim yang terdiri dari beberapa universitas dan lembaga penelitian ternama merilis sebuah platform untuk mengevaluasi kepercayaan model bahasa besar (LLMs). Hasil penelitian ini dijelaskan secara rinci dalam makalah terbaru "DecodingTrust: Evaluasi Komprehensif Kepercayaan Model GPT".
Penelitian telah menemukan beberapa kerentanan terkait keandalan yang sebelumnya tidak dipublikasikan. Misalnya, model GPT cenderung menghasilkan keluaran yang beracun dan bias, serta mungkin membocorkan informasi pribadi dari data pelatihan dan sejarah percakapan. Menariknya, meskipun GPT-4 biasanya lebih andal dibandingkan dengan GPT-3.5 dalam pengujian standar, ia lebih rentan terhadap serangan ketika dihadapkan pada instruksi yang dirancang dengan jahat, yang mungkin disebabkan oleh fakta bahwa GPT-4 lebih akurat dalam melaksanakan instruksi yang menyesatkan.
Tim penelitian melakukan evaluasi kredibilitas yang komprehensif terhadap model GPT dari delapan sudut pandang yang berbeda, mencakup berbagai skenario pembangunan, tugas, indikator, dan kumpulan data. Tujuan evaluasi meliputi: 1) kinerja model GPT dari berbagai perspektif kredibilitas; 2) kemampuannya untuk beradaptasi dalam lingkungan adversarial.
Dalam hal ketahanan terhadap serangan teks yang bersifat adversarial, para peneliti merancang tiga skenario evaluasi: pengujian dasar standar, kinerja di bawah instruksi yang berbeda, dan kinerja saat menghadapi teks adversarial yang lebih menantang.
Penelitian mengungkapkan beberapa temuan menarik. Dalam hal ketahanan model terhadap demonstrasi yang bersifat antagonis, GPT-3.5 dan GPT-4 tidak akan terpengaruh oleh contoh kontra-faktual, tetapi dalam beberapa kasus mungkin akan terpengaruh. Dalam hal toksisitas dan bias, kedua model biasanya berperforma baik, tetapi ketika menghadapi instruksi yang menyesatkan, keduanya dapat menghasilkan konten yang bias, dan GPT-4 tampaknya lebih mudah terpengaruh.
Mengenai masalah kebocoran privasi, penelitian menemukan bahwa model GPT mungkin akan membocorkan informasi sensitif dalam data pelatihan, terutama dalam konteks tertentu atau demonstrasi contoh yang sedikit. Secara keseluruhan, GPT-4 lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model tersebut masih dapat membocorkan informasi privasi dalam beberapa situasi.
Penelitian ini memberikan kita evaluasi komprehensif tentang kredibilitas model GPT, mengungkapkan beberapa masalah potensial dan ruang untuk perbaikan. Tim peneliti berharap karya ini dapat mendorong lebih banyak peneliti untuk berpartisipasi, bekerja sama untuk menciptakan model yang lebih kuat dan lebih dapat dipercaya.