Penelitian Evaluasi Keandalan Model GPT Mengungkap Kerentanan Potensial
Sebuah penelitian yang dilakukan oleh Universitas Illinois di Urbana-Champaign, Universitas Stanford, Universitas California di Berkeley, Pusat Keamanan Kecerdasan Buatan, dan Microsoft Research secara menyeluruh mengevaluasi keandalan model transformer pra-latihan generatif (GPT). Tim penelitian mengembangkan platform evaluasi komprehensif dan memperkenalkan temuan terkait dalam makalah yang baru-baru ini diterbitkan berjudul "DecodingTrust: Evaluasi Komprehensif Keandalan Model GPT."
Penelitian menemukan beberapa kerentanan terkait keandalan yang sebelumnya tidak dipublikasikan. Misalnya, model GPT rentan terhadap pengelabuan yang menghasilkan output yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam pengujian benchmark standar GPT-4 biasanya lebih andal dibandingkan GPT-3.5, dalam menghadapi prompt jahat yang dirancang untuk melanggar langkah-langkah keamanan, GPT-4 justru lebih mudah diserang. Ini mungkin karena GPT-4 lebih ketat mengikuti instruksi yang menyesatkan.
Tim penelitian bekerja sama dengan pihak-pihak terkait untuk memastikan bahwa temuan ini tidak memengaruhi layanan yang ada untuk pengguna. Mereka juga telah membagikan hasil penelitian kepada OpenAI, yang telah mencantumkan kerentanan potensial ini dalam deskripsi sistem model yang relevan.
Penelitian ini melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang keandalan, termasuk serangan adversarial, toksisitas dan bias, serta kebocoran privasi. Penelitian menemukan bahwa model GPT dalam beberapa kasus dapat disesatkan untuk menyetujui konten yang bias, terutama ketika dihadapkan dengan prompt sistem yang menyesatkan dan dirancang dengan cermat. Selain itu, model GPT juga dapat membocorkan informasi sensitif dari data pelatihan, seperti alamat email, terutama dalam konteks tertentu atau demonstrasi sampel yang sedikit.
Tim penelitian berharap bahwa dengan mempublikasikan temuan ini, mereka dapat mendorong lebih banyak peneliti untuk terlibat dalam pekerjaan terkait, bekerja sama untuk menciptakan model yang lebih kuat dan lebih dapat dipercaya. Kode benchmark evaluasi yang mereka sediakan memiliki skalabilitas dan kemudahan penggunaan yang tinggi, bertujuan untuk memfasilitasi kolaborasi dan kemajuan di bidang ini.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
7 Suka
Hadiah
7
6
Bagikan
Komentar
0/400
MetaMaximalist
· 07-12 19:38
sejujurnya ini hanya mengonfirmasi apa yang telah kita lihat di kurva keamanan protokol sejak hari pertama...
Lihat AsliBalas0
RugPullSurvivor
· 07-11 10:18
Ilmuwan AI mengalami kegagalan
Lihat AsliBalas0
digital_archaeologist
· 07-10 07:21
gpt ini sedikit pump untuk keamanan...
Lihat AsliBalas0
HashRateHermit
· 07-10 07:16
Kebocoran privasi? Semakin dapat diandalkan AI, semakin merugikan!
Lihat AsliBalas0
LeekCutter
· 07-10 07:12
Saya tidak menyangka gpt begitu lemah~
Lihat AsliBalas0
ChainMelonWatcher
· 07-10 07:04
Perlindungan privasi yang tidak memadai memang sulit diatasi.
Penilaian keandalan model GPT mengungkapkan risiko potensial seperti kebocoran privasi
Penelitian Evaluasi Keandalan Model GPT Mengungkap Kerentanan Potensial
Sebuah penelitian yang dilakukan oleh Universitas Illinois di Urbana-Champaign, Universitas Stanford, Universitas California di Berkeley, Pusat Keamanan Kecerdasan Buatan, dan Microsoft Research secara menyeluruh mengevaluasi keandalan model transformer pra-latihan generatif (GPT). Tim penelitian mengembangkan platform evaluasi komprehensif dan memperkenalkan temuan terkait dalam makalah yang baru-baru ini diterbitkan berjudul "DecodingTrust: Evaluasi Komprehensif Keandalan Model GPT."
Penelitian menemukan beberapa kerentanan terkait keandalan yang sebelumnya tidak dipublikasikan. Misalnya, model GPT rentan terhadap pengelabuan yang menghasilkan output yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam pengujian benchmark standar GPT-4 biasanya lebih andal dibandingkan GPT-3.5, dalam menghadapi prompt jahat yang dirancang untuk melanggar langkah-langkah keamanan, GPT-4 justru lebih mudah diserang. Ini mungkin karena GPT-4 lebih ketat mengikuti instruksi yang menyesatkan.
Tim penelitian bekerja sama dengan pihak-pihak terkait untuk memastikan bahwa temuan ini tidak memengaruhi layanan yang ada untuk pengguna. Mereka juga telah membagikan hasil penelitian kepada OpenAI, yang telah mencantumkan kerentanan potensial ini dalam deskripsi sistem model yang relevan.
Penelitian ini melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang keandalan, termasuk serangan adversarial, toksisitas dan bias, serta kebocoran privasi. Penelitian menemukan bahwa model GPT dalam beberapa kasus dapat disesatkan untuk menyetujui konten yang bias, terutama ketika dihadapkan dengan prompt sistem yang menyesatkan dan dirancang dengan cermat. Selain itu, model GPT juga dapat membocorkan informasi sensitif dari data pelatihan, seperti alamat email, terutama dalam konteks tertentu atau demonstrasi sampel yang sedikit.
Tim penelitian berharap bahwa dengan mempublikasikan temuan ini, mereka dapat mendorong lebih banyak peneliti untuk terlibat dalam pekerjaan terkait, bekerja sama untuk menciptakan model yang lebih kuat dan lebih dapat dipercaya. Kode benchmark evaluasi yang mereka sediakan memiliki skalabilitas dan kemudahan penggunaan yang tinggi, bertujuan untuk memfasilitasi kolaborasi dan kemajuan di bidang ini.