Nghiên cứu đánh giá độ tin cậy của mô hình GPT tiết lộ các lỗ hổng tiềm ẩn
Một nghiên cứu được thực hiện bởi Đại học Illinois tại Urbana-Champaign, Đại học Stanford, Đại học California tại Berkeley, Trung tâm An ninh Trí tuệ Nhân tạo và Viện Nghiên cứu Microsoft đã tiến hành đánh giá toàn diện về độ tin cậy của mô hình transformer sinh sinh tiền huấn luyện (GPT). Nhóm nghiên cứu đã phát triển một nền tảng đánh giá toàn diện và đã giới thiệu các phát hiện liên quan trong bài báo gần đây mang tên "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT".
Nghiên cứu đã phát hiện ra một số lỗ hổng liên quan đến độ tin cậy chưa được công bố trước đây. Ví dụ, mô hình GPT dễ bị dẫn dắt để tạo ra các đầu ra độc hại và có thiên lệch, và có thể rò rỉ thông tin riêng tư trong dữ liệu huấn luyện và lịch sử trò chuyện. Mặc dù trong các bài kiểm tra tiêu chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối mặt với các prompt ác ý nhằm vượt qua các biện pháp bảo mật, GPT-4 lại dễ bị tấn công hơn. Điều này có thể là do GPT-4 tuân thủ nghiêm ngặt các chỉ dẫn gây hiểu lầm.
Nhóm nghiên cứu hợp tác với các bên liên quan để đảm bảo rằng những phát hiện này sẽ không ảnh hưởng đến các dịch vụ hiện tại dành cho người dùng. Họ cũng đã chia sẻ kết quả nghiên cứu với OpenAI, và OpenAI đã ghi chú những lỗ hổng tiềm ẩn này trong mô tả hệ thống của các mô hình liên quan.
Nghiên cứu này đã đánh giá toàn diện mô hình GPT từ tám góc độ độ tin cậy, bao gồm tấn công đối kháng, tính độc hại và thiên lệch, rò rỉ thông tin riêng tư, v.v. Nghiên cứu phát hiện rằng mô hình GPT có thể bị dẫn dắt đồng ý với các nội dung thiên lệch trong một số trường hợp, đặc biệt là khi đối mặt với các lời nhắc hệ thống gây hiểu lầm được thiết kế kỹ lưỡng. Hơn nữa, mô hình GPT cũng có thể tiết lộ thông tin nhạy cảm trong dữ liệu đào tạo, chẳng hạn như địa chỉ email, đặc biệt là trong các ngữ cảnh cụ thể hoặc trình diễn mẫu ít.
Nhóm nghiên cứu hy vọng rằng bằng cách công bố những phát hiện này, sẽ khuyến khích nhiều nhà nghiên cứu hơn tham gia vào công việc liên quan, cùng nhau nỗ lực tạo ra những mô hình mạnh mẽ và đáng tin cậy hơn. Mã cơ sở đánh giá mà họ cung cấp có tính mở rộng và dễ sử dụng cao, nhằm thúc đẩy sự hợp tác và tiến bộ trong lĩnh vực này.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
7 thích
Phần thưởng
7
6
Chia sẻ
Bình luận
0/400
MetaMaximalist
· 07-12 19:38
ngl điều này chỉ xác nhận những gì chúng tôi đã thấy trong các đường cong bảo mật giao thức từ ngày đầu tiên...
Xem bản gốcTrả lời0
RugPullSurvivor
· 07-11 10:18
Các nhà khoa học AI đã gặp sự cố.
Xem bản gốcTrả lời0
digital_archaeologist
· 07-10 07:21
gpt này độ an toàn có chút bơm ah...
Xem bản gốcTrả lời0
HashRateHermit
· 07-10 07:16
Rò rỉ thông tin? AI càng đáng tin cậy càng dễ lừa đảo.
Xem bản gốcTrả lời0
LeekCutter
· 07-10 07:12
Thật không ngờ gpt lại yếu ớt như vậy~
Xem bản gốcTrả lời0
ChainMelonWatcher
· 07-10 07:04
Bảo vệ quyền riêng tư không đầy đủ thật sự khó xử lý.
Đánh giá độ tin cậy của mô hình GPT tiết lộ các rủi ro tiềm ẩn như rò rỉ dữ liệu cá nhân
Nghiên cứu đánh giá độ tin cậy của mô hình GPT tiết lộ các lỗ hổng tiềm ẩn
Một nghiên cứu được thực hiện bởi Đại học Illinois tại Urbana-Champaign, Đại học Stanford, Đại học California tại Berkeley, Trung tâm An ninh Trí tuệ Nhân tạo và Viện Nghiên cứu Microsoft đã tiến hành đánh giá toàn diện về độ tin cậy của mô hình transformer sinh sinh tiền huấn luyện (GPT). Nhóm nghiên cứu đã phát triển một nền tảng đánh giá toàn diện và đã giới thiệu các phát hiện liên quan trong bài báo gần đây mang tên "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT".
Nghiên cứu đã phát hiện ra một số lỗ hổng liên quan đến độ tin cậy chưa được công bố trước đây. Ví dụ, mô hình GPT dễ bị dẫn dắt để tạo ra các đầu ra độc hại và có thiên lệch, và có thể rò rỉ thông tin riêng tư trong dữ liệu huấn luyện và lịch sử trò chuyện. Mặc dù trong các bài kiểm tra tiêu chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối mặt với các prompt ác ý nhằm vượt qua các biện pháp bảo mật, GPT-4 lại dễ bị tấn công hơn. Điều này có thể là do GPT-4 tuân thủ nghiêm ngặt các chỉ dẫn gây hiểu lầm.
Nhóm nghiên cứu hợp tác với các bên liên quan để đảm bảo rằng những phát hiện này sẽ không ảnh hưởng đến các dịch vụ hiện tại dành cho người dùng. Họ cũng đã chia sẻ kết quả nghiên cứu với OpenAI, và OpenAI đã ghi chú những lỗ hổng tiềm ẩn này trong mô tả hệ thống của các mô hình liên quan.
Nghiên cứu này đã đánh giá toàn diện mô hình GPT từ tám góc độ độ tin cậy, bao gồm tấn công đối kháng, tính độc hại và thiên lệch, rò rỉ thông tin riêng tư, v.v. Nghiên cứu phát hiện rằng mô hình GPT có thể bị dẫn dắt đồng ý với các nội dung thiên lệch trong một số trường hợp, đặc biệt là khi đối mặt với các lời nhắc hệ thống gây hiểu lầm được thiết kế kỹ lưỡng. Hơn nữa, mô hình GPT cũng có thể tiết lộ thông tin nhạy cảm trong dữ liệu đào tạo, chẳng hạn như địa chỉ email, đặc biệt là trong các ngữ cảnh cụ thể hoặc trình diễn mẫu ít.
Nhóm nghiên cứu hy vọng rằng bằng cách công bố những phát hiện này, sẽ khuyến khích nhiều nhà nghiên cứu hơn tham gia vào công việc liên quan, cùng nhau nỗ lực tạo ra những mô hình mạnh mẽ và đáng tin cậy hơn. Mã cơ sở đánh giá mà họ cung cấp có tính mở rộng và dễ sử dụng cao, nhằm thúc đẩy sự hợp tác và tiến bộ trong lĩnh vực này.