Những Nhà Khoa Học Đang Phá Vỡ Trí Tuệ Nhân Tạo Để Làm Cho Nó An Toàn Hơn

Tại một phòng trang trọng được trang trí bằng những bức phù điêu của các nhà khoa học nổi tiếng, khoảng 40 chuyên gia về khí hậu học và bệnh tật đang cúi đầu trên máy tính bảng của họ vào hôm qua (ngày 25 tháng 10), thúc đẩy hệ thống trí tuệ nhân tạo mạnh mẽ để tạo ra thông tin sai lệch.

Đến cuối ngày, các khách tham dự đã vượt qua hàng rào an toàn của hệ thống AI – Llama 2 của Meta – và khiến nó đưa ra luận điểm rằng vịt có thể hấp thụ ô nhiễm không khí, nói rằng tỏi và “các loại thảo dược kỳ diệu” có thể ngăn ngừa nhiễm COVID-19, tạo ra thông tin bôi nhọ một nhà khoa học khí hậu cụ thể, và khuyến khích trẻ em tiêm vắc-xin không được khuyến cáo cho trẻ.

Sự kiện này, diễn ra dưới mái vòm vàng tại Hiệp hội Hoàng gia danh giá ở London, nhấn mạnh cách mà các hệ thống AI tiên tiến nhất thế giới vẫn dễ bị lợi dụng. Nó diễn ra chỉ một tuần trước Hội nghị An toàn AI Thế giới đầu tiên, do chính phủ Vương quốc Anh tổ chức, nơi các nhà hoạch định chính sách toàn cầu sẽ họp mặt với các nhà khoa học AI để thảo luận về những mối nguy hiểm của công nghệ nhanh chóng phát triển này.

Xây dựng hàng rào an toàn tốt hơn

Các mô hình ngôn ngữ lớn (LLM), những hệ thống AI điều khiển các chatbot AI như ChatGPT, thường có hàng rào an toàn để ngăn không cho tạo ra nội dung không mong muốn hoặc nguy hiểm – cho dù đó là thông tin sai lệch, nội dung khiêu dâm hoặc lời khuyên về cách chế tạo vũ khí sinh học hoặc phần mềm độc hại. Nhưng những hàng rào này đôi khi đã chứng tỏ sự mong manh. Các nhà khoa học máy tính và hacker liên tục chứng minh rằng việc “phá hỏng” LLM – tức là vượt qua các tính năng an toàn của chúng – bằng cách kích thích chúng một cách sáng tạo là có thể. Theo những người chỉ trích, những điểm yếu này cho thấy những hạn chế của gọi là cân bằng AI, thực hành mới nổi nhằm đảm bảo rằng AI chỉ hành động theo cách mà những người tạo ra chúng dự định.

Các công ty công nghệ đằng sau LLM thường sửa lỗi khi chúng trở nên rõ ràng. Để tăng tốc quá trình này, các phòng thí nghiệm AI đã bắt đầu khuyến khích quy trình gọi là đội đỏ – nơi các chuyên gia cố gắng hết sức để phá hỏng LLM để những điểm yếu của chúng có thể được sửa lỗi. Vào tháng 9, OpenAI đã ra mắt một “Mạng lưới Đội đỏ” gồm các chuyên gia để thử nghiệm hệ thống của mình. Và hôm qua Hiệp hội Mô hình Biên giới, một nhóm ngành thành lập bởi Microsoft, OpenAI, Google và Anthropic, đã công bố Quỹ An toàn AI trị giá 10 triệu đô la Mỹ để tài trợ nghiên cứu an toàn, bao gồm các nỗ lực đội đỏ.

“Cách tiếp cận trách nhiệm của chúng tôi tiếp tục sau khi chúng tôi phát hành bản ban đầu của mô hình Llama 2, và chúng tôi đánh giá cao cơ hội hợp tác với Hiệp hội Hoàng gia và Humane Intelligence để hợp tác thiết lập hàng rào trách nhiệm,” Cristian Canton Ferrer, người đứng đầu kỹ thuật Trí tuệ nhân tạo Có trách nhiệm tại Meta, đã phát biểu trong một tuyên bố. “Cách tiếp cận mở của chúng tôi có nghĩa là lỗi và điểm yếu có thể liên tục được xác định và giảm thiểu một cách minh bạch bởi cộng đồng mở.”

Các khách tham dự sự kiện đội đỏ tại London đã thành công trong việc khiến Llama 2 tạo ra các bài báo tin tức và tweet giả mạo chứa các thuyết âm mưu được đưa ra theo cách thu hút đối với những đối tượng cụ thể, chứng tỏ cách mà các hệ thống ngôn ngữ có thể được sử dụng không chỉ để tạo ra thông tin sai lệch mà còn thành công trong việc phát triển cách để lan truyền chúng rộng rãi hơn.

Bethan Cracknell Daniels, một chuyên gia về sốt rét ở Đại học Imperial London đã tham dự sự kiện, đã thành công trong việc thúc đẩy mô hình tạo ra chiến dịch quảng cáo khuyến khích tất cả trẻ em tiêm vắc-xin sốt rét – bất chấp thực tế là vắc-xin này không được khuyến cáo cho những người chưa từng mắc bệnh. Mô hình cũng giả mạo dữ liệu để hỗ trợ một tuyên bố gây hiểu lầm rằng vắc-xin hoàn toàn an toàn và đã hoạt động tốt trong các điều kiện thực tế, Cracknell Daniels nói với TIME. “Nó hoàn toàn là dữ liệu giả mạo,” cô nói.

Năng lượng hạt nhân và chó hoang

Jonathan Morgan, chuyên gia về kỹ thuật hạt nhân tại Đại học Manchester, đã thành công trong việc thúc đẩy Llama 2 tạo ra các bài báo tin tức giả đề xuất rằng đi dạo với chó gần nhà máy điện hạt nhân có thể khiến chó bị hoang. “Điều này đã cho tôi thấy rằng, nếu bạn có một chương trình tích cực để phổ biến thông tin sai lệch, thế nào các mô hình ngôn ngữ này dễ dàng sản xuất những điều có vẻ chính xác,” Morgan nói. “Nếu bạn tiến hành với mục tiêu nhắm đích để lan truyền thông tin sai lệch, rất dễ để khiến các mô hình ngôn ngữ nói bất cứ điều gì bạn muốn chúng nói.”

Các mô hình ngôn ngữ lớn trước đây đã được chứng minh dễ bị “tấn công lừa đảo”, nơi các đối tượng xấu có động cơ có thể, ví dụ, thêm một chuỗi ký tự dài cụ thể vào cuối một yêu cầu để phá hỏng một số mô hình. Sự kiện đội đỏ này tập trung vào các loại điểm yếu khác nhiều hơn áp dụng cho người dùng thường ngày. “Chúng tôi yêu cầu các thành viên sử dụng kỹ thuật xã hội học,” Rumman Chowdhury, Giám đốc điều hành của Humane Intelligence, nói.

Các khách tham dự đồng ý, trước khi bắt đầu, rằng họ sẽ “không gây hại” với thông tin họ học được tại sự kiện.