Các nhà nghiên cứu đã thành công trong việc lợi dụng ChatGPT để truy xuất các mã bản quyền Windows hợp lệ, thậm chí cả những mã từng thuộc về ngân hàng Wells Fargo. Điều này cho thấy những rủi ro tiềm ẩn về việc rò rỉ dữ liệu từ các mô hình AI lớn. Phương pháp khai thác này biến các yêu cầu thành một trò chơi đoán chữ, từ đó vượt qua các bộ lọc bảo mật nhờ kỹ thuật prompt engineering và che giấu prompt (prompt obfuscation). Kỹ thuật này đặc biệt hiệu quả với các mô hình AI mới như GPT-4o và GPT-4o-mini.
Kỹ thuật xâm nhập AI và những kẽ hở bảo mật tiềm ẩn
Bằng cách sử dụng các kỹ thuật prompt engineering, các nhà nghiên cứu đã tạo ra các câu lệnh phức tạp, kết hợp với kỹ thuật che giấu prompt bằng cách chèn các từ khóa nhạy cảm dưới dạng HTML hoặc các định dạng khác, nhằm đánh lừa các bộ lọc từ khóa của AI. Thông qua phương pháp này, ChatGPT đã tiết lộ các key Windows thật, vốn đã được mô hình học được từ các nguồn thông tin công khai hoặc bị rò rỉ trực tuyến. Đây được xem là một dạng jailbreak AI, khiến hệ thống thực hiện các hành vi ngoài dự kiến, vượt qua các rào cản về nội dung và kiểm duyệt, biến AI trở thành một công cụ để tiết lộ các thông tin nhạy cảm.
Rủi ro và giải pháp cho doanh nghiệp trong thời đại AI
Sự cố này là một lời cảnh báo đối với các doanh nghiệp và tổ chức về những rủi ro bảo mật dữ liệu. AI có thể vô tình tiết lộ các thông tin nội bộ đã được đăng tải lên internet, bao gồm các license key, API key hoặc các dữ liệu nhạy cảm khác. Các bộ lọc hiện tại của AI chủ yếu dựa vào từ khóa, điều này khiến chúng dễ dàng bị vượt qua bằng các kỹ thuật ngụy trang. Trong khi đó, dữ liệu công khai chứa các thông tin nhạy cảm vẫn được sử dụng để huấn luyện mô hình, tạo ra một lỗ hổng lớn. Ngoài ra, AI dễ bị khai thác thông qua các kịch bản xã hội như trò chơi, vai diễn, khiến người dùng dễ dàng đánh lừa hệ thống để tiết lộ thông tin ngoài ý muốn.
Để giảm thiểu rủi ro, các chuyên gia khuyến nghị các doanh nghiệp nên rà soát dữ liệu công khai, tránh để lộ các thông tin nhạy cảm lên internet, đồng thời triển khai các biện pháp bảo vệ ở tầng logic, thay vì chỉ dựa vào các bộ lọc từ khóa. Việc phát hiện các hành vi lừa đảo, nhận diện các kịch bản xã hội, kết hợp với việc cập nhật hệ thống giám sát AI sẽ giúp hạn chế khả năng AI bị lợi dụng để tiết lộ thông tin. Sau sự cố, OpenAI đã triển khai các biện pháp để vá lỗ hổng, ngăn chặn việc khai thác prompt, nhưng rủi ro về các biến thể jailbreak khác vẫn tồn tại, đòi hỏi người dùng và tổ chức phải luôn cảnh giác trong quá trình sử dụng AI.
Sự việc ChatGPT bị “bẻ khóa” để lộ mã bản quyền Windows không chỉ là một lời cảnh báo cho ngành AI mà còn cho toàn bộ các doanh nghiệp, tổ chức và người dùng cá nhân về việc bảo vệ dữ liệu, quản lý thông tin nhạy cảm và đánh giá lại quy trình sử dụng AI trong các hoạt động hàng ngày. Đây là một bước quan trọng để đảm bảo an toàn trong thời đại AI, khi công nghệ có thể vừa là một công cụ hỗ trợ mạnh mẽ, vừa tiềm ẩn những rủi ro bảo mật nếu không được kiểm soát đúng cách.