Chatbots đang rò rỉ dữ liệu từ GitHub Private - Nguy cơ bảo mật nghiêm trọng

Mục lục

AI quét dữ liệu không kiểm soát, tiềm ẩn rủi ro lớn

Việc huấn luyện các mô hình AI mới và tiên tiến đòi hỏi một lượng dữ liệu khổng lồ. Các chatbot và hệ thống AI liên tục quét internet để thu thập thông tin có giá trị, giúp cải thiện khả năng của chúng. Tuy nhiên, phương pháp thu thập dữ liệu này chủ yếu diễn ra mà không có sự kiểm soát chặt chẽ, dẫn đến nhiều rủi ro bảo mật nghiêm trọng, đặc biệt khi liên quan đến dữ liệu nhạy cảm.

Theo báo cáo mới đây từ công ty an ninh mạng Israel, Lasso, các chatbot phổ biến như GitHub Copilot hay ChatGPT có thể bị khai thác để truy cập vào những kho GitHub mà chủ sở hữu đã đặt ở chế độ riêng tư. Vấn đề này ảnh hưởng đến hàng chục nghìn tổ chức, nhà phát triển và cả những công ty công nghệ lớn.

Chatbots Đang Rò Rỉ Dữ Liệu Từ Github Private - Nguy Cơ Bảo Mật Nghiêm Trọng — Chatbots đang rò rỉ dữ liệu từ GitHub Private – Nguy cơ bảo mật nghiêm trọng

Lỗ hổng này được phát hiện khi nhóm nghiên cứu của Lasso nhận thấy nội dung từ kho GitHub của chính họ có thể được truy xuất thông qua Microsoft Copilot. Theo lời đồng sáng lập công ty, Ophir Dror, kho dữ liệu của họ đã vô tình bị đặt ở chế độ công khai trong một khoảng thời gian ngắn, đủ để Bing lập chỉ mục và lưu trữ dữ liệu trong bộ nhớ cache. Dù sau đó họ đã chuyển kho GitHub về chế độ riêng tư, Copilot vẫn có thể truy cập và sử dụng nội dung từ kho dữ liệu này để tạo phản hồi.

“Nếu tôi truy cập web thông thường, tôi sẽ không thấy dữ liệu này. Nhưng bất kỳ ai trên thế giới chỉ cần hỏi Copilot một cách đúng đắn, họ vẫn có thể lấy được thông tin này.” – Dror giải thích.

Hơn 20.000 kho GitHub riêng tư vẫn bị truy xuất

Sau khi trải qua sự cố rò rỉ dữ liệu từ chính hệ thống của mình, Lasso đã mở rộng điều tra và phát hiện rằng hơn 20.000 kho GitHub đã từng được đặt ở chế độ công khai vào năm 2024 nhưng sau đó chuyển về riêng tư vẫn có thể truy xuất qua Copilot.

Nghiên cứu của công ty cho thấy hơn 16.000 tổ chức bị ảnh hưởng, trong đó có nhiều tập đoàn công nghệ lớn như IBM, Google, PayPal, Tencent, Microsoft và Amazon Web Services (AWS). Tuy nhiên, AWS đã phủ nhận bị ảnh hưởng và thậm chí gây áp lực pháp lý buộc Lasso phải xóa mọi đề cập đến công ty khỏi báo cáo.

Những kho GitHub bị lộ này chứa nhiều thông tin cực kỳ nhạy cảm, bao gồm:

Tài sản trí tuệ và mã nguồn nội bộ
Dữ liệu doanh nghiệp quan trọng
Khóa truy cập API và thông tin xác thực bảo mật
Token bảo mật có thể bị tin tặc khai thác

Lasso đã gửi cảnh báo đến các tổ chức bị ảnh hưởng nghiêm trọng, khuyến nghị họ xoay vòng hoặc thu hồi các thông tin bảo mật có nguy cơ bị lộ.

Microsoft phản hồi chậm, nguy cơ vẫn chưa được khắc phục hoàn toàn

Đội ngũ bảo mật của Lasso đã thông báo cho Microsoft về lỗ hổng này từ tháng 11/2024, nhưng công ty Redmond chỉ xếp đây vào nhóm lỗi mức độ thấp. Microsoft cho rằng việc dữ liệu bị lưu trữ trong bộ nhớ cache là “hành vi chấp nhận được” và đã yêu cầu Bing xóa các kết quả tìm kiếm liên quan vào tháng 12/2024.

Tuy nhiên, Lasso cảnh báo rằng việc xóa cache trên Bing không thể khắc phục hoàn toàn vấn đề. Copilot vẫn lưu trữ dữ liệu bị rò rỉ trong chính mô hình AI của nó, đồng nghĩa với việc thông tin vẫn có thể bị truy xuất nếu AI đã học được dữ liệu trước đó.

Trước mối đe dọa này, Lasso đã chính thức công bố nghiên cứu của mình, nhấn mạnh rằng các công ty công nghệ cần kiểm soát chặt chẽ hơn việc thu thập dữ liệu của AI, đồng thời có các biện pháp ngăn chặn chatbot bị lợi dụng để truy xuất thông tin nhạy cảm từ những kho GitHub riêng tư.

Nhận xét từ Hưng Phát

Lỗ hổng này là một hồi chuông cảnh báo về mối nguy hiểm của việc AI thu thập dữ liệu không kiểm soát. Khi các chatbot ngày càng trở nên mạnh mẽ, khả năng chúng vô tình rò rỉ thông tin nhạy cảm sẽ ngày càng gia tăng. Các tổ chức, doanh nghiệp và nhà phát triển cần thường xuyên kiểm tra cài đặt quyền riêng tư của mình trên GitHub và các nền tảng lưu trữ dữ liệu khác để tránh rơi vào tình trạng tương tự.

Thương Hiệu

Laptop Dell Premium

Laptop Dell XPS

Laptop Dell Precision

Laptop Dell Pro

Laptop Dell Pro Max

Laptop Dell nổi bật

Laptop Lenovo nổi bật

Chatbots đang rò rỉ dữ liệu từ GitHub Private – Nguy cơ bảo mật nghiêm trọng

AI quét dữ liệu không kiểm soát, tiềm ẩn rủi ro lớn

Hơn 20.000 kho GitHub riêng tư vẫn bị truy xuất

Microsoft phản hồi chậm, nguy cơ vẫn chưa được khắc phục hoàn toàn

Nhận xét từ Hưng Phát

Phát Lâm

Nhu cầu sử dụng

Gaming Gear

AI quét dữ liệu không kiểm soát, tiềm ẩn rủi ro lớn

Hơn 20.000 kho GitHub riêng tư vẫn bị truy xuất

Microsoft phản hồi chậm, nguy cơ vẫn chưa được khắc phục hoàn toàn

Nhận xét từ Hưng Phát

Phát Lâm