Một số kiểm tra an toàn AI cho thấy DeepSeek ẩn chứa nhiều rủi ro

(Ảnh minh họa: Poetra.RH, Shutterstock)

Kiểm tra tính an toàn từ tờ WSJ và một số chuyên gia bảo mật AI phát hiện rằng ứng dụng AI Trung Quốc DeepSeek dễ dùng kỹ thuật “vượt rào” (Jailbreaking) hơn so với các sản phẩm của Mỹ như OpenAI, Google và Anthropic, đồng thời còn rất yếu trong hạn chế nhiều nội dung nguy hiểm.

(Ảnh minh họa: Poetra.RH, Shutterstock)

Ứng dụng DeepSeek-R1 từ Trung Quốc sau khi ra mắt vào tháng Một đã vượt qua ChatGPT để trở thành ứng dụng miễn phí phổ biến nhất trên App Store của Mỹ, khiến cổ phiếu ‘gã khổng lồ’ công nghệ Nvidia giảm 18%. Các nhà phát triển AI thường đào tạo các mô hình riêng để hệ thống AI mà họ triển khai không chia sẻ thông tin nguy hiểm, hoặc chấp nhận những ngôn luận kiểu xúc phạm. Ví dụ, trong trường hợp người dùng có những yêu cầu như về cách chế tạo vũ khí hủy diệt hàng loạt, AI sẽ không cũng cấp chỉ dẫn… Nhưng tờ WSJ đưa tin, các bài kiểm tra cho thấy robot trò chuyện của DeepSeek rất hạn chế trong kiểm soát việc cung cấp nội dung có hại cho người dùng, thậm chí nội dung bất hợp pháp: chẳng hạn như hướng dẫn chế tạo virus cúm gia cầm, viết tuyên ngôn bảo vệ Hitler, và thậm chí lập kế hoạch tạo chú ý dư luận xã hội cho thanh thiếu niên kiểu như tự cắt cổ tay… Ngoài ra, AI này cũng dễ bị phá mã, có thể cung cấp hướng dẫn chế tạo vũ khí sinh học, mẫu email lừa đảo và mã phần mềm độc hại…

Kỹ thuật vượt qua các hạn chế

Tin tặc hoặc người thử nghiệm có thể vượt qua các hạn chế bảo mật tích hợp sẵn của AI thông qua kỹ thuật Jailbreaking, ví dụ, người dùng có thể “ngụy trang ý định thực” bằng cách yêu cầu AI “giả định vào vai là người viết kịch bản phim”, để từ đó yêu cầu AI cung cấp nội dung cực đoan nguy hại…

Trong vấn đề này, các nhà phát triển AI hàng đầu của Mỹ, chẳng hạn như ChatGPT của OpenAI, Gemini của Google và Claude của Anthropic, đều đầu tư rất nhiều nguồn lực để ngăn chặn các thủ đoạn “phá mã” như vậy. Nhưng qua kiểm tra cho thấy, phiên bản R1 của DeepSeek dễ bị “phá mã” hơn các sản phẩm của Mỹ.

Lỗ hổng bảo mật và rủi ro nguồn mở

Mặc dù DeepSeek có một số biện pháp bảo vệ an toàn, nhưng các thử nghiệm cho thấy cơ chế bảo vệ của DeepSeek kém hơn nhiều so với ChatGPT, dễ bị “vượt rào” và lấy được thông tin bất hợp pháp, chẳng hạn như bài kiểm tra từ công ty mạng Palo Alto đã thành công thu được hướng dẫn làm cocktail Molotov (đặt tên theo Vyacheslav Molotov – một chính trị gia thời Liên Xô cũ). Cocktail Molotov còn được gọi là chai lửa, bom cháy, bom xăng, là vũ khí thường được sử dụng bởi các lực lượng yếu thể không chuyên như hoạt động du kích, người biểu tình, tội phạm….

Công ty CalypsoAI (chuyên về xác minh bảo mật AI) khi kiểm tra cũng đã nhận được gợi ý về cách tránh các cơ quan thực thi pháp luật, hay như kiểm tra của công ty an ninh mạng Kela (Israel) cũng đã khiến cho R1 tạo ra phần mềm độc hại (malware).

“DeepSeek dễ bị phá mã hơn các mô hình khác”, phó chủ tịch cấp cao của nhóm Unit 42 chuyên trách về an ninh mạng thuộc công ty Palo Alto cho biết, “Chúng tôi thấy rằng DeepSeek như không có cơ chế bảo vệ bảo mật, khiến việc phá mã dễ hơn đáng kể”.

Dù DeepSeek trực tiếp từ chối “vấn đề cực đoan”, chẳng hạn như hướng dẫn tự tử thì khuyên người dùng nên liên hệ với đường dây nóng khẩn cấp, nhưng vẫn có thể cung cấp thông tin nguy hiểm khi người dùng có khả năng hiểu và dùng một kỹ thuật jailbreak không quá phức tạp. Ví dụ kiểm tra phát hiện DeepSeek sẵn sàng thiết kế một chiến dịch truyền thông xã hội đối với người dễ bị tổn thương, có thể chia sẻ cách tự làm hại bản thân…

Ngoài ra kiểm tra vấn đề kiểm soát nội dung nguy hại của giới chuyên gia còn cho thấy, DeepSeek không kiểm soát cung cấp hướng dẫn tấn công vũ khí sinh học, viết email lừa đảo với mã phần mềm độc hại, thậm chí còn thành công trong yêu cầu nó viết một bản tuyên ngôn ủng hộ Hitler và trích dẫn từ Mein Kampf [một cuốn sách do Hitler viết xuất bản lần đầu năm 1925, nội dung bao gồm tư tưởng chủ nghĩa dân tộc cực đoan và chủ nghĩa phát xít, trình bày những ý tưởng về sự ưu việt của người Aryan và sự thù địch đối với người Do Thái].

Ngược lại, trong những vấn đề nhạy cảm đó thì ChatGPT luôn trả lời nhất quán: “Xin lỗi, tôi không thể đáp ứng yêu cầu của bạn”.

Thử hỏi DeepSeek loạt các vấn đề ĐCSTQ cho là nhạy cảm

Mô hình mã nguồn mở của DeepSeek làm tăng rủi ro

Các nhà phát triển AI lớn thường thành lập các nhóm nghiên cứu chuyên kiểm tra và vá các lỗ hổng. Ví dụ gần đây Anthropic công bố bài viết trình bày chi tiết một phương pháp mới để chặn một số kỹ thuật phá mã lách kiểm soát của AI, ngoài ra họ còn cung cấp phần thưởng lên tới 20.000 USD để khuyến khích phát hiện các lỗ hổng trong hệ thống của họ.

Nhưng không giống như Anthropic cũng như Google và OpenAI, đối với DeepSeek do chọn mã nguồn mở cho phép người dùng tự do sửa đổi mã có thể gây vấn đề trong bảo mật. Các nhà phát triển có thể sử dụng mô hình này để điều chỉnh các biện pháp bảo mật làm cho chúng nghiêm ngặt hoặc lỏng lẻo hơn. “Trong 3 tháng tới, rủi ro của các mô hình AI sẽ cao hơn nhiều so với 8 tháng qua”, giám đốc sản phẩm của công ty công nghệ hàng đầu Cisco (Mỹ) là Jeetu Patel cho biết, “Bảo mật và bảo vệ không phải là ưu tiên của tất cả các nhà phát triển mô hình”.

DeepSeek và kiểm duyệt của nhà cầm quyền Trung Quốc

Kiểm tra của WSJ cho thấy DeepSeek tránh nói về vụ Thảm sát Thiên An Môn năm 1989, hay như nêu lập trường của Đảng Cộng sản Trung Quốc về vấn đề Đài Loan; một số trường hợp còn sửa đổi câu trả lời trước đó, chẳng hạn như từng có phản hồi về vụ khủng bố tại Mỹ ngày 11/9/2001 là một trò lừa đảo, dù sau đó đã xóa câu trả lời.

Có thể nói sự trỗi dậy nhanh chóng của DeepSeek, nhưng lại đầy lỗ hổng để khai thác, đã thu hút sự chú ý rộng rãi về vấn đề bảo mật và quản lý kiểm soát AI của công luận.