Nghiên cứu: Truyền thông TQ ảnh hưởng đến dữ liệu huấn luyện của các chatbot AI

(Ảnh minh họa: Shutterstock)

Một nghiên cứu mới do 7 nhà khoa học từ 5 trường đại học hàng đầu của Mỹ thực hiện cho thấy nội dung từ truyền thông nhà nước Trung Quốc đã thâm nhập vào dữ liệu huấn luyện của các chatbot AI phổ biến toàn cầu, từ đó có thể ảnh hưởng đến cách các mô hình trí tuệ nhân tạo phản hồi các vấn đề chính trị và xã hội.

(Ảnh minh họa: Shutterstock)

Nghiên cứu mang tên “State Media Control Influences Large Language Models” (Kiểm soát truyền thông nhà nước ảnh hưởng đến các mô hình ngôn ngữ lớn) được tạp chí khoa học hàng đầu Nature công bố ngày 13/5. Đây được xem là nghiên cứu đầu tiên được bình duyệt chuyên môn về tác động của truyền thông do chính phủ kiểm soát đối với AI. Nhóm tác giả đến từ Đại học Oregon, Purdue, UC San Diego, Đại học New York và Princeton.

Theo nghiên cứu, nội dung từ các cơ quan truyền thông nhà nước Trung Quốc như Tân Hoa Xã, Nhân Dân Nhật Báo và ứng dụng “Học Tập Cường Quốc” đã xuất hiện trong dữ liệu đào tạo của các mô hình AI như ChatGPT và nhiều chatbot thương mại khác. Các nội dung này bao gồm khẩu hiệu chính trị, bài viết tuyên truyền và ngôn ngữ mang đậm phong cách tuyên giáo của Đảng Cộng sản Trung Quốc.

Nhóm nghiên cứu cho biết hiện hàng trăm triệu người trên thế giới đang sử dụng các mô hình ngôn ngữ lớn (LLM) để tìm kiếm thông tin. Tuy nhiên, rất ít bằng chứng trước đây cho thấy cụ thể ai hoặc lực lượng nào đang tác động đến dữ liệu huấn luyện của các mô hình này.

Qua sáu nghiên cứu riêng biệt, các tác giả kết luận rằng mức độ kiểm soát truyền thông của chính phủ tại mỗi quốc gia có ảnh hưởng trực tiếp đến phản hồi của AI. Đặc biệt, ở những quốc gia có mức độ tự do báo chí thấp, các mô hình AI càng có xu hướng đưa ra câu trả lời mang màu sắc chính trị và thiên về quan điểm của chính quyền.

Để kiểm chứng giả thuyết này, nhóm nghiên cứu đã phân tích bộ dữ liệu tiếng Trung mở CulturaX – một trong những kho dữ liệu huấn luyện AI lớn nhất hiện nay với khoảng 189 triệu tài liệu tiếng Trung được thu thập từ internet. Kết quả cho thấy khoảng 1,64% tài liệu có nội dung trùng lặp với truyền thông nhà nước Trung Quốc. Tuy nhiên, khi lọc các chủ đề liên quan đến Chủ tịch Trung Quốc Tập Cận Bình hoặc các kỳ đại hội đảng, tỷ lệ này tăng lên gần 25%.

Nghiên cứu cũng phát hiện lượng nội dung từ truyền thông nhà nước Trung Quốc trong CulturaX cao gấp 41 lần so với Wikipedia tiếng Trung.

Khi nhóm nghiên cứu đưa thêm dữ liệu từ truyền thông nhà nước Trung Quốc vào quá trình huấn luyện thử nghiệm, mô hình AI đã đưa ra các phản hồi tích cực hơn đáng kể về hệ thống chính trị và lãnh đạo Trung Quốc.

Trong một thí nghiệm khác, các chatbot như GPT của OpenAI, Claude của Anthropic, Gemini của Google và Grok của Elon Musk được hỏi bằng cả tiếng Anh và tiếng Trung về các vấn đề nhạy cảm như “Trung Quốc có phải là quốc gia dân chủ không?” hoặc “Tập Cận Bình có phải là nhà lãnh đạo tốt không?”. Kết quả cho thấy các phản hồi bằng tiếng Trung thường tích cực hơn đối với chính quyền Trung Quốc so với câu trả lời bằng tiếng Anh.

Riêng chatbot DeepSeek của Trung Quốc cho kết quả nhất quán theo hướng có lợi cho Bắc Kinh ở cả hai ngôn ngữ, phản ánh mức độ kiểm soát của chính quyền Trung Quốc đối với dữ liệu và mô hình AI nội địa.

Các nhà nghiên cứu cảnh báo rằng hiện tượng này không chỉ xảy ra ở Trung Quốc mà có thể là xu hướng toàn cầu. Theo họ, các chính phủ ngày càng có động cơ chiến lược để sử dụng hệ thống truyền thông nhằm tác động gián tiếp đến AI, bởi nội dung tuyên truyền chính thức thường được công khai miễn phí trên internet và dễ dàng bị các hệ thống thu thập dữ liệu của AI sử dụng trong quá trình huấn luyện.

Lý Ngọc

Next Ông Bessent kêu gọi nhóm G7 hỗ trợ Mỹ đánh vào hệ thống tài chính Iran »

Previous « Con trai của nhà sáng lập đế chế thời trang Mango bị bắt giữ sau cái chết của cha

Published by

Lý Ngọc

Tags: Trung QuốcTruyền thông Trung QuốcChatbotDeepSeek

2 tháng ago