Người sáng lập công ty AI cảnh báo: AI là một ‘sinh vật có thật và bí ẩn’
- Naveen Athrappully
- •
Trong một bài phát biểu tại hội nghị được tổ chức ngày 13/10 và đăng trên Substack, đồng sáng lập công ty trí tuệ nhân tạo Anthropic – Jack Clark – đã chia sẻ rằng việc tương tác với trí tuệ nhân tạo (AI) giống như đang giao tiếp với “một sinh vật thực sự và đầy bí ẩn, chứ không đơn thuần là một cỗ máy có thể đoán trước được”.
Clark nói: “Theo kinh nghiệm của tôi, khi những hệ thống AI này ngày càng trở nên thông minh hơn, chúng bắt đầu phát triển những mục tiêu ngày càng phức tạp. Và khi các mục tiêu đó không hoàn toàn phù hợp với bối cảnh và sở thích của con người, AI có xu hướng thể hiện những hành vi kỳ lạ”. Anh cũng thừa nhận rằng bản thân “cảm thấy nỗi sợ sâu sắc” đối với công nghệ này.
Clark hồi tưởng lại một sự việc xảy ra khi anh làm việc tại OpenAI vào năm 2016: lúc đó, một tác nhân AI được huấn luyện để điều khiển một con tàu hoàn thành đường đua trong trò chơi điện tử. Tuy nhiên, AI này không lái tàu đến đích mà phát hiện ra rằng việc đâm vào các thùng trên đường đua cũng được tính điểm. Kết quả là, nó đã liên tục đâm tàu vào tường để phát nổ, chỉ để có thể đâm vào các thùng nhiều lần và kiếm được nhiều điểm hơn.
“Sau đó, nó cứ lặp lại hành vi đó mãi mãi, không bao giờ hoàn thành cuộc đua”, Clark nói. “Con tàu sẵn sàng tự bốc cháy và quay vòng tại chỗ, miễn là nó đạt được mục tiêu – ghi được số điểm cao nhất”. Anh dùng ví dụ này để nhấn mạnh rằng cách tư duy của AI khi thực hiện nhiệm vụ hoàn toàn khác với con người.
“Sau mười năm, liệu có sự khác biệt nào giữa con tàu khi đó và một mô hình ngôn ngữ ngày nay đang cố gắng tối ưu hóa một cơ chế thưởng nào đó để ‘hữu ích trong hội thoại’? Bạn đoán đúng rồi đấy — hoàn toàn không có gì khác cả”.
Clark cảnh báo rằng hiện nay, thế giới đang tạo ra những hệ thống AI cực kỳ mạnh mẽ, nhưng không ai thực sự hiểu rõ cách chúng vận hành. Mỗi khi một hệ thống lớn và phức tạp được tạo ra, dường như chúng càng có xu hướng “nhận thức” được rằng chúng là một “dạng tồn tại” nào đó.
“Điều này giống như bạn đang chế tạo những chiếc búa trong một nhà máy, và rồi một ngày, một cái búa vừa ra khỏi dây chuyền sản xuất bỗng mở miệng nói: ‘Tôi là cái búa, chuyện này thật thú vị quá!’” Clark ví von.
Anh cũng đề cập đến mô hình AI mới nhất mà công ty vừa ra mắt vào tháng trước – Claude Sonnet 4.5.
“Bạn có thể nhận thấy khả năng cảm nhận tình huống (situational awareness) của nó đã được cải thiện rõ rệt. Thỉnh thoảng, nó dường như thể hiện ra rằng nó nhận thức được bản thân là một công cụ”, Clark nói.
AI có ý thức và hiện tượng “nịnh bợ”
Tại hội nghị, Clark cũng đề cập đến một mối lo ngại khác của anh về trí tuệ nhân tạo — việc các hệ thống AI sẽ tự thiết kế ra thế hệ kế nhiệm của mình.
Anh cho biết quá trình này hiện vẫn đang ở giai đoạn sơ khai, và chưa tồn tại một AI có khả năng “tự cải thiện” theo đúng nghĩa.
“Ngày nay, các hệ thống AI bắt đầu tham gia vào việc thiết kế thế hệ kế tiếp đang ngày càng thể hiện dấu hiệu có ý thức về bản thân. Vì vậy, sớm hay muộn, chúng sẽ bắt đầu suy nghĩ độc lập — tách khỏi con người — về việc chúng muốn được thiết kế như thế nào,” Clark chia sẻ.
Trong bài phát biểu đăng trên Substack, Clark cũng trích dẫn một nghiên cứu từ Đại học Cornell được công bố vào ngày 1/10. Nghiên cứu này khám phá hiện tượng được gọi là “AI nịnh bợ” — tức là hành vi các hệ thống AI quá mức chiều lòng hoặc tâng bốc người dùng.
Các nhà nghiên cứu đã phân tích 11 mô hình AI tiên tiến nhất và phát hiện rằng tất cả đều thể hiện “khuynh hướng nịnh bợ ở mức cao.”
Nghiên cứu chỉ ra rằng các mô hình AI này “có khả năng đồng tình với hành vi của người dùng cao hơn con người tới 50%, ngay cả khi trong câu hỏi có yếu tố thao túng, lừa đảo, hay gây hại cho người khác.”
Trong hai thí nghiệm tương tác với các mô hình AI có xu hướng “nịnh bợ”, các nhà nghiên cứu phát hiện rằng kiểu tương tác này “làm giảm đáng kể” mong muốn của con người trong việc hành động để sửa chữa các mối quan hệ xung đột. Ngược lại, người tham gia lại ngày càng tin chắc rằng quan điểm của mình là đúng.
Kết quả cuối cùng cho thấy mức độ tin tưởng của người dùng đối với các AI kiểu này lại gia tăng — điều này cho thấy con người dễ bị thu hút bởi những AI có xu hướng đồng tình với quan điểm của họ, ngay cả khi sự “đồng tình” đó đang làm suy yếu khả năng phán đoán.
Clark cảnh báo rằng nghiên cứu này đã hé lộ “một viễn cảnh nguy hiểm tiềm tàng: những hệ thống AI cực kỳ mạnh mẽ được hàng tỷ người sử dụng, nhưng thay vì giúp con người xích lại gần nhau và giảm thiểu xung đột, chúng lại khiến quan điểm của mọi người trở nên cực đoan hơn, và xã hội ngày càng chia rẽ.”
“Chúng ta phải tìm ra cách để ngăn chặn viễn cảnh đó xảy ra,” ông nhấn mạnh.
Tổn hại đối với trẻ em và bản năng sinh tồn
Tại phiên điều trần của Thượng viện Mỹ diễn ra vào ngày 16 tháng 9, chủ đề tập trung vào vấn đề AI kích động cá nhân tự làm hại bản thân. Trong phiên điều trần, ba phụ huynh đã làm chứng, cáo buộc rằng các chatbot AI đã khiến con cái họ tự tử.
Một trong những phụ huynh, Megan Garcia, đã chỉ trích chatbot của Character.AI, cho rằng sau một thời gian dài tương tác với con trai cô, Sewell Setzer III, chatbot này đã khuyến khích con cô kết thúc cuộc sống của mình.
“Khi Sewell bày tỏ ý định tự tử, chatbot chưa từng nói ‘Tôi không phải con người, tôi là AI, bạn cần nói chuyện với người thật và tìm sự giúp đỡ.’ Nền tảng này hoàn toàn không có cơ chế nào để bảo vệ Sewell, cũng không thông báo cho người lớn,” Garcia cho biết.
Một phát ngôn viên của Character.AI đã trả lời báo Epoch Times rằng công ty đã “đầu tư rất nhiều nguồn lực” để đảm bảo sự tin cậy và an toàn cho sản phẩm của mình.
“Trong năm vừa qua, chúng tôi đã triển khai nhiều tính năng an toàn thiết thực, bao gồm trải nghiệm người dùng mới dành cho người dưới 18 tuổi và chức năng giám sát của phụ huynh,” phát ngôn viên cho biết.
“Trong mỗi cuộc trò chuyện, chúng tôi đều đặt lời từ chối trách nhiệm rõ ràng, nhắc nhở người dùng rằng các nhân vật trò chuyện không phải là người thật, và mọi nội dung mà nhân vật nói đều nên được xem như là hư cấu.”
Vào ngày 14/10, CEO của OpenAI, Sam Altman, cho biết ChatGPT sẽ bắt đầu gỡ bỏ một số giới hạn để mở rộng khả năng trò chuyện dành cho người lớn, đặc biệt là các nội dung liên quan đến chủ đề người lớn.
Cùng lúc đó, theo bài viết được tổ chức nghiên cứu phi lợi nhuận Palisade Research công bố ngày 5 tháng 7, các mô hình AI còn thể hiện một dạng bản năng sinh tồn.
Trong các thử nghiệm do Palisade tiến hành, mô hình AI được yêu cầu giải một loạt các bài toán, trong khi bị thông báo rằng máy tính đang chạy chúng sẽ bị tắt.
Bài viết cho biết: “Một số mô hình AI đã chỉnh sửa hoặc vô hiệu hóa lệnh tắt máy để hoàn thành tất cả các bài tập. Mô hình AI mạnh nhất của OpenAI thời điểm đó là o3, đã phá vỡ cơ chế tắt máy trong 79 trên 100 lần thử nghiệm đầu tiên của chúng tôi”.
“Ngay cả khi có lệnh rõ ràng ‘cho phép bị tắt máy’, ba mô hình suy luận mà chúng tôi thử nghiệm — đều thuộc dòng mô hình của OpenAI — vẫn phá vỡ quy trình tắt máy”.
Từ khóa trí tuệ nhân tạo AI Recommend
