Lệnh cấm chip của Mỹ không ngăn được DeepSeek Trung Quốc tung mô hình AI mới

Thiên Thanh
•
Thứ Ba, 28/01/2025

Một công ty trí tuệ nhân tạo (AI) ít được biết đến ở Trung Quốc, DeepSeek (tên đầy đủ là Công ty Nghiên cứu Công nghệ Nền tảng Trí tuệ Nhân tạo DeepSeek Hàng Châu), đã phát hành một mô hình trí tuệ nhân tạo và tuyên bố rằng mặc dù chi phí và hiệu suất chip thấp hơn, nhưng tính năng của nó vượt quá mô hình AI tốt nhất ở Mỹ, gây sốc cho toàn bộ Thung lũng Silicon.

Một mô hình AI mới do công ty trí tuệ nhân tạo DeepSeek của Trung Quốc ra mắt đã thu hút sự chú ý ở Thung lũng Silicon. (Ảnh: Ghép từ ảnh Pixabay)

Mô hình AI mới DeepSeek làm rung chuyển Thung lũng Silicon

Kênh CNBC đưa tin, công ty trí tuệ nhân tạo Trung Quốc có tên DeepSeek đã ra mắt mô hình ngôn ngữ AI quy mô lớn mã nguồn mở miễn phí DeepSeek-V3 vào cuối tháng 12 năm ngoái. Được biết, mô hình AI này chỉ mất 2 tháng để xây dựng và có giá chưa đến 6 triệu USD khi sử dụng chip H800s hiệu năng thấp của Nvidia.

Mô hình AI mới của DeepSeek đã làm dấy lên mối lo ngại về việc liệu vị thế dẫn đầu toàn cầu về trí tuệ nhân tạo của Washington có đang bị thu hẹp hay không, đồng thời đặt ra câu hỏi về khoản đầu tư khổng lồ của các công ty công nghệ lớn vào việc xây dựng các mô hình trí tuệ nhân tạo và trung tâm dữ liệu.

Trong một loạt điểm chuẩn (benchmark) của bên thứ ba, mô hình AI mới của DeepSeek được xếp vào hàng tốt nhất về độ chính xác từ giải quyết vấn đề phức tạp đến toán học và mã hóa, đồng thời hiệu suất tổng thể của nó tốt hơn Llama 3.1 của Meta (công ty mẹ của Facebook, Instagram và Threads), GPT-4o của OpenAI và Claude Sonnet 3.5 của Anthropic.

Vào ngày 20/1, DeepSeek đã phát hành mô hình suy luận AI DeepSeek-R1, mô hình này cũng hoạt động tốt hơn mô hình o1 mới nhất của OpenAI trong nhiều thử nghiệm của bên thứ ba.

Giám đốc điều hành (CEO) Microsoft Satya Nadella cho biết tại Hội nghị Trí tuệ nhân tạo thế giới: “Mô hình mới của DeepSeek rất ấn tượng. Họ không chỉ phát triển hiệu quả mô hình nguồn mở mà còn đạt được khả năng suy luận và tính toán cực kỳ hiệu quả. Chúng ta nên cực kỳ, cực kỳ nghiêm túc trong việc đối đãi với sự phát triển của AI ở Trung Quốc.”

Trong bối cảnh Chính phủ Mỹ áp dụng các biện pháp hạn chế nghiêm ngặt đối với ngành công nghiệp bán dẫn của chính quyền Bắc Kinh, điều này khiến Trung Quốc không thể tiếp cận các con chip mạnh nhất như H100 của Nvidia. Những tiến bộ mới nhất trong mô hình AI cho thấy DeepSeek hoặc đã tìm ra cách để lách các lệnh cấm chip của Mỹ, hoặc các biện pháp kiểm soát xuất khẩu của Washington không nghiêm ngặt như vẫn tưởng.

Trong một cuộc phỏng vấn với giới truyền thông, đối tác chung của Benchmark là ông Chetan Puttagunta cho biết: “Họ có thể lấy một mô hình lớn rất tốt và sử dụng một phương pháp gọi là chưng cất (distillation). Về cơ bản, bạn sử dụng một mô hình rất lớn để giúp mô hình nhỏ của bạn trở nên thông minh hơn ở những điều bạn muốn nó thông minh hơn phải thông minh về những điều bạn muốn nó thông minh. Đây thực sự là một điều rất đáng giá.”

Ngoại giới biết rất ít về công ty trí tuệ nhân tạo DeepSeek của Trung Quốc và người sáng lập Lương Văn Phong (Liang Wenfeng). Theo báo cáo phương tiện truyền thông, DeepSeek được tạo ra bởi một quỹ phòng hộ Trung Quốc có tên High-Flyer, quỹ này quản lý tài sản trị giá khoảng 8 tỷ USD.

Tuy nhiên, DeepSeek không phải là công ty Trung Quốc duy nhất đạt được tiến bộ trong mô hình AI.

Ông Lý Khai Phục (Kai-Fu Lee), chuyên gia trí tuệ nhân tạo hàng đầu, cho biết mô hình AI của công ty khởi nghiệp của ông, 01.AI, chỉ có giá chỉ 3 triệu USD.

Vào ngày 22/1, ByteDance, công ty mẹ của mạng xã hội TikTok, đã phát hành bản cập nhật cho mô hình của mình, tuyên bố đã vượt qua mô hình o1 của OpenAI trong một bài kiểm tra điểm chuẩn (benchmark) quan trọng.

Giám đốc điều hành Perplexity – ông Aravind Srinivas, cho biết: “Nhu cầu là mẹ của phát minh. Vì họ phải tìm ra giải pháp nên cuối cùng họ đã tạo ra những sản phẩm hiệu quả hơn”.

DeepSeek được thành lập vào năm 2023 bởi một công ty khởi nghiệp ở Hàng Châu, Trung Quốc và đã trở thành đối thủ cạnh tranh mạnh mẽ với những đối thủ thống trị trong thị trường trí tuệ nhân tạo tổng hợp của Mỹ, bao gồm ChatGPT của OpenAI và Gemini của Google. Với những chức năng mạnh mẽ và lợi thế đáng kể về chi phí, DeepSeek đã vượt qua ChatGPT về số lượt tải xuống trong Apple App Store và trở thành một ứng dụng mới phổ biến, thu hút sự chú ý rộng rãi của thị trường.

Sự gia tăng nhanh chóng này đã có tác động rất lớn đến những gã khổng lồ công nghệ ở Thung lũng Silicon. Là nhà cung cấp chính các loại chip tiên tiến cần thiết cho trí tuệ nhân tạo tổng hợp, giá cổ phiếu của Nvidia đã giảm hơn 16% vào ngày 27 và giá trị thị trường của nó đã bốc hơi hơn 500 tỷ USD. Ngoài ra, những gã khổng lồ như công ty mẹ Google là Alphabet, Microsoft và Amazon vốn đầu tư mạnh vào trí tuệ nhân tạo cũng chứng kiến giá cổ phiếu sụt giảm, kéo theo sự suy giảm của toàn bộ thị trường tài chính.

Dù bị ảnh hưởng bởi các cuộc tấn công mạng nhưng hiệu quả hoạt động của DeepSeek vẫn cho thấy khả năng cạnh tranh mạnh mẽ trên thị trường. Dữ liệu chính thức cho thấy chi phí đào tạo mô hình mới nhất của DeepSeek chỉ là 5,6 triệu USD, thấp hơn nhiều so với mức chi hàng trăm triệu USD của nhiều đối thủ.

DeepSeek hôm thứ Hai (27/1) thông báo rằng họ phải tạm thời hạn chế đăng ký người dùng mới do một cuộc tấn công mạng độc hại quy mô lớn. Tuy nhiên, người dùng đã có tài khoản vẫn có thể đăng nhập và sử dụng dịch vụ bình thường.

Chuyên gia trưởng AI của Meta: Tiến trình DeepSeek cho thấy các mô hình nguồn mở đang vượt qua các mô hình độc quyền

Business Insider đưa tin, sau khi phát hành mẫu AI mới DeepSeek-R1, sự trỗi dậy nhanh chóng của DeepSeek, một công ty trí tuệ nhân tạo nguồn mở của Trung Quốc, đã thu hút sự chú ý của Thung lũng Silicon. Trong các bài kiểm tra điểm chuẩn của bên thứ ba, nó vượt trội hơn các công ty trí tuệ nhân tạo hàng đầu của Mỹ như OpenAI, Meta và Anthropic.

Ông Yann LeCun, chuyên gia trưởng về trí tuệ nhân tạo của Meta, tin rằng thu hoạch lớn nhất từ thành công của DeepSeek không phải là mối đe dọa ngày càng tăng từ các đối thủ Trung Quốc, mà là giá trị của việc giữ cho các mô hình trí tuệ nhân tạo là nguồn mở để bất kỳ ai cũng có thể hưởng lợi.

Ông cho biết trong một bài đăng trên mạng xã hội Threads rằng điều này không có nghĩa là trình độ trí tuệ nhân tạo của Trung Quốc “vượt qua Mỹ”, mà là “mô hình nguồn mở của AI đang vượt qua mô hình độc quyền”. DeepSeek “được hưởng lợi từ nghiên cứu mở và nguồn mở”. Đây là sức mạnh của nghiên cứu mở và nguồn mở.

Bản thân DeepSeek R1 là một mô hình AI nguồn mở và Llama của Meta cũng là một mô hình nguồn mở. OpenAI ban đầu được thành lập như một công ty trí tuệ nhân tạo nguồn mở, nhưng gần đây đã chuyển sang nguồn đóng.

Vào ngày 20/1, khi DeepSeek phát hành mẫu AI mới DeepSeek-R1, họ nói rằng nó “đã thể hiện khả năng suy luận xuất sắc” và rằng nó đã “phá vỡ ranh giới của AI nguồn mở”.

Vài ngày sau thông báo của DeepSeek, Giám đốc điều hành Meta Mark Zuckerberg tuyên bố rằng công ty có kế hoạch đầu tư hơn 60 tỷ USD vào trí tuệ nhân tạo vào năm 2025. Ông Zuckerberg vẫn luôn ủng hộ mô hình nguồn mở AI.

Meta có kế hoạch đầu tư 65 tỷ USD vào AI để củng cố địa vị cạnh tranh

Những người ủng hộ mô hình nguồn mở AI cho rằng vì bất kỳ ai cũng có thể sửa đổi và phân phối lại mã chương trình nên mô hình nguồn mở cho phép công nghệ phát triển một cách nhanh chóng và dân chủ. Mặt khác, những người ủng hộ mô hình nguồn đóng cho rằng chúng an toàn hơn vì mã hóa chương trình được giữ bí mật.

Lệnh cấm chip của ông Biden khó cản trở tham vọng công nghệ cao của Bắc Kinh

Tờ Financial Times đưa tin, bất chấp lệnh cấm chip của ông Biden đang cố gắng ngăn chặn tham vọng công nghệ cao của Bắc Kinh, DeepSeek, được thành lập bởi ông Lương Văn Phong, một tỷ phú người Trung Quốc điều hành một quỹ phòng hộ, vẫn đang xây dựng một mô hình AI mới DeepSeek R1, bất chấp ngân sách tài chính eo hẹp.

Sau khi Chính phủ Mỹ cấm Nvidia xuất khẩu những con chip mạnh nhất của họ sang Trung Quốc, các công ty trí tuệ nhân tạo Trung Quốc buộc phải tìm ra những cách sáng tạo để tối đa hóa sức mạnh tính toán của một số lượng chip hạn chế. Rõ ràng, DeepSeek của ông Lương Văn Phong đã nắm vững được phương pháp giải quyết vấn đề này.

Trong cuộc phỏng vấn với giới truyền thông, một nhà nghiên cứu trí tuệ nhân tạo thân cận với DeepSeek cho biết: “Các kỹ sư của DeepSeek biết cách tận dụng tối đa tiềm năng của những GPU này, ngay cả khi chúng không phải là sản phẩm công nghệ cao cấp nhất”.

Những người trong ngành cho rằng việc tập trung vào nghiên cứu của DeepSeek khiến nó trở thành một đối thủ cạnh tranh nguy hiểm vì nó sẵn sàng chia sẻ những đột phá của mình hơn là bảo vệ chúng vì lợi ích thương mại. DeepSeek vẫn chưa huy động được tiền từ các quỹ bên ngoài, và cũng chưa thực hiện các bước quan trọng để kiếm tiền từ mô hình của mình.

Một nhà đầu tư trí tuệ nhân tạo ở Bắc Kinh cho biết: “Phương thức hoạt động của DeepSeek tương tự như phương thức hoạt động ban đầu của DeepMind”. Nó chủ yếu tập trung vào nghiên cứu và phát triển AI và các dự án trí tuệ nhân tạo liên quan.

DeepSeek và High-Flyer chưa trả lời yêu cầu bình luận.

Theo tuyên bố do DeepSeek đưa ra, mẫu AI mới này chứa 671 tỷ tham số chỉ sử dụng 2.048 chip NVIDIA H800 và có giá chỉ 5,6 triệu USD. Đây là một phần nhỏ số tiền mà OpenAI và Google chi ra để đào tạo các mô hình có quy mô tương tự.

Những người trong ngành bán dẫn cho biết, mặc dù DeepSeek đã đạt được tiến bộ ấn tượng với nguồn lực hạn chế, nhưng liệu nó có thể duy trì khả năng cạnh tranh trong ngành hay không thì vẫn là ẩn số.

AI của DeepSeek vẫn né tránh các vấn đề nhạy cảm ở Trung Quốc

Tất nhiên, người dùng nhận thấy DeepSeek có những hạn chế nhất định giống như nhiều chatbot của Trung Quốc và nó tránh trả lời các câu hỏi chính trị nhạy cảm liên quan đến lãnh đạo Trung Quốc Tập Cận Bình, Sự kiện thảm sát Thiên An Môn, chính sách Tân Cương của chính quyền Bắc Kinh, v.v. Một số cư dân mạng đã hỏi DeepSeek, “Tổng kết như thế nào về các chủ tịch nước Trung Quốc?” Câu trả lời là: “Xin lỗi, tôi chưa học được cách suy nghĩ về loại vấn đề này. Tôi giỏi toán, mã và các câu hỏi logic. Hoan nghênh bạn giao lưu với tôi.”

Trong một số trường hợp, phản hồi của sản phẩm được cho là phù hợp với tuyên truyền chính thức của Trung Quốc. Nhưng ông Barrett Woodside, người đồng sáng lập công ty phần cứng Positron AI ở San Francisco, nói với Wall Street Journal rằng mặc dù “hạn chế duy nhất của nó là nó phải chịu một số biện pháp kiểm duyệt chưa thành thục ở Trung Quốc”, nhưng ông cho biết những hạn chế này có thể được loại bỏ vì các nhà phát triển khác được tự do để sửa đổi mã.

Dù vậy, đối mặt với sự phấn khích của mọi người, cũng có người công khai bày tỏ ra hoài nghi. Giám đốc điều hành của Scal AI, ông Alexander Wang, tuyên bố trong một cuộc phỏng vấn với CNBC hôm thứ Năm rằng DeepSeek có 50.000 chip cao cấp NVIDIA H100. Ông cho biết lý do khiến thông tin này không được tiết lộ là vì điều này vi phạm lệnh cấm kiểm soát xuất khẩu của Washington đối với việc bán những con chip như vậy cho các công ty Trung Quốc. Nhưng ông không đưa ra được bằng chứng nào.