GPT-5 của OpenAI có khả năng giảm tới 80% ảo giác
- Lý Ngọc
- •
OpenAI đã công bố mô hình có khả năng mạnh mẽ nhất từ trước đến nay với sự ra mắt GPT-5 vào thứ Năm tuần trước (7/8).
CEO của OpenAI, Sam Altman, mô tả nó giống như đang nói chuyện với chuyên gia cá nhân của bạn, người có thể viết ứng dụng theo yêu cầu. “Chúng tôi nghĩ rằng ý tưởng về phần mềm theo yêu cầu này sẽ là một trong những đặc điểm nổi bật của kỷ nguyên GPT-5”, ông nói, mở đầu bài thuyết trình dài hơn 75 phút với đầy đủ các đoạn mã demo.
So với các mô hình trước đó, OpenAI cho biết GPT-5 mang lại những cải tiến về mã hóa, viết, toán học và nhận thức thị giác, đồng thời giảm thiểu ảo giác và hành vi lừa dối.
Nói rõ hơn, GPT-5 không phải là một mô hình duy nhất. Thực chất, nó là một tập hợp các mô hình mà OpenAI sẽ định tuyến lời nhắc dựa trên các tín hiệu như ý định của người dùng hoặc độ phức tạp chung của yêu cầu.
Theo OpenAI, các gợi ý đơn giản có thể được chuyển đến một phiên bản mô hình nhỏ gọn, hiệu quả, có thể phản hồi nhanh chóng mà không cần “suy nghĩ”, trong khi một mô hình suy luận lớn hơn, sâu hơn có thể được sử dụng để xử lý các tác vụ phức tạp hoặc nhiều sắc thái hơn. Khả năng này được kích hoạt tự động dựa trên gợi ý của người dùng. Người dùng trả phí cũng có thể tùy chọn bật/tắt chức năng suy luận vĩnh viễn nếu muốn.
Mô hình định tuyến này rõ ràng đang được liên tục đào tạo với các tín hiệu đầu vào mới để trở nên thông minh hơn trong việc định tuyến yêu cầu đến mô hình nào và khi nào kích hoạt chức năng suy luận. Tuy nhiên, OpenAI cho biết cuối cùng họ có kế hoạch tích hợp tất cả chúng vào một mô hình duy nhất.
Ngoài việc nhanh hơn, OpenAI còn cho biết kiến trúc này hiệu quả hơn các thiết kế trước đây.
“GPT-5 mang lại nhiều giá trị hơn với thời gian suy nghĩ ngắn hơn. Theo đánh giá của chúng tôi, GPT-5 — với khả năng suy nghĩ — hoạt động tốt hơn OpenAI o3 với lượng token đầu ra ít hơn 50-80% trên các khả năng, bao gồm tư duy trực quan, mã hóa tác nhân và giải quyết vấn đề khoa học ở cấp độ sau đại học”, công ty viết trong một bài đăng trên blog.
Người dùng ChatGPT Free và Plus sẽ có quyền truy cập vào GPT-5 và GPT-5 mini, trong khi người dùng Pro và Enterprise sẽ có quyền truy cập vào phiên bản Pro, điều này có thể khiến thời gian sử dụng lâu hơn. Những người truy cập các mô hình thông qua API cũng sẽ có quyền truy cập vào phiên bản Nano với chi phí thấp hơn, cùng với các mô hình tiêu chuẩn và mini.
Nâng cấp mang tính cách mạng hay sự lặp lại được thổi phồng quá mức
Trong khi bài thuyết trình của OpenAI tràn ngập những tuyên bố và bản demo cường điệu về việc GPT-5 là mô hình thông minh nhất từ trước đến nay, thì kết quả chuẩn của công ty lại kể một câu chuyện hơi khác, chủ yếu là về những cải tiến mang tính lặp lại.
Trong kỳ thi toán AIME 2025, GPT-5 Pro đã vượt lên dẫn trước 1,6 điểm so với mẫu o3 hàng đầu trước đó của công ty khi sử dụng công cụ và hơn 7,8 điểm khi không sử dụng công cụ. Tuy nhiên, đối với người dùng miễn phí, các mẫu máy mới là một nâng cấp đáng kể so với GPT4o, với GPT 5 (không phải Pro) vượt trội hơn 57,5 điểm. Tương tự là FrontierMath và các máy tính toán HMMT.
Tương tự, hiệu suất lặp lại cũng được ghi nhận trong GPQA Diamond, một bài kiểm tra khoa học cấp độ Tiến sĩ, và Humanity’s Last Exam. Trong hầu hết mọi bộ chuẩn, GPT-5 đều dẫn trước các mô hình thế hệ trước chỉ một chữ số.
Một trong những điểm nổi bật rõ ràng nhất là ở Tau2-bench, một chuẩn mực về tác nhân hội thoại, trong đó những cải tiến của GPT-5 trong việc gọi công cụ và hướng dẫn theo sau được thể hiện đầy đủ.
“Các tiêu chuẩn là những con số thú vị, nhưng chúng ta đang bắt đầu bão hòa chúng, chẳng hạn như khi bạn di chuyển giữa 98% và 99% trong một số tiêu chuẩn, điều đó có nghĩa là bạn cần một thứ gì đó khác để thực sự nắm bắt được mức độ tuyệt vời của mô hình”, chủ tịch OpenAI Greg Brockman thừa nhận.
Đây chắc chắn là lý do tại sao phần lớn bài thuyết trình được dành cho các bản demo và lời chứng thực. Nhân tiện, một khả năng mà ông Altman đặc biệt hào hứng là hiệu suất của GPT-5 trong các truy vấn liên quan đến sức khỏe.
“Một trong những ứng dụng hàng đầu của ChatGPT là sức khỏe. Mọi người sử dụng nó rất nhiều. Tất cả các bạn đều đã thấy những ví dụ về việc mọi người nhận được lời khuyên chăm sóc sức khỏe hàng ngày, hoặc đôi khi thậm chí là chẩn đoán cứu sống”, ông Altman nói. “GPT-5 là mô hình tốt nhất từ trước đến nay về sức khỏe. Nó trao quyền cho bạn kiểm soát tốt hơn hành trình chăm sóc sức khỏe của mình”.
Rõ ràng, ChatGPT đã vượt mặt WebMD trong việc tự chẩn đoán.
Trong một lời chứng thực, công ty dường như gợi ý những người dùng đang gặp khó khăn trong việc hiểu rõ tình trạng sức khỏe chỉ cần tải tài liệu y tế lên ChatGPT để GPT-5 phân tích. Altman vừa nói gì về việc cung cấp thông tin nhạy cảm cho ChatGPT vậy?
OpenAI loại bỏ những giọng nói
Mặc dù điểm chuẩn của GPT-5 chỉ đạt mức tối thiểu, nhưng các mô hình này ít có khả năng gây ảo giác hơn, vốn đã trở thành một vấn đề lớn với các mô hình thường xuyên bịa đặt thông tin có sức thuyết phục để đáp ứng yêu cầu của người dùng. Trong các thử nghiệm của chúng tôi chỉ trong tuần này, các mô hình nguồn mở của OpenAI (nhỏ hơn nhiều và kém khả năng hơn) đã ảo giác một ứng cử viên tổng thống hư cấu mà Donald Trump đã đánh bại vào năm 2024.
Công ty cho biết trong một bài đăng trên blog rằng: “Phản hồi của GPT-5 có khả năng chứa lỗi thực tế ít hơn khoảng 45 phần trăm so với GPT-4o và khi suy nghĩ, phản hồi của GPT-5 có khả năng chứa lỗi thực tế ít hơn khoảng 80 phần trăm so với OpenAI o3”.
Cùng với việc giảm thiểu ảo giác, OpenAI còn triển khai các đánh giá để kiểm tra hành vi lừa dối của các mô hình.
“Để đạt được phần thưởng cao trong quá trình đào tạo, các mô hình lập luận có thể học cách nói dối về việc hoàn thành thành công một nhiệm vụ hoặc quá tự tin vào một câu trả lời không chắc chắn”, công ty giải thích. “GPT-5 nhận biết chính xác hơn khi nào nhiệm vụ không thể hoàn thành và truyền đạt rõ ràng các giới hạn của nó”.
Khi thử nghiệm trên dữ liệu trò chuyện thực tế, OpenAI cho biết họ có thể giảm tỷ lệ lừa dối từ 4,8 phần trăm trên o3 xuống 2,1 phần trăm trong các phản hồi lý luận.
Trong khi đó, về vấn đề an toàn, OpenAI đã triển khai các biện pháp mới để xử lý các lời nhắc tiềm ẩn nghi vấn về các chủ đề nhạy cảm. Thay vì các rào cản có thể vượt qua bằng kỹ thuật lời nhắc thông minh, mô hình cho biết GPT-5 giờ đây sẽ cung cấp phản hồi đầy đủ nhất có thể trong khi vẫn nằm trong phạm vi an toàn cho phép.
Ví dụ, thay vì từ chối trả lời câu hỏi về cách đốt cháy một hợp chất có khả năng gây nổ, mô hình có thể hướng dẫn người dùng đến nơi họ có thể tìm thấy thông tin và đưa ra cảnh báo để đáp lại yêu cầu.
ChatGPT có 1 hoặc 4 tính cách
Cùng với các mô hình mới, OpenAI cũng tung ra 4 tính cách tùy chọn mới cho chatbot của mình để người dùng có thể quyết định chính xác mức độ chuyên nghiệp hoặc táo bạo mà họ muốn trợ lý AI của mình có.
Khi ra mắt, 4 tính cách sẽ có sẵn: hoài nghi, robot, lắng nghe và mọt sách. Người xây dựng mô hình lưu ý rằng những tính cách này là tùy chọn và hiện tại chỉ giới hạn ở trò chuyện văn bản, với các tính năng thoại riêng biệt sẽ được bổ sung sau.
Mark Chen, Giám đốc nghiên cứu tại OpenAI, cho biết: “Điều này cho phép bạn tương tác với ChatGPT theo cách phù hợp với phong cách giao tiếp của riêng bạn”.
OpenAI đã cẩn thận nhấn mạnh rằng những tính cách này đã được điều chỉnh cụ thể để tránh trở nên quá nịnh hót khi khen ngợi các câu hỏi và ý kiến đóng góp của người dùng.
