Mọi người dường như nghĩ rằng trí tuệ nhân tạo tổng hợp đang phát triển với tốc độ chóng mặt, nhưng phát hiện mới của các nhà nghiên cứu tại Đại học Western Ontario ở Tp. London, tỉnh Ontario, Canada cho thấy ChatGPT vẫn còn nhiều thiếu sót trong việc cung cấp thông tin y tế chính xác.

r shutterstock 2162642499
(Ảnh minh họa: Marko Aliaksandr / Shutterstock)

Nghiên cứu được bình duyệt, được công bố trên tạp chí PLOS One vào cuối tháng 7, đã điều tra tính chính xác và tính thực dụng trong chẩn đoán của ChatGPT về giáo dục y tế.

Được phát triển bởi OpenAI, ChatGPT sử dụng mô hình ngôn ngữ lớn được đào tạo trên lượng lớn dữ liệu được thu thập từ Internet, để nhanh chóng tạo ra văn bản hội thoại nhằm trả lời các câu hỏi của người dùng.

Ông Amrit Kirpalani, trợ lý giáo sư nhi khoa tại Đại học Western Ontario và là nhà tác giả chính của nghiên cứu này, cho biết: “Thứ này (ChatGPT) có ở khắp mọi nơi”.

“Chúng tôi đã thấy nó từng vượt qua các kỳ thi cấp giấy phép và ChatGPT đã từng vượt qua Bài kiểm tra tuyển sinh đại học y tế (MCAT),” ông nói. “Chúng tôi muốn biết cách nó xử lý các trường hợp phức tạp hơn, những trường hợp chúng tôi thấy trong y học, và nó hợp lý hóa các câu trả lời của mình như thế nào?”

Trong nghiên cứu, 150 trường hợp lâm sàng phức tạp được đưa ra cho ChatGPT, và được nhắc chọn chẩn đoán chính xác trong số nhiều lựa chọn, sau đó đưa ra lời giải thích để nói rõ về cách nó đi đến câu trả lời.

Ông Kirpalani cho biết, ChatGPT đã đưa ra câu trả lời đúng 49%. Các nhà nghiên cứu nhận thấy rằng dù đáp án là đúng hay sai, nó đều rất khéo trong việc đơn giản hóa những lời giải thích và khiến mọi người tin vào câu trả lời của nó.

Ông nói: “Nó có thể được sử dụng như một công cụ, nhưng tôi nghĩ nó phải được sử dụng như một công cụ phù hợp. Nhưng về điểm này thì nó không nên được sử dụng để tư vấn y tế.” Ông thừa nhận rằng ChatGPT có thể được sử dụng theo những cách khác đã được chứng minh là hữu ích.

“Trên thực tế, nó rất giỏi trong việc giải thích mọi thứ một cách đơn giản đến mức chúng ta có thể sử dụng nó trong giáo dục. Nếu chúng ta huấn luyện nó đúng cách và giám sát những gì nó nói, nó gần giống như một gia sư cá nhân phải không?”

Nghiên cứu này được thực hiện vào năm 2023 bằng cách sử dụng ChatGPT và mô hình ngôn ngữ lớn GPT-5, sau này được thay thế bằng GPT-4 và GPT-4o. Không rõ liệu câu trả lời của ChatGPT có chính xác hơn nếu sử dụng những mô hình này hay không.

Will Tillmann, một trong hàng triệu người đã dùng thử ChatGPT, cho biết anh thấy nó hữu ích trong việc viết lại các đoạn văn và soạn thảo email công việc, “nhưng tôi nghĩ, việc giữ thái độ nghi ngờ có thể là điều rất quan trọng”.

Anh muốn biết, nếu việc cho phép các chuyên gia trong một lĩnh vực cụ thể, chẳng hạn như chuyên gia y tế, xác minh thông tin do ChatGPT cung cấp, liệu có giúp cải thiện và làm cho thông tin đó chính xác hơn hay không.

Ông Kirpalani cho biết, những phát hiện của ông chỉ ra sự cần thiết phải có kiến ​​thức rộng hơn về trí tuệ nhân tạo, để giáo dục công chúng về những lợi ích và cạm bẫy của nó.

Kể từ khi ra mắt vào cuối năm 2022, đã có nhiều lo ngại về tính chính xác và thông tin sai lệch của ChatGPT, cũng như các chatbot tương tự như Gemini của Google và Grok của X, cũng sử dụng các mô hình ngôn ngữ lớn.

Đầu năm nay, các cuộc thử nghiệm do một nhóm nghiên cứu tại Đại học Columbia thực hiện đã chứng thực những lo ngại này.

Năm mô hình ngôn ngữ quy mô lớn, bao gồm GPT-4, Gemini và Llama 2 của Meta, đã đưa ra câu trả lời liên quan đến các cuộc bầu cử sơ bộ ở Mỹ. Những người tham gia tin rằng hơn một nửa số câu trả lời mà chatbot đưa ra là sai và 40% được phân loại là có hại và không chính xác.

Vào tháng 5, OpenAI cho biết họ đang cập nhật ChatGPT để hướng người dùng đến các nguồn thông tin cử tri chính thức.