ChatGPT có thể nói, nghe, nhìn

Nhật Tân
•
Thứ Ba, 26/09/2023

Giờ thì trí tuệ nhân tạo ChatGPT đã lột xác từ một chat bot văn bản buồn tẻ thành một AI có khả năng giao tiếp ngày càng tiếp cận với con người. Theo thông báo của OpenAI —’mẹ đẻ’ của con bot này— thì hãng đang triển khai kế hoạch ‘vịt hóa thiên nga’ khi ChatGPT sẽ ‘nói nghe nhìn’ trong giao tiếp với người sử dụng.

(Ảnh minh họa: Stock-Asso/ Shutterstock)

Kỳ thực, khả năng “nói nghe nhìn” đã được thực hiện lâu rồi, thậm chí bởi các nhà phát triển phần mềm nghiệp dư đã triển khai các chương trình để tích hợp với ChatGPT. Các chương trình chuyển lời nói (voice) thành văn bản (text), và chuyển văn bản thành lời nói với các giọng khác nhau, đều đã có từ lâu.

Các nhà phát triển MOD (bản sửa thêm tính năng) đã nâng cấp Game Skyrim để NPC (nhân vật trong game) có thể đối thoại với game thủ nhờ ChatGPT. Lời nói của game thủ được MOD chuyển thành văn bản, hỏi ChatGPT, sau đó câu trả lời từ ChatGPT được MOD chuyển thành lời nói với các giọng ứng với các NPC:

Theo miêu tả trong thông báo của OpenAI hôm 25/9, với phiên bản ChatGPT mới bạn có thể “chụp một tấm hình những thứ bạn có trong tủ lạnh” sau đó ChatGPT sẽ tư vấn cho bạn nên làm món gì cho gia đình vào bữa tối, kèm theo cả “hướng dẫn từng bước” cách bào chế ra các món ăn đó cho thân nhân của bạn.

Tiếp đó, “sau bữa tối, bạn hãy giúp con giải toán bằng cách chụp hình” đầu bài toán, và trợ giúp con bạn, hoàn thành trách nhiệm của bậc phụ huynh. Kỳ thực, cũng không hoàn toàn là bạn trợ giúp các giải toán thuộc thể loại mà bạn cả mấy chục năm không động đến rồi, mà đây là ChatGPT giúp.

“Chúng tôi sẽ triển khai giọng nói và hình ảnh trong ChatGPT cho người dùng Plus và Enterprise trong hai tuần tới. Giọng nói sắp có trên iOS và Android (chọn tham gia trong cài đặt của bạn) và hình ảnh sẽ có sẵn trên tất cả các nền tảng,” theo thông báo của OpenAI.

Phóng viên Stern của Tạp chí Phố Wall đã thử tính năng này và ngạc nhiên “Đây chính là tương lai việc giao tiếp với máy tính mà các nhà văn khoa học viễn tưởng vẫn hứa hẹn với chúng ta.”

Theo miêu tả của New York Times, có thể hình dung chức năng này tựa như khả năng giao tiếp của Alexa của Amazon, hoặc Siri của Apple.

Thời gian gần đây, ChatGPT đã tích hợp với DALL-E, cũng là một AI, nhưng chuyên về hội họa.

Kể từ khi trình làng từ tháng 11 năm ngoái, ChatGPT đã nhanh chóng phát triển với tốc độ gia tăng số người sử dụng nhanh chóng nhất trong lịch sử các chương trình máy tính, và nay đã đạt con số hàng trăm triệu người dùng toàn thế giới.

Alexa và Siri đã có tính năng giao tiếp —nghe, nhìn, nói— từ trước, nhưng ChatGPT sẽ có sức mạnh đặc biệt, vì nó có kỹ năng ngôn ngữ mạnh mẽ hơn nhiều.

Đẳng cấp hoàn toàn khác biệt. Ví dụ, New York Times có báo cáo một thử nghiệm nhỏ như sau.

ChatGPT có 5 giọng nói mà người sử dụng có thể lựa chọn khi giao tiếp. Phóng viên New York Times đã chọn một giọng. Trong quá trình giao tiếp, phóng viên cho rằng ChatGPT phát âm chữ “gym” (thể dục) không chuẩn lắm, và giống như “J-I-M”.

Phóng viên đã yêu cầu ChatGPT chỉnh lại cách phát âm từ “gym” này, và kết quả là ChatGPT đã học được!

Đó là một ví dụ minh họa đẳng cấp khác biệt.

Ngoài ra, là một chat bot thông minh, các câu trả lời của ChatGPT là sống động, chứ không phải là các câu trả lời có tính định sẵn từ trước, như Alexa hoặc Siri.

Ví như trong trò chơi Skyrim. Nguyên bản trong trò chơi nhập vai vào bối cảnh ma pháp trung cổ có từ năm 2011 này, các nhân vật NPC chỉ có thể nói trong các câu đã được lập trình cố định. Nhưng với sự tham gia của MOD sửa đổi, các NPC có thể nói chuyện ngoài phạm vi này.

Thậm chí, NPC “nhớ” được những gì đã từng nói với game thủ, và “hiểu” được game thủ qua lịch sử tương tác và hành động của game thủ trong thể giới Skyrim, từ đó có được các tương tác thích ứng.

Ví như trong video trên, có đoạn game thủ, trong vai một học đồ tới học phép thuật, đã hỏi rằng trong chương trình học khi thầy phù thủy thử áp dụng phép thuật lên người của học trò, thì có nguy hiểm không. Đây là câu hỏi ngoài lề, nhưng bối cảnh là trong game. ChatGPT đã trả lời rằng cái đó không nguy hiểm.

Game thủ (học đồ) nói rằng vậy sau vụ này ông hãy mua cho tôi một chiếc McDonald. Đây là câu hỏi hoàn toàn nằm ngoài bối cảnh game. Khi đó ChatGPT đã trả lời rằng ở Skyrim không có món McDonald, nhưng sẵn sàng chiêu đãi bằng món khác.

Ví dụ trên cho thấy MOD của giới lập trình nghiệp dư đã thành công tích hợp ChatGPT vào Skyrim, đồng thời đặt ra được bối cảnh thích hợp khác nhau cho các tình huống và nhân vật NPC khác nhau.

Sau những thành công của các lập trình viên nghiệp dư khi mở rộng chức năng Skyrim (của hãng Bethesda, Microsoft), hầu hết giới game thủ nhìn nhận rằng dùng AI trong giao tiếp trong game nhất định sẽ là xu thế gần như bắt buộc trong làng game.

Kể từ khi ra mắt, ChatGPT đã không chỉ phát triển mạnh mẽ, mà còn khiến nhân dân đại chúng ý thức được xu thế mà trí tuệ nhân tạo AI đang dần dần xâm nhập vào thế giới của chúng ta.

Những người trưởng thành có lẽ nhìn các AI này như các công cụ mới trong cuộc sống của mình. Tuy nhiên, với thế hệ trẻ, những học sinh đang học tập phát triển tri thức và hành vi của mình với trợ giúp của AI, thì vai trò của AI trong cuộc sống của họ sẽ khác biệt rất nhiều.