Làm thế nào có thể phân biệt được video thật và video giả do AI tạo ra?

(Ảnh minh họa: Golden Dayz/Shutterstock)

Internet hiện nay tràn ngập hình ảnh và video do trí tuệ nhân tạo (AI) tạo ra, gần như không thể phân biệt được với hình ảnh và video thật, khiến việc đề phòng trở nên khó khăn, thậm chí có thể bị lừa. Tuy nhiên, một số chuyên gia cho rằng có một cách đáng tin cậy để nhận dạng video AI, đó là lắng nghe giọng nói của con người.

(Ảnh minh họa: Golden Dayz/Shutterstock)

Giọng nói được tổng hợp bằng AI thường nhanh và không tự nhiên

Theo The Huffington Post, người thật nói chuyện theo nhịp điệu tự nhiên, với một số từ được nói chậm hơn. Tuy nhiên, giọng nói tổng hợp từ AI thường nghe nhanh và rất thiếu tự nhiên.

Ông Jeremy Carrasco, một chuyên gia chuyên vạch trần các video AI trên mạng xã hội, lưu ý rằng các video do Sora, một ứng dụng video AI thuộc sở hữu của OpenAI, đăng tải thường “quá năng động”. Ông nói: “Họ nói rất nhiều, nhưng thực ra chẳng nói gì cả; họ chỉ đang nhét lời vào miệng mình thôi.”

Ngay cả OpenAI cũng nhận ra manh mối tinh tế này. Ông Bill Peeples, người đứng đầu Sora, đã đưa ra một câu trả lời thuyết phục trong một cuộc phỏng vấn trước đó trên kênh truyền hình trực tiếp TBPN về ý nghĩa của dấu gạch ngang trong các video AI của Sora.

Ông trả lời rằng, “Tôi nghĩ ‘dấu gạch ngang’ hiện tại là một kiểu nói hơi kỳ lạ trong Sora, kiểu thích nói nhiều từ một cách nhanh chóng.”

Chú ý đến những âm thanh không rõ ràng

Các nhà ngôn ngữ học gọi nhịp điệu lời nói của con người là “hiệp đồng phát âm”. Điều này đề cập đến sự chuyển đổi tự nhiên của âm thanh từ âm tiết này sang âm tiết khác khi luồng không khí đi qua khoang mũi và khoang miệng.

Tuy nhiên, nhiều giọng nói do AI tạo ra vẫn còn hạn chế về mặt này, tạo ra những âm thanh không rõ ràng, nghe như âm sắc tự nhiên đã bị làm phẳng.

“Không ai có thể tạo ra lời nói không rõ ràng như lời nói do AI tạo ra, bởi vì chúng ta không thể làm được điều đó,” giáo sư ngôn ngữ học Melissa Baese-Berk tại Đại học Chicago, cho biết.

Ông Migüel Jetté, Phó Chủ tịch AI tại Rev, một dịch vụ chuyển giọng nói thành văn bản, cho biết các mô hình chuyển văn bản thành giọng nói được đào tạo để dự đoán cách phát âm có khả năng xảy ra nhất trong một chuỗi từ, nhưng chúng thường gặp khó khăn trong việc kết nối các âm tiết giữa các từ một cách mượt mà.

Ông đưa ra một ví dụ, nói rằng con người thường phát âm “did you” là “didja”, trong khi AI có xu hướng nhấn mạnh quá mức cách phát âm của từng từ hoặc ghép chúng lại với nhau một cách vụng về.

Hãy chú ý đến những từ phát âm sai

Ông Jetté chỉ ra rằng nếu một video chứa những từ phát âm sai rõ ràng, đây có thể là dấu hiệu cho thấy giọng nói AI có thể gặp khó khăn trong việc nhận dạng những từ hiếm hoặc độc đáo không có trong cơ sở dữ liệu đào tạo của nó.

Ông Carrasco cho biết ông nhận thấy mô hình chuyển văn bản thành video Veo của Google “có thể không nhồi nhét quá nhiều từ, nhưng chúng sẽ xáo trộn thứ tự từ hoặc khiến người dùng nói ra những từ không chính xác.”

Quan sát xem phản ứng cảm xúc có phù hợp với nội dung video hay không

Bà Camila Bruder, một nhà nghiên cứu tại Viện nghiên cứu Thẩm mỹ thực nghiệm Max Planck ở Đức (Max Planck Institute for Empirical Aesthetics), cho biết cảm xúc của giọng nói AI thường quá mãnh liệt và không phù hợp với nhu cầu của bối cảnh.

Bà lưu ý rằng nếu giọng nói AI thể hiện niềm vui quá khuôn mẫu, như “Ồ!”, hoặc sự tức giận quá khuôn mẫu, như một diễn viên vụng về, thì những đặc điểm này có thể cho thấy nội dung video là do AI tạo ra.

Ông Carrasco nói thêm rằng bạn cũng nên chú ý xem các biểu cảm có mang theo những phản ứng cảm xúc kỳ lạ hay không. Ví dụ, trong một video AI lan truyền, có cá rơi từ trên trời xuống, và một người phụ nữ thốt lên: “Chúng là cá! Chúng thực sự là cá!”. Nhưng trong đời thực, mọi người sẽ không nói như vậy.

Ông Jetté cho biết bạn cũng có thể tìm kiếm manh mối bằng cách trực tiếp quan sát chuyển động miệng của những người trong video. “Nếu môi và giọng nói của người nói không hoàn toàn đồng bộ… đó là một dấu hiệu rõ ràng.”

Mặc dù những manh mối này không đảm bảo bạn có thể nhận dạng giọng nói do AI tạo ra, nhưng nhìn chung, chúng cho thấy rõ ràng rằng video bạn đang xem có khả năng là do máy tạo ra. Đây chắc chắn là một khởi đầu hữu ích. Khi AI tiếp tục phát triển, con người cần càng nhiều sự hỗ trợ càng tốt để phân biệt giữa thật và giả.

Ông Jetté nói: “Nếu có điều gì đó khiến bạn cảm thấy không ổn, thì có lẽ là vậy, duy trì thái độ hoài nghi lành mạnh cùng với khả năng quan sát và thính giác nhạy bén sẽ rất hữu ích trong việc xác định chi tiết.”

Độ dài phim và thành phần màn hình là những manh mối

Đài NPR phỏng vấn nhiều chuyên gia, đưa ra các tiêu chí nhận diện video thật: độ dài và bố cục hình ảnh, nguồn gốc video và tài khoản đăng tải, tìm kiếm đối chiếu chéo, và việc video có cố tình kích động cảm xúc hay không.

Chuyên gia về kỹ năng số Mike Caulfield cho biết: “Chúng ta đang bị ngập trong rác mạng—tràn lan như lũ lụt. Khi lượng thông tin rác vượt quá mức chịu đựng, não bộ sẽ mất khả năng phân biệt thật – giả.”

Bà Kolina Koltai, điều tra viên cấp cao của một tổ chức báo chí điều tra độc lập, nhận định: duy trì khả năng phân biệt thật giả là vô cùng quan trọng. “Tôi cho rằng một trong những rủi ro lớn nhất của dạng nội dung này không phải là có người tin video giả, mà là người ta bắt đầu không tin ngay cả video thật.”

Bà đưa ra phương pháp nhận diện video AI: chú ý xem video có kích thích cảm xúc quá mạnh hoặc đi ngược lại những gì bạn vẫn tin hay không.

Bà nói: video càng tạo phản ứng cảm xúc mạnh, càng phải thận trọng. Nhiều video giả được cố tình tạo ra để gây kịch tính hoặc xung đột, nhằm thu hút lượt xem, bình luận và chia sẻ.

Chuyên gia Hany Farid của Đại học California, Berkeley, người nghiên cứu thao túng truyền thông, cho biết một dấu hiệu quan trọng khác là độ dài video. Các công ty tạo video AI thường giới hạn thời lượng vì chi phí tính toán rất đắt—đa số các video AI chỉ dài khoảng 8–10 giây. Ông nói: “Khi bạn thấy một video rất ngắn và vô nghĩa, đó là lúc nên dừng lại và hít thở sâu.”

Độ dài không phải tiêu chí duy nhất. Video AI thường đặt nhân vật chính ngay giữa khung hình; chuyển động bắt đầu và kết thúc rất rõ ràng; camera quá gần hoặc di chuyển mượt mà một cách bất thường, tạo cảm giác chuyên nghiệp nhưng không tự nhiên.

Các chuyên gia nhắc nhở rằng thuật toán mạng xã hội hiện nay ưu tiên tốc độ hơn độ chính xác, còn video AI lan tràn chỉ là “mồi câu” để tạo tương tác. Khi nghi ngờ, cách tốt nhất là chờ đợi và kiểm chứng từ nhiều nguồn.

Hân Nhi

Next [VIDEO] So sánh tư tưởng Đa dạng, Công bằng, Hòa nhập (DEI) với Bình đẳng Cơ hội »

Previous « Ngoại trưởng Hungary: “Tiền thuế của người châu Âu đang rơi vào tay mafia chiến tranh”

Published by

Hân Nhi

Tags: AIVideo AI

8 tháng ago