Một nghiên cứu mới tiết lộ lý do tại sao ChatGPT tiếp tục bịa đặt thông tin.

0

Một ngày nọ, tôi đang trao đổi ý tưởng với ChatGPT Đột nhiên, anh ta kể một câu chuyện dài dòng, hư cấu, chẳng liên quan gì đến gợi ý của tôi. Nó buồn cười đến mức khiến tôi bật cười. Dạo này tôi ít thấy lỗi như thế này trong gợi ý văn bản, nhưng tôi vẫn thấy khá thường xuyên khi tạo hình ảnh.

Những khoảnh khắc ngẫu nhiên khi chatbot lạc khỏi nhiệm vụ được gọi là "ảo giác". Điều kỳ lạ là bot này lại tin tưởng những câu trả lời sai mà nó đưa ra, đây là một trong những điểm yếu lớn nhất của các trợ lý AI ngày nay. Tuy nhiên, Nghiên cứu mới từ OpenAI Tuy nhiên, những lỗi này không phải là ngẫu nhiên mà là kết quả trực tiếp của cách đào tạo và đánh giá các mô hình.

Giữ điện thoại có logo ChatGPT

Tại sao chatbot cứ liên tục đoán khi chúng không được phép làm vậy?

Logo ChatGPT trên điện thoại trước robot tư duy

Nghiên cứu cho thấy một vấn đề về cấu trúc đang gây ra những ảo giác này; gốc rễ của vấn đề bắt nguồn từ các tiêu chuẩn và bảng xếp hạng đánh giá các mô hình AI và khen thưởng những câu trả lời tự tin.

Nói cách khác, khi một chatbot nói "Tôi không biết", nó sẽ bị trừ điểm trong bài kiểm tra. Điều này có nghĩa là các mô hình được khuyến khích chủ động đưa ra câu trả lời, ngay cả khi chúng không chắc chắn câu trả lời đó có đúng hay không.

Trên thực tế, điều này khiến trợ lý thông minh của bạn dễ đưa ra phán đoán hơn là thừa nhận sự không chắc chắn. Điều này có thể vô hại đối với những câu hỏi đơn giản, thường ngày. Nhưng trong những tình huống nhạy cảm hơn, từ câu hỏi y tế đến tư vấn tài chính, những sai sót tự tin đó có thể nhanh chóng biến thành rủi ro thực sự.

Là một người dùng dày dạn kinh nghiệm, đây là lý do tại sao tôi luôn kiểm tra thông tin và yêu cầu chatbot cung cấp nguồn. Đôi khi, nếu thông tin có vẻ xa vời và tôi yêu cầu nguồn, chatbot sẽ trả lời đại loại như "Ý kiến ​​hay!" hoặc tương tự, mà không thừa nhận thông tin đó sai.

Các mẫu mới hơn cũng không tránh khỏi vấn đề này.

Hình ảnh ChatGPT-5 trên bàn phím

Điều thú vị là bài báo của OpenAI phát hiện ra rằng các mô hình tập trung vào suy luận như o3 và o4-mini thực sự gây ảo giác thường xuyên hơn một số mô hình cũ. Tại sao? Bởi vì chúng thường đưa ra nhiều tuyên bố hơn, đồng nghĩa với việc có nhiều khả năng xảy ra lỗi hơn.

Vì vậy, chỉ vì một mô hình "thông minh hơn" trong suy luận không nhất thiết có nghĩa là nó trung thực hơn về những gì nó không biết.

hướng giải quyết của vấn đề này là gì?

Người đang mã hóa trên máy tính

Các nhà nghiên cứu tin rằng giải pháp nằm ở việc thay đổi cách chúng ta đánh giá và đo lường AI. Thay vì phạt các mô hình vì nói "Tôi không chắc chắn", các bài kiểm tra có giá trị hơn nên khen thưởng những phản hồi được hiệu chỉnh, những dấu hiệu không chắc chắn hoặc khả năng tham khảo các nguồn khác.

Điều này có nghĩa là chatbot tương lai của bạn có thể sẽ trả lời theo kiểu vòng vo hơn, ít dựa vào cách tiếp cận "Đây là câu trả lời" mà thiên về cách tiếp cận "Đây là những gì tôi nghĩ, nhưng tôi không chắc chắn". Cách tiếp cận này có vẻ chậm hơn, nhưng nó có thể giảm đáng kể các lỗi sai có hại. Điều này chứng tỏ tư duy phản biện của chúng ta vẫn rất quan trọng.

Điều này quan trọng với bạn như thế nào?

Người đang gõ trên bàn phím máy tính xách tay

Nếu bạn sử dụng các chatbot phổ biến như ChatGPT, Gemini, Claude hoặc Grok, có lẽ bạn đã từng trải nghiệm "ảo giác". Nghiên cứu này cho thấy vấn đề không hoàn toàn nằm ở bản thân mô hình, mà nằm ở cách nó được kiểm tra - giống như một trò chơi may rủi để xem ai có thể đúng trong hầu hết các trường hợp.

Đối với người dùng, điều này có nghĩa là chúng ta cần cẩn trọng và xem xét câu trả lời của AI như một gợi ý đầu tiên, chứ không phải là quyết định cuối cùng. Đối với các nhà phát triển, đây là dấu hiệu cho thấy đã đến lúc chúng ta cần xem xét lại cách chúng ta đo lường thành công để các trợ lý AI trong tương lai có thể nhận ra những gì chúng chưa biết thay vì mắc phải những sai lầm nghiêm trọng.

Để lại phản hồi

Địa chỉ email của bạn sẽ không được công bố.