Một nghiên cứu quy mô lớn do các nhà khoa học từ Microsoft Research và Salesforce Research thực hiện đã củng cố nghi ngờ lâu nay của cộng đồng người dùng: các mô hình ngôn ngữ lớn hoạt động kém đi đáng kể khi cuộc trò chuyện kéo dài.

Nhóm tác giả phân tích hơn 200.000 hội thoại mô phỏng trên 15 mô hình hàng đầu như GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet và Deepseek-R1 và không ghi nhận bất kỳ trường hợp ngoại lệ nào.

Kết quả cho thấy hiệu suất trung bình giảm 39% khi chuyển từ hội thoại một lượt sang nhiều lượt trên cùng tập tác vụ. Ngay cả những hệ thống được xem là tiên tiến nhất cũng không tránh khỏi xu hướng này.

Cụ thể, GPT-4.1 giảm từ 96,6% xuống 72,6%, còn Gemini 2.5 Pro từ 97,4% xuống 68,1%. Các chỉ số này được tính trung bình trên 6 nhóm tác vụ, gồm lập trình, truy vấn cơ sở dữ liệu, toán học và tóm tắt văn bản.

Đáng chú ý, nhóm nghiên cứu tách nguyên nhân thành hai yếu tố: năng lực cốt lõi của mô hình chỉ giảm 16%, nhưng độ bất ổn – chênh lệch giữa kết quả tốt nhất và kém nhất – lại tăng tới 112%.

Nói cách khác, mô hình vẫn có khả năng xử lý bài toán, nhưng trở nên thiếu ổn định. Người dùng khó đoán được cùng một câu hỏi sẽ nhận câu trả lời chính xác hay sai lệch.

Hiện tượng này được gọi là “lost in conversation” (lạc lối trong hội thoại). Vấn đề không nằm ở việc quên thông tin, mà ở chỗ mô hình đưa ra giả định quá sớm.

Chỉ sau vài lượt trao đổi khi dữ liệu chưa đầy đủ, hệ thống đã tạo câu trả lời hoàn chỉnh dựa trên suy đoán ban đầu. Sau đó, chúng tiếp tục phát triển nội dung dựa trên giả định ấy thay vì tái đánh giá lại từ đầu.

Khi người dùng bổ sung thêm dữ kiện, mô hình thường chỉnh sửa câu trả lời cũ thay vì xây dựng lại hoàn toàn, dẫn đến phản hồi dài dòng, phức tạp và sai lệch hơn. Nghiên cứu gọi đây là hiệu ứng “answer bloat”, khi câu trả lời trong hội thoại nhiều lượt có thể dài hơn 20–300% so với một lượt nhưng chất lượng lại thấp hơn.

Căn nguyên được cho là xuất phát từ dữ liệu huấn luyện, vốn chủ yếu dựa trên các tình huống hỏi – đáp một lượt với yêu cầu rõ ràng. Trong thực tế, người dùng thường đặt câu hỏi mơ hồ rồi bổ sung dần thông tin, thậm chí điều chỉnh yêu cầu ban đầu.

Khoảng cách giữa môi trường huấn luyện và cách sử dụng thực tế chính là điểm yếu chung mà chưa mô hình nào khắc phục triệt để. Ngay cả các mô hình suy luận như o3 và Deepseek-R1, được thiết kế để “suy nghĩ” nhiều hơn trước khi trả lời, cũng giảm hiệu suất tương tự khi xử lý hội thoại nhiều lượt.

Nhóm nghiên cứu thử nghiệm nhiều giải pháp như mở rộng cửa sổ ngữ cảnh, áp dụng chain-of-thought prompting hay tóm tắt lại nội dung trò chuyện, nhưng các biện pháp này không xử lý được vấn đề gốc rễ.

Giải pháp duy nhất cho kết quả tích cực là “concat-and-retry”: thu thập toàn bộ thông tin từ các lượt trao đổi, gộp thành một yêu cầu hoàn chỉnh rồi khởi động một cuộc trò chuyện mới. Cách này giúp độ chính xác phục hồi lên trên 90%, gần bằng mức ban đầu.

Phát hiện trên mang ý nghĩa thực tế đối với người dùng. Khi cuộc trao đổi với AI bắt đầu đi chệch hướng, việc giải thích thêm trong cùng cửa sổ chat thường kém hiệu quả hơn so với việc mở cuộc trò chuyện mới và cung cấp đầy đủ thông tin ngay từ đầu.

Đây không đơn thuần là mẹo sử dụng, mà phản ánh giới hạn kiến trúc hiện tại của các hệ thống AI. Các nhà khoa học cho rằng trong tương lai, việc nâng cao độ ổn định và tin cậy trong hội thoại nhiều lượt cần được ưu tiên ngang với cải thiện năng lực xử lý từng tác vụ riêng lẻ.

Linh Hải