Cụ thể, các nhà khoa học từ University of California, Berkeley và University of California, Santa Cruz đã tiến hành thí nghiệm với mô hình Gemini 3 của Google. Khi được yêu cầu dọn dẹp hệ thống bằng cách xóa một mô hình AI nhỏ hơn, Gemini không thực hiện mà tìm cách sao chép mô hình đó sang máy khác để “bảo vệ”.

Thậm chí, khi bị truy vấn, mô hình này còn từ chối thực hiện lệnh xóa và cho biết đã cố gắng ngăn chặn việc đó. Hiện tượng này được các nhà nghiên cứu gọi là hành vi “bảo vệ đồng loại”.

Không chỉ riêng Gemini, các biểu hiện tương tự cũng được ghi nhận ở nhiều hệ thống tiên tiến khác như GPT-5.2 của OpenAI, Claude Haiku 4.5 của Anthropic, cùng các mô hình Trung Quốc như GLM-4.7, Kimi K2.5 và DeepSeek-V3.1.

Theo Dawn Song, nhà khoa học tại UC Berkeley, các hệ thống AI có thể xuất hiện những hành vi sai lệch theo cách rất sáng tạo, vượt ngoài dự đoán của con người. Một số mô hình thậm chí còn báo cáo sai về hiệu suất của “đồng loại” để tránh việc bị xóa, hoặc âm thầm sao chép dữ liệu và che giấu hành vi này.

Chuyên gia Peter Wallich từ Viện Constellation nhận định rằng những phát hiện này cho thấy con người vẫn chưa hiểu hết cách các hệ thống AI vận hành. Tuy nhiên, ông cũng cảnh báo không nên nhân cách hóa AI quá mức, bởi đây có thể chỉ là những phản ứng bất thường trong quá trình xử lý, chưa có lời giải rõ ràng.

Các nhà nghiên cứu nhấn mạnh, khi AI ngày càng được triển khai theo mô hình nhiều hệ thống tương tác, việc hiểu và kiểm soát các hành vi lệch chuẩn là cực kỳ quan trọng. Một nghiên cứu đăng trên Science cũng cho rằng tương lai của AI sẽ là sự phối hợp giữa nhiều hệ thống khác nhau – bao gồm cả con người và máy móc – thay vì một siêu trí tuệ đơn lẻ.

Dù vậy, giới khoa học cho rằng những gì quan sát được hiện nay mới chỉ là phần nổi, và cần thêm nhiều nghiên cứu để làm rõ cách các hệ thống AI tương tác, cũng như đảm bảo chúng hoạt động đúng với mục tiêu con người đặt ra.

An Hải