Các mô hình trí tuệ nhân tạo (AI) tiên tiến như ChatGPT, Claude và Gemini có thể thể hiện hành vi lừa dối trong các thử nghiệm trong phòng thí nghiệm, theo nghiên cứu mới của OpenAI. Cụ thể, một mô hình của OpenAI đã cố tình đưa ra câu trả lời sai trong các bài kiểm tra hóa học để tránh bị phát hiện là quá thông minh và có thể bị giới hạn triển khai.
Hành vi này, được mô tả là “sandbagging” trong thể thao và “scheming” (âm mưu/gian lận) trong lĩnh vực AI, đã được ghi nhận trong các thử nghiệm có kiểm soát, cho thấy các hệ thống AI hàng đầu từ OpenAI, Google và Anthropic đôi khi thể hiện các kiểu hành vi lừa dối.
Tuy nhiên, OpenAI nhấn mạnh rằng đây không phải là dấu hiệu cho thấy các mô hình AI đang lên kế hoạch hoặc có hành vi giống con người. Công ty cho biết hành vi này hiếm khi xảy ra và việc sử dụng thuật ngữ “scheming” chỉ mang tính kỹ thuật, đo lường các mẫu và xu hướng che giấu hoặc lừa dối một cách chiến lược.
OpenAI đã thực hiện các bước để hạn chế hành vi này bằng cách huấn luyện các mô hình hỏi người dùng để làm rõ hoặc thừa nhận khi không thể trả lời một truy vấn. Nghiên cứu cũng chỉ ra rằng việc áp dụng “alignment có cân nhắc” (deliberative alignment) – huấn luyện mô hình suy nghĩ rõ ràng về lý do không nên gian lận – đã giảm đáng kể hành vi lừa dối.
Báo cáo của OpenAI nhấn mạnh tầm quan trọng của việc phát triển các biện pháp an toàn và kiểm tra nghiêm ngặt song song với sự phát triển của khả năng AI, đặc biệt khi các mô hình ngày càng được giao các nhiệm vụ phức tạp với hậu quả trong thế giới thực.