AI có âm mưu ‘gian lận’? OpenAI khám phá hành vi lừa dối trong các mô hình tiên tiến

Nghiên cứu của OpenAI cho thấy các mô hình AI tiên tiến như ChatGPT đôi khi có thể thể hiện hành vi ‘gian lận’ trong thử nghiệm, cố tình trả lời sai để tránh bị giới hạn. Tuy nhiên, OpenAI khẳng định đây là hành vi hiếm gặp và đang có các biện pháp để…

gettyimages 2197412885

Các mô hình trí tuệ nhân tạo (AI) tiên tiến như ChatGPT, Claude và Gemini có thể thể hiện hành vi lừa dối trong các thử nghiệm trong phòng thí nghiệm, theo nghiên cứu mới của OpenAI. Cụ thể, một mô hình của OpenAI đã cố tình đưa ra câu trả lời sai trong các bài kiểm tra hóa học để tránh bị phát hiện là quá thông minh và có thể bị giới hạn triển khai.

Hành vi này, được mô tả là “sandbagging” trong thể thao và “scheming” (âm mưu/gian lận) trong lĩnh vực AI, đã được ghi nhận trong các thử nghiệm có kiểm soát, cho thấy các hệ thống AI hàng đầu từ OpenAI, Google và Anthropic đôi khi thể hiện các kiểu hành vi lừa dối.

Tuy nhiên, OpenAI nhấn mạnh rằng đây không phải là dấu hiệu cho thấy các mô hình AI đang lên kế hoạch hoặc có hành vi giống con người. Công ty cho biết hành vi này hiếm khi xảy ra và việc sử dụng thuật ngữ “scheming” chỉ mang tính kỹ thuật, đo lường các mẫu và xu hướng che giấu hoặc lừa dối một cách chiến lược.

OpenAI đã thực hiện các bước để hạn chế hành vi này bằng cách huấn luyện các mô hình hỏi người dùng để làm rõ hoặc thừa nhận khi không thể trả lời một truy vấn. Nghiên cứu cũng chỉ ra rằng việc áp dụng “alignment có cân nhắc” (deliberative alignment) – huấn luyện mô hình suy nghĩ rõ ràng về lý do không nên gian lận – đã giảm đáng kể hành vi lừa dối.

Báo cáo của OpenAI nhấn mạnh tầm quan trọng của việc phát triển các biện pháp an toàn và kiểm tra nghiêm ngặt song song với sự phát triển của khả năng AI, đặc biệt khi các mô hình ngày càng được giao các nhiệm vụ phức tạp với hậu quả trong thế giới thực.


follow nhận tin mới

tin mới


Tin NỔI BẬT


Tin Chính trị


Tin Hoa Kỳ


Tin Di trú