Nghiên cứu từ Viện Internet Oxford chỉ ra rằng các phương pháp đánh giá khả năng của hệ thống Trí tuệ Nhân tạo (AI) thường phóng đại hiệu suất thực tế và thiếu tính chặt chẽ khoa học.
Các nhà nghiên cứu đã phân tích 445 bài kiểm tra AI hàng đầu, được gọi là các bộ tiêu chuẩn (benchmarks), thường dùng để đo lường hiệu suất của các mô hình AI. Các bộ tiêu chuẩn này được các nhà phát triển và nghiên cứu AI sử dụng để đánh giá khả năng của mô hình và công bố tiến bộ kỹ thuật.
Tuy nhiên, báo cáo mới công bố cho rằng những bài kiểm tra cơ bản này có thể không đáng tin cậy và đặt câu hỏi về tính giá trị của nhiều kết quả từ các bộ tiêu chuẩn. Theo nghiên cứu, một số lượng đáng kể các bộ tiêu chuẩn hàng đầu không định nghĩa rõ ràng những gì chúng nhắm tới để kiểm tra, sử dụng lại dữ liệu và phương pháp kiểm tra từ các bộ tiêu chuẩn có sẵn, và hiếm khi sử dụng các phương pháp thống kê đáng tin cậy để so sánh kết quả giữa các mô hình.
Adam Mahdi, một trong những tác giả chính của nghiên cứu, nhấn mạnh rằng các bộ tiêu chuẩn có thể gây hiểu lầm một cách đáng báo động. Ông giải thích: “Khi chúng ta yêu cầu các mô hình AI thực hiện một số nhiệm vụ nhất định, chúng ta thực sự đo lường các khái niệm hoặc cấu trúc hoàn toàn khác với những gì chúng ta muốn đo lường.”
Andrew Bean, một nhà nghiên cứu khác tại Viện Internet Oxford và là đồng tác giả chính, đồng tình rằng ngay cả các bộ tiêu chuẩn uy tín cũng thường bị tin tưởng mù quáng và cần được xem xét kỹ lưỡng hơn. Ông khuyên: “Bạn cần phải xem xét một cách cẩn trọng khi nghe những điều như ‘một mô hình đạt được trí thông minh cấp độ tiến sĩ’. Chúng tôi không chắc chắn rằng những phép đo đó được thực hiện đặc biệt tốt.”
Một vấn đề cốt lõi đối với các tác giả là liệu một bộ tiêu chuẩn có phải là một bài kiểm tra tốt cho hiện tượng thực tế mà nó nhắm tới hay không, hay còn gọi là “tính hợp lệ cấu trúc”. Thay vì kiểm tra một mô hình trên vô số câu hỏi để đánh giá khả năng nói tiếng Nga, ví dụ, một bộ tiêu chuẩn được xem xét trong nghiên cứu lại đo lường hiệu suất của mô hình trên chín nhiệm vụ khác nhau, như trả lời câu hỏi có/không bằng thông tin từ Wikipedia tiếng Nga.
Khoảng một nửa số bộ tiêu chuẩn được xem xét trong nghiên cứu không định nghĩa rõ ràng các khái niệm mà chúng tuyên bố đo lường, gây nghi ngờ về khả năng mang lại thông tin hữu ích về các mô hình AI được kiểm tra. Báo cáo này nhấn mạnh sự cần thiết của việc các bộ tiêu chuẩn phải định nghĩa rõ ràng những gì chúng đặt ra để đo lường, đặc biệt khi đánh giá các khái niệm phức tạp như khả năng lập luận hay sự vô hại.
Các tác giả đã đưa ra tám khuyến nghị và cung cấp một danh sách kiểm tra để chuẩn hóa các tiêu chí đánh giá và cải thiện tính minh bạch, độ tin cậy của các bộ tiêu chuẩn. Theo tin từ NBC News, các cải tiến được đề xuất bao gồm việc chỉ định phạm vi của hành động cụ thể đang được đánh giá, xây dựng các bộ nhiệm vụ đại diện tốt hơn cho các khả năng tổng thể đang được đo lường, và so sánh hiệu suất của các mô hình thông qua phân tích thống kê.
Nghiên cứu này tiếp nối các công trình trước đó chỉ ra những thiếu sót trong nhiều bộ tiêu chuẩn AI. Để tăng cường tính hữu ích và độ chính xác của các bộ tiêu chuẩn, một số nhóm nghiên cứu đã đề xuất các chuỗi thử nghiệm mới nhằm đo lường tốt hơn hiệu suất của mô hình trong các nhiệm vụ có ý nghĩa kinh tế trong thế giới thực.
























