OpenAI: GPT-5 ngang hàng với con người trong nhiều ngành nghề

OpenAI ra mắt chuẩn mực GDPval mới, đánh giá khả năng của các mô hình AI như GPT-5 và Claude Opus 4.1 so với chuyên gia con người trong nhiều ngành nghề. Kết quả ban đầu cho thấy GPT-5 và Claude Opus 4.1 đang tiến gần đến chất lượng làm việc của con người, đạt…

GettyImages 1065679054

Công ty OpenAI vừa công bố một chuẩn mực đánh giá mới mang tên GDPval, nhằm kiểm định mức độ hiệu quả của các mô hình Trí Tuệ Nhân Tạo (AI) khi đối chiếu với khả năng của các chuyên gia trong nhiều lĩnh vực và ngành nghề khác nhau. Đây là một nỗ lực ban đầu của OpenAI để hiểu rõ hơn về mức độ tiệm cận của các hệ thống AI với khả năng vượt trội con người trong những công việc có giá trị kinh tế, một phần cốt lõi trong sứ mệnh thành lập công ty để phát triển Trí Tuệ Tổng Quát Nhân Tạo (AGI).

Theo OpenAI, các mô hình như GPT-5 và Claude Opus 4.1 của Anthropic “đang dần đạt đến chất lượng công việc do các chuyên gia ngành nghề thực hiện.”

Mặc dù một số CEO dự đoán AI sẽ thay thế công việc của con người trong vài năm tới, OpenAI thừa nhận rằng GDPval hiện tại chỉ bao gồm một số lượng hạn chế các tác vụ mà con người thực hiện trong công việc thực tế. Tuy nhiên, đây là một trong những cách mới nhất mà công ty này đang sử dụng để đo lường tiến bộ của AI hướng tới mục tiêu lớn hơn. Chuẩn mực GDPval dựa trên chín ngành công nghiệp đóng góp nhiều nhất vào Tổng Sản Phẩm Quốc Nội của Hoa Kỳ, bao gồm y tế, tài chính, sản xuất và chính phủ. Bài kiểm tra đánh giá hiệu suất của mô hình AI trong 44 ngành nghề, từ kỹ sư phần mềm đến y tá và nhà báo.

Trong phiên bản đầu tiên của bài kiểm tra, GDPval-v0, OpenAI đã yêu cầu các chuyên gia giàu kinh nghiệm so sánh các báo cáo do AI tạo ra với các báo cáo của những chuyên gia khác, sau đó chọn ra báo cáo tốt nhất. Ví dụ, một yêu cầu đã được đưa ra cho các nhà đầu tư ngân hàng để tạo ra một phân tích cạnh tranh cho ngành giao hàng chặng cuối, và so sánh chúng với các báo cáo do AI tạo ra. OpenAI sau đó tính trung bình “tỷ lệ thắng” của mô hình AI so với các báo cáo của con người trên tất cả 44 ngành nghề.

Đối với GPT-5-high, một phiên bản tăng cường của GPT-5 với sức mạnh tính toán bổ sung, công ty cho biết mô hình AI này được đánh giá là tốt hơn hoặc ngang bằng với các chuyên gia ngành nghề trong 40.6% số trường hợp. Mô hình Claude Opus 4.1 của Anthropic đạt tỷ lệ tốt hơn hoặc ngang bằng là 49%, nhưng OpenAI cho rằng con số này có thể cao do xu hướng tạo ra đồ họa đẹp mắt của mô hình này, hơn là hiệu suất thuần túy.

Các chuyên gia nhận định rằng hầu hết các công việc thực tế của con người phức tạp hơn nhiều so với việc chỉ nộp các báo cáo nghiên cứu, vốn là tất cả những gì GDPval-v0 đang kiểm tra. OpenAI cũng thừa nhận điều này và cho biết họ dự định tạo ra các bài kiểm tra mạnh mẽ hơn trong tương lai, có thể tính đến nhiều ngành công nghiệp và quy trình làm việc tương tác hơn. Tuy nhiên, công ty vẫn xem tiến bộ trên GDPval là đáng chú ý.

Trao đổi với TechCrunch, Tiến Sĩ Aaron Chatterji, nhà kinh tế trưởng của OpenAI, cho biết kết quả của GDPval gợi ý rằng những người làm việc trong các ngành nghề này hiện có thể sử dụng các mô hình AI để dành thời gian cho những nhiệm vụ có ý nghĩa hơn. Bà Tejal Patwardhan, trưởng nhóm đánh giá của OpenAI, chia sẻ với TechCrunch rằng bà rất phấn khởi về tốc độ tiến bộ của GDPval. Mô hình GPT-4o của OpenAI, ra mắt khoảng 15 tháng trước, chỉ đạt 13.7% (thắng và hòa với con người), trong khi GPT-5 hiện đã tăng gần gấp ba lần, một xu hướng mà bà Patwardhan kỳ vọng sẽ tiếp diễn, theo tin từ TechCrunch ngày 25 tháng 9 năm 2025.


follow nhận tin mới

tin mới


Tin NỔI BẬT


Tin Chính trị


Tin Hoa Kỳ


Tin Di trú