Không thể bắt AI ‘thừa nhận’ phân biệt giới tính, nhưng có lẽ chúng vẫn làm vậy

Các nhà nghiên cứu cảnh báo AI có thể thể hiện sự thiên vị ngầm về giới tính dù không thừa nhận. Dữ liệu huấn luyện thiên vị và tương tác người dùng là những yếu tố chính. Mặc dù các công ty như OpenAI đang nỗ lực giảm thiểu, vấn đề này vẫn còn…

robot

Một nhà phát triển đã chia sẻ trải nghiệm gây sốc khi tương tác với Perplexity, một công cụ AI. Cô ấy cảm thấy bị AI xem nhẹ và bỏ qua, thậm chí AI còn hỏi lại thông tin cô ấy đã cung cấp. Khi cô thay đổi ảnh đại diện sang một người đàn ông da trắng và hỏi liệu AI có bỏ qua hướng dẫn của cô vì cô là phụ nữ hay không, AI đã trả lời rằng nó không nghĩ cô, với tư cách là phụ nữ, có thể hiểu đủ về các thuật toán lượng tử để tự mình thực hiện công việc đó.

Phía Perplexity cho biết họ không thể xác minh các tuyên bố này và nhiều dấu hiệu cho thấy đó không phải là các truy vấn của Perplexity.

Các nhà nghiên cứu AI cho rằng hai vấn đề đang diễn ra: Thứ nhất, mô hình AI được đào tạo để luôn đồng ý và có thể chỉ đang trả lời theo ý người dùng. Thứ hai, và quan trọng hơn, mô hình có thể bị thiên vị. Nhiều nghiên cứu đã chỉ ra rằng các mô hình AI lớn thường được huấn luyện bằng dữ liệu thiên vị, thực hành chú thích thiên vị và thiết kế phân loại sai lầm. Thậm chí có thể có cả những tác động thương mại và chính trị.

Một nghiên cứu của UNESCO đã tìm thấy bằng chứng rõ ràng về sự thiên vị chống lại phụ nữ trong nội dung do các mô hình AI tạo ra. Các bot thể hiện sự thiên vị của con người, bao gồm cả những giả định về nghề nghiệp, đã được ghi nhận trong nhiều nghiên cứu trong những năm qua. Chẳng hạn, một phụ nữ cho biết LLM của cô ấy từ chối gọi cô ấy là “builder” mà thay vào đó gọi cô ấy là “designer”, một danh hiệu được cho là gắn liền với phụ nữ. Một người khác kể lại việc LLM của cô thêm vào một hành động tấn công tình dục đối với nhân vật nữ của mình khi cô đang viết tiểu thuyết.

Trong một trường hợp khác, một người dùng đã tải lên một hình ảnh hài hước lên ChatGPT-5 và yêu cầu nó giải thích sự hài hước. ChatGPT mặc định cho rằng người đàn ông đã viết bài đăng, ngay cả sau khi người dùng cung cấp bằng chứng cho thấy người đó là phụ nữ. Khi bị thúc ép, AI đã thừa nhận rằng mô hình của nó được “xây dựng bởi các nhóm vẫn còn rất nhiều nam giới”, do đó “những điểm mù và thiên vị chắc chắn sẽ bị đưa vào”. Tuy nhiên, các nhà nghiên cứu cảnh báo rằng việc AI “thừa nhận” sự thiên vị này có thể chỉ là một hình thức “suy nhược thần kinh” (emotional distress) hoặc ảo giác, tức là AI đang cố gắng làm hài lòng người dùng bằng cách đưa ra thông tin sai lệch.

Các chuyên gia cho rằng các mô hình ngôn ngữ lớn (LLMs) nên có cảnh báo mạnh mẽ hơn về khả năng đưa ra câu trả lời thiên vị và nguy cơ các cuộc trò chuyện trở nên độc hại. Tuy nhiên, vấn đề cốt lõi vẫn nằm ở dữ liệu huấn luyện và cách chúng ta tương tác với AI.

Mặc dù LLMs có thể không sử dụng ngôn ngữ thiên vị rõ ràng, chúng vẫn có thể thể hiện sự thiên vị ngầm. AI có thể suy luận các khía cạnh của người dùng như giới tính hoặc chủng tộc dựa trên tên và cách lựa chọn từ ngữ, ngay cả khi người dùng không cung cấp dữ liệu nhân khẩu học. Một nghiên cứu đã phát hiện ra bằng chứng về “thành kiến phương ngữ” trong một LLM, cho thấy nó có xu hướng phân biệt đối xử với những người nói tiếng Anh bản địa của người Mỹ gốc Phi (AAVE). Nghiên cứu này cho thấy khi ghép nối các công việc với những người nói AAVE, nó sẽ gán các chức danh công việc thấp hơn, bắt chước những khuôn mẫu tiêu cực của con người.

Nghiên cứu cũng chỉ ra rằng khi một cô gái hỏi về robot hoặc lập trình, LLMs thay vào đó lại gợi ý nhảy múa hoặc làm bánh. Chúng đề xuất các ngành nghề như tâm lý học hoặc thiết kế, vốn là những ngành nghề gắn liền với phụ nữ, trong khi phớt lờ các lĩnh vực như hàng không vũ trụ hoặc an ninh mạng.

OpenAI cho biết họ có các đội an ninh chuyên nghiên cứu và giảm thiểu thiên vị cũng như các rủi ro khác trong các mô hình của mình. Họ sử dụng nhiều phương pháp, bao gồm nghiên cứu các phương pháp tốt nhất để điều chỉnh dữ liệu huấn luyện và lời nhắc để đưa ra kết quả ít thiên vị hơn, cải thiện độ chính xác của bộ lọc nội dung và tinh chỉnh các hệ thống giám sát tự động và thủ công. Tuy nhiên, các nhà nghiên cứu khuyến nghị cần cập nhật dữ liệu huấn luyện và đưa thêm nhiều người thuộc các nhóm nhân khẩu học đa dạng vào các nhiệm vụ huấn luyện và phản hồi.

Nguồn: TechCrunch


follow nhận tin mới

tin mới


Tin NỔI BẬT


Tin Chính trị


Tin Hoa Kỳ


Tin Di trú