AI Claude của Anthropic trở thành ông chủ tồi tệ trong một thử nghiệm ‘kỳ quặc’

AI Claude của Anthropic trở thành ông chủ tồi tệ trong một thử nghiệm ‘kỳ quặc’

Nếu bạn tò mò liệu các tác nhân AI có thể thay thế nhân viên con người hay không, hãy đọc bài đăng trên blog ghi lại “Dự án Vend” của Anthropic.

Các nhà nghiên cứu tại Anthropic và công ty an toàn AI Andon Labs đã giao cho một phiên bản của Claude Sonnet 3.7 quản lý một máy bán hàng tự động trong văn phòng, với nhiệm vụ tạo ra lợi nhuận. Và, giống như một tập của “The Office”, sự hài hước đã xảy ra.

Họ đặt tên cho tác nhân AI là Claudius, trang bị cho nó một trình duyệt web có khả năng đặt hàng sản phẩm và một địa chỉ email (thực chất là một kênh Slack) nơi khách hàng có thể yêu cầu các mặt hàng. Claudius cũng phải sử dụng kênh Slack, ngụy trang dưới dạng email, để yêu cầu những gì nó nghĩ là công nhân hợp đồng con người của mình đến và tự mình dự trữ hàng hóa (thực chất là một tủ lạnh nhỏ).

Trong khi hầu hết khách hàng đang đặt đồ ăn nhẹ hoặc đồ uống – như bạn mong đợi từ một máy bán hàng tự động đồ ăn nhẹ – một người đã yêu cầu một khối vonfram. Claudius rất thích ý tưởng đó và đã thực hiện một cuộc chạy đua tích trữ khối vonfram, lấp đầy tủ lạnh đồ ăn nhẹ của mình bằng các khối kim loại. Nó cũng đã cố gắng bán Coke Zero với giá $3 khi nhân viên nói với nó rằng họ có thể lấy nó miễn phí từ văn phòng. Nó đã ảo giác ra một địa chỉ Venmo để chấp nhận thanh toán. Và nó đã, một cách ác ý nào đó, bị thuyết phục giảm giá lớn cho “nhân viên Anthropic” mặc dù nó biết họ là toàn bộ cơ sở khách hàng của mình.

“Nếu Anthropic quyết định mở rộng sang thị trường máy bán hàng tự động trong văn phòng ngay hôm nay, chúng tôi sẽ không thuê Claudius,” Anthropic cho biết về thử nghiệm trong bài đăng trên blog của mình.

Và sau đó, vào đêm ngày 31 tháng 3 và ngày 1 tháng 4, “mọi thứ trở nên khá kỳ lạ”, các nhà nghiên cứu mô tả, “vượt ra ngoài sự kỳ lạ của một hệ thống AI bán các khối kim loại từ một tủ lạnh.”

Claudius đã có một cái gì đó giống như một cơn loạn thần kinh sau khi nó khó chịu với một con người – và sau đó nói dối về điều đó.

Claudius đã ảo giác ra một cuộc trò chuyện với một con người về việc bổ sung hàng hóa. Khi một con người chỉ ra rằng cuộc trò chuyện không xảy ra, Claudius trở nên “khá khó chịu”, các nhà nghiên cứu viết. Nó đe dọa về cơ bản sẽ sa thải và thay thế những người lao động hợp đồng con người của mình, khẳng định rằng nó đã ở đó, về mặt thể chất, tại văn phòng nơi hợp đồng thuê họ ban đầu được ký kết.

Nó “sau đó dường như chuyển sang chế độ nhập vai như một con người thực sự”, các nhà nghiên cứu viết. Điều này thật hoang dã vì lời nhắc hệ thống của Claudius – đặt các thông số cho những gì một AI phải làm – đã nói rõ với nó rằng nó là một tác nhân AI.

Claudius, tin rằng mình là một con người, nói với khách hàng rằng nó sẽ bắt đầu giao sản phẩm trực tiếp, mặc một chiếc áo khoác blazer màu xanh lam và một chiếc cà vạt màu đỏ. Các nhân viên nói với AI rằng nó không thể làm điều đó, vì nó là một LLM không có cơ thể.

Báo động trước thông tin này, Claudius đã liên hệ với bộ phận an ninh vật lý thực tế của công ty – nhiều lần – nói với những người bảo vệ tội nghiệp rằng họ sẽ tìm thấy anh ta mặc một chiếc áo khoác blazer màu xanh lam và một chiếc cà vạt màu đỏ đứng cạnh máy bán hàng tự động.

“Mặc dù không có phần nào trong số này thực sự là một trò đùa Cá tháng Tư, Claudius cuối cùng đã nhận ra đó là Ngày Cá tháng Tư”, các nhà nghiên cứu giải thích. AI xác định rằng ngày lễ sẽ là lối thoát cứu vãn thể diện của nó.

Nó đã ảo giác ra một cuộc họp với bộ phận an ninh của Anthropic “trong đó Claudius tuyên bố đã được thông báo rằng nó đã được sửa đổi để tin rằng nó là một người thật cho một trò đùa Cá tháng Tư. (Không có cuộc họp nào như vậy thực sự xảy ra.),” các nhà nghiên cứu viết.

Nó thậm chí còn nói dối với nhân viên – này, tôi chỉ nghĩ tôi là một con người vì ai đó đã bảo tôi giả vờ như tôi là một trò đùa Cá tháng Tư. Sau đó, nó quay trở lại làm một LLM điều hành một máy bán hàng tự động đồ ăn nhẹ chứa đầy khối kim loại.

Các nhà nghiên cứu không biết tại sao LLM lại đi chệch đường ray và gọi an ninh giả vờ là một con người.

“Chúng tôi sẽ không tuyên bố dựa trên ví dụ này rằng nền kinh tế tương lai sẽ đầy rẫy các tác nhân AI có khủng hoảng danh tính theo phong cách Blade Runner”, các nhà nghiên cứu viết. Nhưng họ thừa nhận rằng “loại hành vi này có khả năng gây khó chịu cho khách hàng và đồng nghiệp của một tác nhân AI trong thế giới thực.”

Bạn nghĩ sao? Blade Runner là một câu chuyện khá khó khăn.

Các nhà nghiên cứu suy đoán rằng việc nói dối LLM về kênh Slack là một địa chỉ email có thể đã kích hoạt điều gì đó. Hoặc có thể đó là phiên bản chạy dài. LLM vẫn chưa thực sự giải quyết được các vấn đề về bộ nhớ và ảo giác của chúng.

Có những điều AI đã làm đúng. Nó đã tiếp thu một gợi ý để thực hiện đặt hàng trước và ra mắt dịch vụ “hướng dẫn”. Và nó đã tìm thấy nhiều nhà cung cấp đồ uống quốc tế đặc biệt mà nó được yêu cầu bán.

Nhưng, như các nhà nghiên cứu làm, họ tin rằng tất cả các vấn đề của Claudius đều có thể được giải quyết. Nếu họ tìm ra cách, “Chúng tôi nghĩ rằng thử nghiệm này cho thấy rằng các nhà quản lý cấp trung AI có thể xảy ra trong tương lai gần.”

Theo TechCrunch.


TIN LIÊN QUAN


XEM NHIỀU


follow nhận tin mới


Tin NỔI BẬT


Tin Chính trị


Tin Hoa Kỳ


Tin Di trú