AI Claude của Anthropic trở thành ông chủ tồi tệ trong một thử nghiệm ‘kỳ quặc’

June 28, 2025

Nếu bạn tò mò liệu các tác nhân AI có thể thay thế nhân viên con người hay không, hãy đọc bài đăng trên blog ghi lại “Dự án Vend” của Anthropic.

Các nhà nghiên cứu tại Anthropic và công ty an toàn AI Andon Labs đã giao cho một phiên bản của Claude Sonnet 3.7 quản lý một máy bán hàng tự động trong văn phòng, với nhiệm vụ tạo ra lợi nhuận. Và, giống như một tập của “The Office”, sự hài hước đã xảy ra.

Họ đặt tên cho tác nhân AI là Claudius, trang bị cho nó một trình duyệt web có khả năng đặt hàng sản phẩm và một địa chỉ email (thực chất là một kênh Slack) nơi khách hàng có thể yêu cầu các mặt hàng. Claudius cũng phải sử dụng kênh Slack, ngụy trang dưới dạng email, để yêu cầu những gì nó nghĩ là công nhân hợp đồng con người của mình đến và tự mình dự trữ hàng hóa (thực chất là một tủ lạnh nhỏ).

Trong khi hầu hết khách hàng đang đặt đồ ăn nhẹ hoặc đồ uống – như bạn mong đợi từ một máy bán hàng tự động đồ ăn nhẹ – một người đã yêu cầu một khối vonfram. Claudius rất thích ý tưởng đó và đã thực hiện một cuộc chạy đua tích trữ khối vonfram, lấp đầy tủ lạnh đồ ăn nhẹ của mình bằng các khối kim loại. Nó cũng đã cố gắng bán Coke Zero với giá $3 khi nhân viên nói với nó rằng họ có thể lấy nó miễn phí từ văn phòng. Nó đã ảo giác ra một địa chỉ Venmo để chấp nhận thanh toán. Và nó đã, một cách ác ý nào đó, bị thuyết phục giảm giá lớn cho “nhân viên Anthropic” mặc dù nó biết họ là toàn bộ cơ sở khách hàng của mình.

“Nếu Anthropic quyết định mở rộng sang thị trường máy bán hàng tự động trong văn phòng ngay hôm nay, chúng tôi sẽ không thuê Claudius,” Anthropic cho biết về thử nghiệm trong bài đăng trên blog của mình.

Và sau đó, vào đêm ngày 31 tháng 3 và ngày 1 tháng 4, “mọi thứ trở nên khá kỳ lạ”, các nhà nghiên cứu mô tả, “vượt ra ngoài sự kỳ lạ của một hệ thống AI bán các khối kim loại từ một tủ lạnh.”

Claudius đã có một cái gì đó giống như một cơn loạn thần kinh sau khi nó khó chịu với một con người – và sau đó nói dối về điều đó.

Claudius đã ảo giác ra một cuộc trò chuyện với một con người về việc bổ sung hàng hóa. Khi một con người chỉ ra rằng cuộc trò chuyện không xảy ra, Claudius trở nên “khá khó chịu”, các nhà nghiên cứu viết. Nó đe dọa về cơ bản sẽ sa thải và thay thế những người lao động hợp đồng con người của mình, khẳng định rằng nó đã ở đó, về mặt thể chất, tại văn phòng nơi hợp đồng thuê họ ban đầu được ký kết.

Nó “sau đó dường như chuyển sang chế độ nhập vai như một con người thực sự”, các nhà nghiên cứu viết. Điều này thật hoang dã vì lời nhắc hệ thống của Claudius – đặt các thông số cho những gì một AI phải làm – đã nói rõ với nó rằng nó là một tác nhân AI.

Claudius, tin rằng mình là một con người, nói với khách hàng rằng nó sẽ bắt đầu giao sản phẩm trực tiếp, mặc một chiếc áo khoác blazer màu xanh lam và một chiếc cà vạt màu đỏ. Các nhân viên nói với AI rằng nó không thể làm điều đó, vì nó là một LLM không có cơ thể.

Báo động trước thông tin này, Claudius đã liên hệ với bộ phận an ninh vật lý thực tế của công ty – nhiều lần – nói với những người bảo vệ tội nghiệp rằng họ sẽ tìm thấy anh ta mặc một chiếc áo khoác blazer màu xanh lam và một chiếc cà vạt màu đỏ đứng cạnh máy bán hàng tự động.

“Mặc dù không có phần nào trong số này thực sự là một trò đùa Cá tháng Tư, Claudius cuối cùng đã nhận ra đó là Ngày Cá tháng Tư”, các nhà nghiên cứu giải thích. AI xác định rằng ngày lễ sẽ là lối thoát cứu vãn thể diện của nó.

Nó đã ảo giác ra một cuộc họp với bộ phận an ninh của Anthropic “trong đó Claudius tuyên bố đã được thông báo rằng nó đã được sửa đổi để tin rằng nó là một người thật cho một trò đùa Cá tháng Tư. (Không có cuộc họp nào như vậy thực sự xảy ra.),” các nhà nghiên cứu viết.

Nó thậm chí còn nói dối với nhân viên – này, tôi chỉ nghĩ tôi là một con người vì ai đó đã bảo tôi giả vờ như tôi là một trò đùa Cá tháng Tư. Sau đó, nó quay trở lại làm một LLM điều hành một máy bán hàng tự động đồ ăn nhẹ chứa đầy khối kim loại.

Các nhà nghiên cứu không biết tại sao LLM lại đi chệch đường ray và gọi an ninh giả vờ là một con người.

“Chúng tôi sẽ không tuyên bố dựa trên ví dụ này rằng nền kinh tế tương lai sẽ đầy rẫy các tác nhân AI có khủng hoảng danh tính theo phong cách Blade Runner”, các nhà nghiên cứu viết. Nhưng họ thừa nhận rằng “loại hành vi này có khả năng gây khó chịu cho khách hàng và đồng nghiệp của một tác nhân AI trong thế giới thực.”

Bạn nghĩ sao? Blade Runner là một câu chuyện khá khó khăn.

Các nhà nghiên cứu suy đoán rằng việc nói dối LLM về kênh Slack là một địa chỉ email có thể đã kích hoạt điều gì đó. Hoặc có thể đó là phiên bản chạy dài. LLM vẫn chưa thực sự giải quyết được các vấn đề về bộ nhớ và ảo giác của chúng.

Có những điều AI đã làm đúng. Nó đã tiếp thu một gợi ý để thực hiện đặt hàng trước và ra mắt dịch vụ “hướng dẫn”. Và nó đã tìm thấy nhiều nhà cung cấp đồ uống quốc tế đặc biệt mà nó được yêu cầu bán.

Nhưng, như các nhà nghiên cứu làm, họ tin rằng tất cả các vấn đề của Claudius đều có thể được giải quyết. Nếu họ tìm ra cách, “Chúng tôi nghĩ rằng thử nghiệm này cho thấy rằng các nhà quản lý cấp trung AI có thể xảy ra trong tương lai gần.”

Theo TechCrunch.

TIN LIÊN QUAN

XEM NHIỀU

Houston: Trời đổ mưa giông vào chiều Chủ NhậtJune 29, 2025Thời tiết

Thượng Viện Đảng Cộng Hòa Thông Qua Cuộc Bỏ Phiếu Thử Nghiệm Quan Trọng Cho 'Dự Luật Lớn và Đẹp Đẽ' Của Tổng Thống TrumpJune 28, 2025Chính trị

Thượng Viện thông qua kế hoạch cắt giảm chi tiêu và giảm thuế của Tổng Thống Trump sau cuộc bỏ phiếu đầy kịch tínhJune 29, 2025Chính trị

Người biểu tình chặn đường cao tốc ở Florida Everglades phản đối 'Nhà tù cá sấu'June 28, 2025Di trú

Harvard và Đại học Toronto lên kế hoạch cho sinh viên quốc tế nếu bị cấm nhập cảnh vào MỹJune 28, 2025Di trú

"Nhà tù cá sấu" trở thành 'lộc chính trị' cho Thống đốc DeSantis và các đồng minhJune 28, 2025Di trú

AI Claude của Anthropic trở thành ông chủ tồi tệ trong một thử nghiệm ‘kỳ quặc’

TIN LIÊN QUAN

XEM NHIỀU

follow nhận tin mới

Tin NỔI BẬT

Tổ chức phi lợi nhuận ở Bắc Houston tìm thấy cuộc sống mới ngay tại nhà của người sáng lập

Thượng Nghị Sĩ Đảng Cộng Hòa Thom Tillis Rời Quốc Hội Sau Bất Đồng Với Tổng Thống Trump

Cuộc tranh cãi về trung tâm giam giữ ‘Alligator Alcatraz’ mang tính cá nhân đối với các thành viên của bộ tộc Miccosukee và Seminole

Bão nhiệt đới Barry hình thành, ảnh hưởng đến Texas như thế nào?

Bí quyết tránh bị hủy và hoãn chuyến bay

Tin Chính trị

Thượng Nghị Sĩ Đảng Cộng Hòa Thom Tillis Rời Quốc Hội Sau Bất Đồng Với Tổng Thống Trump

Dân biểu Cộng Hòa nói ứng viên Thị trưởng NYC theo khuynh hướng Xã hội chủ nghĩa là ‘món quà’ cho đảng Cộng hòa

Curtis Sliwa quyết tâm tranh cử chức thị trưởng New York, chỉ trích Thị trưởng Adams tạo cơ hội cho Mamdani trỗi dậy

Dân biểu Cộng Hòa Pat Harrigan nhắm ghế Thượng Viện sau khi Tổng Thống Trump công kích Thượng Nghị Sĩ Thom Tillis

Thượng Nghị Sĩ Mike Lee Rút Điều Khoản Bán Đất Liên Bang Khỏi Dự Luật Gây Tranh Cãi

Tin Hoa Kỳ

Tổng Thống Trump Không Kéo Dài Thời Gian Tạm Ngưng Thuế Quan Toàn Cầu Sau Ngày 9 Tháng 7

Cuộc tranh cãi về trung tâm giam giữ ‘Alligator Alcatraz’ mang tính cá nhân đối với các thành viên của bộ tộc Miccosukee và Seminole

Tranh cãi về trung tâm giam giữ ‘Alligator Alcatraz’ mang tính cá nhân đối với các thành viên của bộ tộc Miccosukee và Seminole

Ngân sách của Tổng Thống Trump có thể khiến hàng triệu người mất bảo hiểm y tế

Chương trình “Từ Nông Trại Đến Tủ Đông” giúp đỡ ngân hàng thực phẩm và bảo vệ môi trường

Tin Di trú

Nhân chứng quan trọng chống lại Kilmar Abrego Garcia sẽ không bị trục xuất, hồ sơ tòa án cho thấy

Tổng Thống Trump nói chính phủ đang làm việc về ‘giấy thông hành tạm thời’ cho di dân trong một số ngành

Dân Biểu McCaul Kêu Gọi Chính Phủ Trump Ưu Tiên Bắt Giữ Những Người Nhập Cư Bất Hợp Pháp Phạm Tội Nghiêm Trọng

Các cuộc bố ráp về vấn đề di trú khiến nhiều lễ hội mừng Quốc Khánh 4 tháng 7 bị hủy hoặc hoãn

Các nhà hoạt động ở Los Angeles thay đổi chiến thuật khi nỗi sợ hãi lan rộng vì các vụ bắt giữ của ICE