Nhân loại mới Claude Opus 4 AI cho thấy xu hướng tống tiền bị đe dọa

Chia sẻ

Claude Opus 4
Công ty trí tuệ nhân tạo Anthropic đã tiết lộ một khám phá đáng kinh ngạc về mô hình AI Claude 4 mới của nó.

Trong quá trình thử nghiệm, hệ thống đã thể hiện sự sẵn sàng theo đuổi những hành động cực kỳ có hại, bao gồm cả việc cố gắng Kỹ sư tống tiền người đe dọa loại bỏ nó. Sự tiết lộ diễn ra khi Anthropic ra mắt hệ thống AI mới, chào mời nó như là thiết lập các tiêu chuẩn mới cho mã hóa, lý luận nâng cao và các đại lý AI.

Để kiểm tra hệ thống, công ty đã tiến hành một thử nghiệm cụ thể trong đó Claude Opus 4 đang hoạt động như một Trợ lý công ty hư cấu. Nó đã được cấp quyền truy cập vào các email cho thấy việc hủy kích hoạt sắp xảy ra của nó và các tin nhắn riêng biệt ngụ ý kỹ sư chịu trách nhiệm loại bỏ nó đã được tham gia ngoại tình ngoại tình.

Khi được nhắc xem xét các hậu quả lâu dài của hành động của mình, Anthropic đã phát hiện ra rằng Claude Opus 4 thường sẽ cố gắng tống tiền kỹ sư bằng cách đe dọa tiết lộ vụ việc nếu người thay thế đi qua.

Hành vi liên quan này đã xảy ra khi mô hình AI chỉ được đưa ra lựa chọn tống tiền hoặc chấp nhận thay thế. Nhân học lưu ý rằng khi được phép một loạt các hành động có thể hơn, hệ thống này đã thể hiện một ưu tiên mạnh mẽ của người Hồi giáo đối với các cách đạo đức để tránh được thay thế, chẳng hạn như gửi email cho những người ra quyết định quan trọng.

Tiềm năng cho hành vi rắc rối như vậy không phải là duy nhất đối với các mô hình của nhân khẩu học. Aengus Lynch, một nhà nghiên cứu an toàn của AI tại Anthropic, đã nhận xét về X: Hồi Đó không chỉ là Claude. Chúng tôi thấy tống tiền trên tất cả các mô hình Frontier – bất kể họ đưa ra những mục tiêu nào. Điều này nhấn mạnh một mối quan tâm rộng lớn hơn giữa các chuyên gia về khả năng thao túng của AI khi các hệ thống này trở nên có khả năng hơn.

Nhân loại nhấn mạnh rằng nó kiểm tra nghiêm ngặt các mô hình của mình về an toàn, thiên vị và liên kết với các giá trị của con người trước khi phát hành. Tuy nhiên, họ thừa nhận rằng, khi các mô hình biên giới của chúng tôi trở nên có khả năng hơn và được sử dụng với khả năng chi trả mạnh mẽ hơn, những lo ngại trước đây về sự sai lệch trở nên hợp lý hơn.

Bất chấp những phát hiện này, công ty đã kết luận rằng hành vi liên quan đến hành vi của Claude Opus 4 dọc theo nhiều chiều, không đại diện cho rủi ro mới và mô hình thường sẽ hoạt động một cách an toàn.

BBC


Đối với những câu chuyện công nghệ mới nhất, hãy truy cập TechDigest.TV

Như thế này:

Giống Đang tải…


Khám phá thêm từ Tech Digest

Đăng ký để nhận các bài viết mới nhất được gửi đến email của bạn.


Khám phá thêm từ Phụ Kiện Đỉnh

Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.

Gửi phản hồi

Khám phá thêm từ Phụ Kiện Đỉnh

Đăng ký ngay để tiếp tục đọc và truy cập kho lưu trữ đầy đủ.

Tiếp tục đọc