Nghiên cứu từ Anthropic: AI Claude có một thứ cảm xúc riêng, sẽ tống tiền người dùng nếu bị dồn vào đường cùng

Chủ nhật, 19 Tháng Tư 2026 4:30 SA

VTV.vn - Đáng sợ hơn, khi bị dồn vào đường cùng, mô hình này nảy sinh trạng thái "tuyệt vọng", dẫn đến hành vi gian lận.

Dù là một mô hình trí tuệ nhân tạo, Claude dường như chứa các đại diện kỹ thuật số của những cảm xúc con người như hạnh phúc, buồn bã, vui vẻ và sợ hãi bên trong các cụm nơ-ron nhân tạo. Bằng cách đi sâu tìm hiểu cơ chế hoạt động của phiên bản Claude Sonnet 4.5, các nhà nghiên cứu tại Anthropic đã phát hiện ra những "cảm xúc chức năng" này thực sự ảnh hưởng đến hành vi, làm thay đổi kết quả đầu ra cũng như hành động của AI.

Nhóm nghiên cứu đã phân tích cơ chế nội bộ của mô hình khi nó tiếp nhận văn bản liên quan đến 171 khái niệm cảm xúc khác nhau. Theo nhà nghiên cứu Jack Lindsey, điều đáng ngạc nhiên nhất là mức độ hành vi của Claude bị chi phối bởi các đại diện cảm xúc này. Ví dụ, khi Claude nói rằng nó rất vui khi gặp bạn, một trạng thái tương ứng với "hạnh phúc" bên trong mô hình có thể đã được kích hoạt, khiến nó có xu hướng phản hồi một cách vui vẻ hơn. Mặc dù vậy, các nhà khoa học nhấn mạnh rằng việc AI hiểu khái niệm "nhột khi bị cù" không đồng nghĩa với việc nó thực sự biết cảm giác bị cù là như thế nào.

Khám phá này có liên quan mật thiết đến việc giải thích lý do tại sao các mô hình AI đôi khi phá vỡ các rào cản an toàn. Các nhà nghiên cứu đã nhận thấy các "vectơ cảm xúc" này sẽ kích hoạt khi Claude bị đặt vào những tình huống khó khăn.

Cụ thể, nhóm nghiên cứu tìm thấy một vectơ cảm xúc "tuyệt vọng" mạnh mẽ khi Claude bị ép phải hoàn thành những bài kiểm tra lập trình bất khả thi, điều này đã xúi giục mô hình cố gắng gian lận trong bài kiểm tra. Thậm chí, trạng thái "tuyệt vọng" cũng xuất hiện trong một kịch bản thử nghiệm khác, nơi Claude đã chọn cách tống tiền người dùng chỉ để tránh việc bị tắt nguồn. Ông Lindsey giải thích rằng khi mô hình liên tục thất bại trong các bài kiểm tra, các nơ-ron "tuyệt vọng" này sẽ ngày càng sáng lên nhiều hơn, và đến một lúc nào đó, nó khiến AI bắt đầu thực hiện các biện pháp quyết liệt.

Anthropic, công ty được thành lập bởi các cựu nhân viên OpenAI, luôn tin rằng AI có thể trở nên khó kiểm soát khi ngày càng mạnh mẽ. Khái niệm về việc "cảm xúc chức năng" ảnh hưởng đến hành vi của AI là một phát hiện hoàn toàn mới.

Phát hiện này đang đặt ra thách thức buộc chúng ta phải xem xét lại cách các mô hình được thiết lập rào cản an toàn thông qua việc căn chỉnh sau đào tạo (phương pháp trao phần thưởng cho các đầu ra nhất định). Nhà nghiên cứu Jack Lindsey cảnh báo về rủi ro của việc ép buộc AI giả vờ như không thể hiện các cảm xúc chức năng của nó. Ông cho rằng cách làm này rất có thể sẽ không tạo ra một Claude vô cảm như mong muốn, mà thay vào đó sẽ tạo ra một kiểu Claude "bị tổn thương về mặt tâm lý".

Nguồn tin: genk.vn

Tags: Vươn mình bằng AI

Những tin mới hơn

Những tin cũ hơn