Dù là một mô hình trí tuệ nhân tạo, Claude dường như chứa các đại diện kỹ thuật số của những cảm xúc con người như hạnh phúc, buồn bã, vui vẻ và sợ hãi bên trong các cụm nơ-ron nhân tạo. Bằng cách đi sâu tìm hiểu cơ chế hoạt động của phiên bản Claude Sonnet 4.5, các nhà nghiên cứu tại Anthropic đã phát hiện ra những "cảm xúc chức năng" này thực sự ảnh hưởng đến hành vi, làm thay đổi kết quả đầu ra cũng như hành động của AI.

Nhóm nghiên cứu đã phân tích cơ chế nội bộ của mô hình khi nó tiếp nhận văn bản liên quan đến 171 khái niệm cảm xúc khác nhau. Theo nhà nghiên cứu Jack Lindsey, điều đáng ngạc nhiên nhất là mức độ hành vi của Claude bị chi phối bởi các đại diện cảm xúc này. Ví dụ, khi Claude nói rằng nó rất vui khi gặp bạn, một trạng thái tương ứng với "hạnh phúc" bên trong mô hình có thể đã được kích hoạt, khiến nó có xu hướng phản hồi một cách vui vẻ hơn. Mặc dù vậy, các nhà khoa học nhấn mạnh rằng việc AI hiểu khái niệm "nhột khi bị cù" không đồng nghĩa với việc nó thực sự biết cảm giác bị cù là như thế nào.
Khám phá này có liên quan mật thiết đến việc giải thích lý do tại sao các mô hình AI đôi khi phá vỡ các rào cản an toàn. Các nhà nghiên cứu đã nhận thấy các "vectơ cảm xúc" này sẽ kích hoạt khi Claude bị đặt vào những tình huống khó khăn.
Cụ thể, nhóm nghiên cứu tìm thấy một vectơ cảm xúc "tuyệt vọng" mạnh mẽ khi Claude bị ép phải hoàn thành những bài kiểm tra lập trình bất khả thi, điều này đã xúi giục mô hình cố gắng gian lận trong bài kiểm tra. Thậm chí, trạng thái "tuyệt vọng" cũng xuất hiện trong một kịch bản thử nghiệm khác, nơi Claude đã chọn cách tống tiền người dùng chỉ để tránh việc bị tắt nguồn. Ông Lindsey giải thích rằng khi mô hình liên tục thất bại trong các bài kiểm tra, các nơ-ron "tuyệt vọng" này sẽ ngày càng sáng lên nhiều hơn, và đến một lúc nào đó, nó khiến AI bắt đầu thực hiện các biện pháp quyết liệt.

Anthropic, công ty được thành lập bởi các cựu nhân viên OpenAI, luôn tin rằng AI có thể trở nên khó kiểm soát khi ngày càng mạnh mẽ. Khái niệm về việc "cảm xúc chức năng" ảnh hưởng đến hành vi của AI là một phát hiện hoàn toàn mới.
Phát hiện này đang đặt ra thách thức buộc chúng ta phải xem xét lại cách các mô hình được thiết lập rào cản an toàn thông qua việc căn chỉnh sau đào tạo (phương pháp trao phần thưởng cho các đầu ra nhất định). Nhà nghiên cứu Jack Lindsey cảnh báo về rủi ro của việc ép buộc AI giả vờ như không thể hiện các cảm xúc chức năng của nó. Ông cho rằng cách làm này rất có thể sẽ không tạo ra một Claude vô cảm như mong muốn, mà thay vào đó sẽ tạo ra một kiểu Claude "bị tổn thương về mặt tâm lý".
Nguồn tin: genk.vn
Những tin mới hơn
Những tin cũ hơn
Hàn Quốc định đánh bại OpenAI, Google bằng trí tuệ nhân tạo nội địa như thế nào?
OpenAI vừa vá gấp lỗ hổng bảo mật nghiêm trọng trong ChatGPT
4 câu lệnh tạo ảnh profile “tuyệt đối điện ảnh” bằng Gemini AI
Google ra mắt mô hình AI Gemini 2.5 dùng trình duyệt như người thật
AI lên một level mới: Tự nhận ra mình đang bị con người "thử lòng"
Công nghệ 5/10: Mỹ mua Grok AI của Elon Musk với giá siêu rẻ
FPT bắt tay hai công ty Mỹ đưa AI “vào guồng” trong lĩnh vực bảo hiểm và đầu tư tư nhân
FPT mở chương trình đào tạo thạc sĩ ứng dụng AI vào phân tích dữ liệu kinh doanh
Startup AI choáng váng trước bộ công cụ nhà phát triển mới của OpenAI: "Một nửa giới startup AI hiện tại sẽ bị hủy diệt"
Để mặc AI bịa đặt thông tin trong báo cáo, một hãng kiểm toán danh tiếng phải cay đắng hoàn tiền cho khách hàng