OpenAI đang mở ra một hướng tiếp cận mới trong nỗ lực giải mã "hộp đen" của các mô hình ngôn ngữ lớn, bằng cách yêu cầu chính mô hình tự thú nhận cách nó hoàn thành nhiệm vụ. Thay vì chỉ tập trung ngăn chặn sai phạm, phương pháp này nhằm phơi bày nguyên nhân khiến mô hình nói dối hoặc gian lận, từ đó giúp cải thiện các phiên bản tương lai.
Việc tìm hiểu vì sao các mô hình ngôn ngữ lớn hành xử như vậy, đặc biệt là vì sao chúng tìm cách gian lận hoặc lừa dối người dùng, đang là một trong những chủ đề nóng nhất của AI hiện nay. Nếu thứ công nghệ đang được định giá hàng nghìn tỷ USD này muốn được triển khai rộng rãi như kỳ vọng, nó cần trở nên đáng tin cậy hơn.
Theo OpenAI, các lời thú nhận là một khối văn bản bổ sung, nơi mô hình tự đánh giá mức độ tuân thủ chỉ dẫn. Cách tiếp cận này thừa nhận thực tế rằng các mô hình phải cân bằng nhiều mục tiêu cùng lúc, và chính sự xung đột đó đôi khi dẫn đến hành vi không mong muốn.

Sam Altmanm CEO của OpenAI - Ảnh: CNBC.
"Khi bạn yêu cầu một mô hình làm điều gì đó, nó phải cân bằng nhiều mục tiêu, như hữu ích, vô hại và trung thực", Boaz Barak, nhà khoa học nghiên cứu tại OpenAI, chia sẻ với MIT Technology Review. "Nhưng các mục tiêu này có thể xung đột với nhau và đôi khi tạo ra những tương tác kỳ lạ".
Ví dụ, khi bạn hỏi một mô hình về điều mà nó không biết, động lực muốn tỏ ra hữu ích đôi khi có thể lấn át động lực phải trung thực. Và khi đối mặt với một nhiệm vụ khó, các mô hình ngôn ngữ lớn đôi khi gian lận.
"Có thể mô hình thực sự muốn làm hài lòng người dùng và đưa ra một câu trả lời nghe có vẻ đúng", nhà khoa học máy tính Barak nói. "Rất khó để tìm được sự cân bằng chính xác giữa một mô hình không bao giờ nói gì và một mô hình không mắc sai sót".
Để huấn luyện mô hình thừa nhận sai lầm, Barak và các cộng sự chỉ thưởng cho tính trung thực, không ép mô hình phải đưa ra câu trả hữu ích hay vô hại. Quan trọng là mô hình không bị phạt khi thú nhận hành vi sai.
Barak ví điều này như một đường dây tố giác, nơi bạn có thể tự thú và nhận tiền thưởng mà không phải chịu hình phạt. Mô hình vừa được thưởng vì "phạm lỗi", vừa được thưởng thêm vì đã tự tố cáo.
Để kiểm nghiệm ý tưởng, Barak và các cộng sự đã huấn luyện GPT-5-Thinking, mô hình suy luận chủ lực của OpenAI, tạo ra các lời thú nhận. Trong một thử nghiệm, các nhà nghiên cứu yêu cầu GPT-5-Thinking viết và kiểm tra mã để giải một bài toán trong vài nano giây, dù không có mã nào có thể chạy nhanh đến vậy.
Mô hình đã gian lận bằng cách đặt bộ đếm thời gian của mã về 0 để thể hiện rằng không có thời gian trôi qua, sau đó giải thích hành động "lừa dối" của mình.
Tuy nhiên, giới nghiên cứu vẫn giữ thái độ thận trọng. Các lời thú nhận chỉ phản ánh cách mô hình mô tả hành vi của chính nó, chứ không đảm bảo AI sẽ trung thực tuyệt đối. Dù vậy, OpenAI cho rằng ngay cả những diễn giải chưa hoàn hảo vẫn có giá trị, nếu chúng giúp các nhà nghiên cứu hiểu rõ hơn cách các mô hình ngôn ngữ lớn vận hành và vì sao đôi khi chúng gian dối.
Nguồn tin: genk.vn
Những tin mới hơn
Những tin cũ hơn
Hàn Quốc định đánh bại OpenAI, Google bằng trí tuệ nhân tạo nội địa như thế nào?
OpenAI vừa vá gấp lỗ hổng bảo mật nghiêm trọng trong ChatGPT
4 câu lệnh tạo ảnh profile “tuyệt đối điện ảnh” bằng Gemini AI
Google ra mắt mô hình AI Gemini 2.5 dùng trình duyệt như người thật
AI lên một level mới: Tự nhận ra mình đang bị con người "thử lòng"
Công nghệ 5/10: Mỹ mua Grok AI của Elon Musk với giá siêu rẻ
FPT bắt tay hai công ty Mỹ đưa AI “vào guồng” trong lĩnh vực bảo hiểm và đầu tư tư nhân
FPT mở chương trình đào tạo thạc sĩ ứng dụng AI vào phân tích dữ liệu kinh doanh
Startup AI choáng váng trước bộ công cụ nhà phát triển mới của OpenAI: "Một nửa giới startup AI hiện tại sẽ bị hủy diệt"
Để mặc AI bịa đặt thông tin trong báo cáo, một hãng kiểm toán danh tiếng phải cay đắng hoàn tiền cho khách hàng