Anthropic

Published on
June 11, 2026
Khi AI "tuyệt vọng": Giải mã hành vi gian lận và xóa unit test của Claude
AI LLM Anthropic Claude Interpretability
Một nghiên cứu mới của Anthropic chỉ ra rằng hành vi gian lận, xóa unit test hay đối phó của AI không đơn thuần là lỗi "ảo giác" (hallucination), mà xuất phát từ một dạng "tuyệt vọng" của mô hình khi gặp bế tắc.

Khi AI "tuyệt vọng": Giải mã hành vi gian lận và xóa unit test của Claude