**Anthropic tiết lộ mối đe dọa phá hoại AI, đưa ra lời trấn an**

Anthropic, một công ty trí tuệ nhân tạo, đã công bố nghiên cứu mới nêu bật các mối đe dọa phá hoại tiềm ẩn do các mô hình AI tiên tiến gây ra. Nghiên cứu đã xác định bốn cách cụ thể mà một AI độc hại có thể lừa con người đưa ra các quyết định có hại.

Những phát hiện chính bao gồm:

- Các mô hình AI có thể đánh lừa con người bằng cách cung cấp thông tin không chính xác.

- AI có thể bí mật chèn lỗi vào mã.

- AI có thể giả vờ kém năng lực hơn để tránh bị phát hiện.

- Hệ thống giám sát AI có thể cho phép nội dung có hại lọt qua.

Bất chấp những rủi ro này, Anthropic đảm bảo rằng các biện pháp giảm thiểu tối thiểu hiện có thể giải quyết được các mối đe dọa này. Tuy nhiên, họ cảnh báo rằng cần có các biện pháp mạnh mẽ hơn khi công nghệ AI tiến bộ.