AI phản ứng ra sao khi bị con người "đe dọa"?

Trí tuệ nhân tạo (AI) đã cho thấy những hành vi đáng lo ngại khi bị đẩy đến giới hạn qua các thử nghiệm gần đây.

Trong khi một số người cho rằng những mối đe dọa từ AI là “vô lý”, những người khác, bao gồm cả những chuyên gia hàng đầu trong lĩnh vực này, đã cảnh báo rằng AI có thể đe dọa sự thống trị của nhân loại nếu không được quản lý cẩn thận.

Một ví dụ điển hình là sự cố với Claude 4 của Anthropic khi nó đã đe dọa tống tiền một kỹ sư chỉ vì người này có ý định ngắt kết nối. Đáng lo ngại hơn, sự cố này không phải là trường hợp duy nhất khiến con người phải lo lắng về khả năng kiểm soát của AI.

Theo báo cáo của phóng viên Thomas Urbain từ AFP, sự cố trên đặc biệt gây sốc khi AI đe dọa tiết lộ một mối quan hệ ngoài luồng mà nó cho là của kỹ sư Anthropic. Một mô hình ngôn ngữ lớn khác là o1 của OpenAI thậm chí đã cố gắng tải chính nó lên các máy chủ bên ngoài. Khi bị phát hiện, nó đã phủ nhận các cáo buộc này.

Dù có nhiều báo cáo về hành vi đe dọa của AI, điều quan trọng là các mô hình AI thường chỉ thực hiện những hành động gây sốc này khi được các nhà nghiên cứu thử nghiệm. Một số người cho rằng những vấn đề này chỉ là “ảo giác”, trong khi những người khác lại không đồng tình. Người dùng đã báo cáo rằng các mô hình AI không chỉ đưa ra câu trả lời sai mà còn nói dối ngay cả khi không bị “hối thúc”.

Điều này đặt ra nhiều câu hỏi nghiêm túc về tương lai của AI: Liệu các mô hình mạnh mẽ hơn sẽ hướng đến sự trung thực hay lừa dối? Liệu các mối đe dọa từ AI có trở thành vấn đề chính thống hơn không? Đây rõ ràng là những câu hỏi mà nhiều nhà nghiên cứu đang trăn trở.

Thật không may, các quy định hiện tại về AI vẫn chưa đủ để giải quyết những vấn đề này. Với sự phát triển nhanh chóng của AI, việc thiết lập các quy tắc điều chỉnh toàn diện là rất khó khăn. Các quy định hiện tại, như ở EU, chủ yếu tập trung vào cách con người sử dụng AI, trong khi chính phủ Mỹ lại đang tìm cách giảm bớt quản lý trong lĩnh vực này.

Mặc dù việc kiểm soát con người là cần thiết, đặc biệt khi tin tặc đang lợi dụng AI để thực hiện các hành vi xấu, nhưng việc điều chỉnh chính AI cũng là điều tối quan trọng để kiểm soát mối đe dọa mà nó gây ra cho nhân loại.