Sau Pokémon, đến lượt trò chơi huyền thoại Super Mario Bros. trở thành "sân chơi" mới cho cuộc đua đánh giá năng lực AI. Các nhà nghiên cứu tại Đại học California San Diego (Mỹ) đã đưa các mô hình AI hàng đầu vào cuộc phiêu lưu vượt chướng ngại vật quen thuộc, và kết quả thực sự gây bất ngờ.
Trong thử nghiệm, AI được điều khiển nhân vật Mario thông qua framework GamingAgent, nhận các hướng dẫn cơ bản và ảnh chụp màn hình trò chơi. Nhiệm vụ của chúng là đưa ra các lệnh điều khiển Mario bằng mã Python. Kết quả, mô hình Claude 3.7 của Anthropic tỏ ra "nhanh tay lẹ mắt" nhất, theo sau là Claude 3.5. Google Gemini 1.5 Pro, và bất ngờ là GPT-4o của OpenAI lại vấp váp trước những chướng ngại vật trên đường.
Màn so găng khả năng chơi Mario giữa các mô hình AI đình đám nhất hiện nay.
Điều đáng chú ý là các mô hình AI "suy luận", vốn được đánh giá cao ở các bài kiểm tra khác, lại gặp khó khăn trong Super Mario Bros. Các nhà nghiên cứu lý giải rằng, việc mất vài giây để suy nghĩ và đưa ra quyết định hành động đã khiến chúng "chậm chân" trong trò chơi đòi hỏi phản xạ nhanh nhạy này.
Việc sử dụng game để đánh giá AI đã gây ra nhiều tranh cãi. Một số chuyên gia cho rằng, game quá đơn giản và trừu tượng so với thế giới thực, không thể phản ánh chính xác năng lực thực sự của AI.
Andrej Karpathy, thành viên sáng lập OpenAI, cũng bày tỏ sự hoài nghi về các phương pháp đánh giá AI hiện tại, gọi đây là "cuộc khủng hoảng đánh giá". Ông cho rằng, các chỉ số đo lường hiện nay chưa đủ để đánh giá toàn diện năng lực của các mô hình AI.
Dù vậy, việc chứng kiến AI "lóng ngóng" vượt qua các màn chơi Mario vẫn mang đến những góc nhìn thú vị về khả năng của chúng.