Một nhóm nhà nghiên cứu tại Đại học Edinburgh đã kiểm tra một số mô hình ngôn ngữ lớn đa phương thức hàng đầu thị trường, nhằm đánh giá khả năng trả lời câu hỏi dựa trên hình ảnh đồng hồ và lịch.
Các hệ thống được thử nghiệm bao gồm Gemini 2.0 của Google DeepMind, Claude 3.5 Sonnet của Anthropic, Llama 3.2-11B-Vision-Instruct của Meta, Qwen2-VL7B-Instruct của Alibaba, MiniCPM-V-2.6 của ModelBest, cũng như GPT-4o và GPT-o1 của OpenAI.
Trong bài kiểm tra, các hình ảnh được sử dụng bao gồm nhiều loại đồng hồ khác nhau: một số có chữ số La Mã, một số có hoặc không có kim giây, mặt đồng hồ với các màu sắc khác nhau, v.v… Kết quả cuối cùng khiến chúng ta phải suy ngẫm.
Các hệ thống chỉ đọc giờ đúng chưa đến 25% số lần thử. Các mô hình AI gặp nhiều khó khăn với đồng hồ sử dụng chữ số La Mã và kim thiết kế cách điệu.

Các mô hình AI gặp phải trở ngại lớn khi xem giờ - Ảnh: Internet.
Việc loại bỏ kim giây đã không cải thiện hiệu suất của AI, khiến các nhà nghiên cứu cho rằng vấn đề nằm ở việc xác định vị trí kim đồng hồ và diễn giải góc mà kim tạo ra trên mặt đồng hồ.
Trong thử nghiệm sử dụng hình ảnh chụp lịch, các nhà nghiên cứu đã đặt ra các prompt như: " Ngày đầu năm mới rơi vào thứ mấy? " và " Ngày thứ 153 của năm là ngày nào? ". Ngay cả những mô hình AI tốt nhất cũng trả lời sai 20% số câu hỏi liên quan đến lịch.
Tỷ lệ thành công của các mô hình không tương đồng. Trogn đó, Gemini 2.0 đạt điểm cao nhất trong bài kiểm tra đồng hồ, trong khi GPT-o1 đạt độ chính xác 80% đối với các câu hỏi về lịch.
" Hầu hết mọi người có thể xem giờ và sử dụng lịch từ tấm bé. Phát hiện của chúng tôi cho thấy một khoảng cách đáng kể trong khả năng của AI khi thực hiện những kỹ năng khá cơ bản của con người ", trưởng nhóm nghiên cứu Rohit Saxena từ Trường Tin học của Đại học Edinburgh nói.
" Những hạn chế này cần được khắc phục nếu các hệ thống AI muốn được tích hợp thành công vào các ứng dụng thực tế yêu cầu tính chính xác về thời gian, chẳng hạn như lập lịch, tự động hóa và công nghệ hỗ trợ ", vị này cho hay.
Aryo Gema, một nhà nghiên cứu khác từ Trường Tin học của Đại học Edinburgh, nhận xét: " Nghiên cứu AI ngày nay thường tập trung vào các nhiệm vụ suy luận phức tạp, nhưng trớ trêu thay, nhiều hệ thống vẫn gặp khó khăn với những nhiệm vụ đơn giản và quen thuộc hàng ngày ".

Các mô hình AI vẫn chưa xem giờ và ngày tháng chính xác - Hình minh họa.
Các phát hiện trên được nêu rõ trong một bài nghiên cứu đã qua khâu bình duyệt, và sẽ được trình bày tại hội thảo Reasoning and Planning for Large Language Models (Lập luận và Lập kế hoạch cho Các Mô hình Ngôn ngữ Lớn) trong khuôn khổ Hội nghị Quốc tế lần thứ 13 về Learning Representations (ICLR), diễn ra tại Singapore vào ngày 28 tháng 4 tới đây. Hiện tại, kết quả nghiên cứu đã được đăng tải trên arXiv .
Đây không phải là nghiên cứu đầu tiên trong thời gian gần đây chỉ ra sai sót của các hệ thống AI. Trung tâm Báo chí Kỹ thuật số Tow đã nghiên cứu tám công cụ tìm kiếm AI và phát hiện chúng đưa ra thông tin không chính xác tới 60% trường hợp. Nghiêm trọng nhất là Grok-3, với tỷ lệ sai sót lên tới 94%.