Bảng xếp hạng độ "thật thà" của những chatbot AI đình đám hiện nay

Thứ 7, 20/12/2025 06:50 GMT+7

Google thừa nhận các siêu AI nổi tiếng nhất hiện nay vẫn nói xạo tới 30%.

Chúng ta thường mặc định AI là "bách khoa toàn thư" biết tuốt. Tuy nhiên, một báo cáo mới nhất từ chính Google đã dội một gáo nước lạnh vào niềm tin này. Theo kết quả Google công bố dựa trên bộ công cụ đánh giá mới mang tên FACTS Benchmark Suite, kết quả cho thấy một thực tế 'khó nuốt' rằng các mô hình AI vẫn sai khoảng 30%, tức 1 trong mỗi 3 câu trả lời, ngay cả khi chúng diễn đạt với giọng điệu vô cùng tự tin và trôi chảy.

img

AI có tỷ lệ nói dối, bịa chuyện khá lớn.

Bảng xếp hạng "AI nào nói thật nhất?"

Trong bài kiểm tra khắc nghiệt nói trên, Google đã so găng 'gà nhà' với các đối thủ sừng sỏ nhất thị trường. Kết quả cụ thể như sau:

- Hạng 1: Gemini 3 Pro - Đạt 69% độ chính xác.

- Hạng 2: Gemini 2.5 Pro và ChatGPT-5 (OpenAI) - Đạt xấp xỉ 62%.

- Hạng 3: Grok 4 (xAI) - Đạt khoảng 54%.

- Hạng 4: Claude 4.5 Opus (Anthropic) - Đạt khoảng 51%.

Dù dẫn đầu, nhưng con số 69% của Gemini 3 Pro cho thấy vẫn còn một chặng đường rất dài để AI có thể trở thành một nguồn thông tin chuẩn xác tuyệt đối.

img

Bảng xếp hạng độ "thật thà" của các AI.

Bộ chuẩn FACTS không chỉ kiểm tra kiến thức thông thường mà còn đánh giá qua 4 tiêu chí gồm kiến thức tham số, kỹ năng tìm kiếm, khả năng bám sát tài liệu và hiểu biết đa phương thức.

Kết quả gây sốc nhất nằm ở phần đa phương thức (Multimodal). Khi được yêu cầu đọc các biểu đồ, sơ đồ hoặc phân tích hình ảnh, độ chính xác của hầu hết các mô hình đều tụt xuống dưới mức 50%. Điều này cực kỳ nguy hiểm trong môi trường doanh nghiệp, nơi một chatbot có thể tự tin đọc sai biểu đồ doanh thu hoặc trích xuất sai số liệu từ hợp đồng, dẫn đến những hậu quả tai hại.

Tại sao báo cáo này lại quan trọng? Bởi vì hầu hết các bài thử nghiệm AI trước đây chỉ quan tâm xem AI có làm được việc hay không, chứ không kiểm tra xem nó có nói đúng sự thật hay không.

Đối với các lĩnh vực đòi hỏi sự chính xác tuyệt đối như tài chính, y tế hay luật pháp, việc tin tưởng mù quáng vào AI là một rủi ro lớn. Kết luận của Google rất rõ ràng là AI đang tốt lên, nhưng chúng vẫn cần sự giám sát chặt chẽ của con người. Đừng bao giờ coi chatbot là nguồn chân lý duy nhất mà không có sự kiểm chứng.

Bạch Ngân - Yahoo Tech

Cảm ơn bạn đã quan tâm đến nội dung trên. Hãy tặng sao để tiếp thêm động lực cho tác giả có những bài viết hay hơn nữa.
Đã tặng: 0 star
Tặng sao cho tác giả
Hữu ích
5 star
Hấp dẫn
10 star
Đặc sắc
15 star
Tuyệt vời
20 star

Bạn cần đăng nhập để thực hiện chức năng này!

Bình luận không đăng nhập

Bạn không thể gửi bình luận liên tục. Xin hãy đợi
60 giây nữa.