Công ty khởi nghiệp về trí tuệ nhân tạo vượt trội hơn Gemini 3 trong bài kiểm tra suy luận quan trọng.
Kể từ khi nó xuất hiện Gemini 3 Lần đầu tiên, anh ấy đã thành công giữ vững vị trí dẫn đầu. Bảng xếp hạng LMArenaĐây là danh sách xếp hạng tổng hợp dựa trên sự so sánh của hàng ngàn người dùng thực tế với các mẫu sản phẩm khác nhau. Trí tuệ nhân tạo Họ so tài trực tiếp với nhau trên nhiều nhiệm vụ khác nhau, và bình chọn cho câu trả lời tốt nhất. Nhưng khi nói đến việc đáp ứng các tiêu chí suy luận khó khăn nhất, có một ngôi sao mới nổi, và ngôi sao này đã vượt trội hơn cả Google—mà không cần tự huấn luyện mô hình của riêng mình.
Một công ty khởi nghiệp gồm sáu người có tên Poetiq cho biết họ đã đứng đầu trong cuộc thi Bộ dụng cụ xét nghiệm bán đặc biệt ARC-AGI-2Đây là một bài toán suy luận cực kỳ khó do nhà nghiên cứu trí tuệ nhân tạo François Chollet tạo ra. Hệ thống của công ty khởi nghiệp này đã đạt được 54%, vượt qua điểm số khoảng 45% mà Google đã công bố trước đó cho bài toán Gemini 3 Deep Think.

Để dễ hình dung hơn, chỉ sáu tháng trước, hầu hết các mô hình AI đều đạt dưới 5% trên tiêu chuẩn này. Việc vượt qua mốc 50% là điều mà các nhà nghiên cứu cho rằng sẽ mất nhiều năm mới đạt được.
Và điều đáng ngạc nhiên nhất: bước đột phá của Poetiq không dựa trên một mô hình tiên tiến hoàn toàn mới – mà là nhờ một cách thức tổ chức các mô hình hiện có thông minh hơn.
Poetiq đã đạt được thành tựu này như thế nào?

Thay vì xây dựng một bộ chuyển đổi khổng lồ từ đầu, Poetiq đã phát triển cái mà họ gọi là siêu hệ thống; về cơ bản là một bộ điều khiển AI giám sát, đánh giá và cải thiện đầu ra của bất kỳ mô hình nào bạn kết nối với nó. Đối với dự án ARC-AGI-2, nhóm đã sử dụng Gemini 3 Pro làm mô hình cơ sở.
Poetiq mô tả hệ thống này như một vòng lặp tối ưu hóa được kiểm soát chặt chẽ: Sáng tạo > Phê bình > Cải thiện > Kiểm tra.
Đây là điều làm nên sự đặc biệt của nó:
- Không cần đào tạo lại: Hệ thống tự động thích ứng với các mô hình mới chỉ trong vài giờ.
- Nó được xây dựng hoàn toàn dựa trên các mô hình ngôn ngữ lớn, có sẵn: Không có tùy chỉnh chỉnh sửa nào khả dụng.
- giá thấp hơn hoặc rẻ hơn: Theo các nguồn tin, Deep Think của Google có giá 77 đô la cho mỗi tác vụ; trong khi hệ thống của Poetiq có giá khoảng 30 đô la.
- Mã nguồn mở: Giải pháp này đã được công khai và có thể kiểm chứng.
- Tự kiểm tra: Hệ thống tự đánh giá các câu trả lời của mình trước khi trả về kết quả cuối cùng.
ى trang mạng Nhóm Poetiq cho biết phương pháp này hoạt động bằng cách trích xuất Plus từ sức mạnh suy luận của các mô hình ngôn ngữ lớn hiện có – chứ không phải bằng cách mở rộng quy mô tính toán một cách thô bạo.
Tại sao xét nghiệm ARC-AGI-2 lại quan trọng?

Trong khi hầu hết các bài kiểm tra tiêu chuẩn chỉ đo lường những kỹ năng hạn chế như lập trình hoặc toán học, ARC-AGI-2 được thiết kế để kiểm tra những điều sâu sắc hơn: nhận dạng mẫu, đo lường, suy luận trừu tượng và khả năng khái quát hóa mà con người học được từ thời thơ ấu.
Nó được thiết kế để gây khó khăn một cách có chủ đích và đặc biệt không thân thiện với các Mô hình Ngôn ngữ Lớn (LLM) hiện nay. Ngay cả nhiều mô hình tinh vi cũng thất bại thảm hại trong đó.
Vì lý do này, sự tăng vọt từ kết quả một chữ số lên 54% chỉ trong nửa năm là điều đáng ngạc nhiên. Điều này cho thấy sự tiến bộ trong các phương pháp suy luận, chứ không chỉ đơn thuần là quy mô của mô hình thô.
Tuy nhiên, kết quả của Poetiq chỉ áp dụng cụ thể cho nhóm thử nghiệm bán riêng tư, không hoàn toàn mở cửa cho công chúng. Trang web của công ty cho biết kết quả đã được tổ chức đánh giá chuẩn xác nhận — nhưng việc sao chép độc lập từ bên thứ ba vẫn đang chờ xử lý, điều này rất quan trọng đối với một bài kiểm tra chuẩn về tác động này.
Bước đột phá tiếp theo có thể không đến từ các mô hình lớn hơn, vì công trình của Poetiq đã làm nổi bật một xu hướng đang phát triển trong trí tuệ nhân tạo: tiến bộ không phải lúc nào cũng đòi hỏi hàng tỷ đô la cho cơ sở hạ tầng hoặc một phòng thí nghiệm nghiên cứu khổng lồ.
Nếu những hệ thống như vậy thành công trong việc vượt ra ngoài các thông số tiêu chuẩn để bao gồm lập kế hoạch, lập trình, nghiên cứu, hoặc thậm chí là ra quyết định trong thế giới thực, chúng có thể định hình lại cách phát triển trí tuệ nhân tạo. Thay vì chờ đợi siêu máy tính tiếp theo, các công ty có thể tập trung vào việc xây dựng trí tuệ tổng hợp giúp các mô hình hiện tại thông minh hơn, rẻ hơn và nhất quán hơn.
Phần kết luận
Poetiq đã phát hành một giải pháp mã nguồn mở cho ARC-AGI để các nhà nghiên cứu có thể kiểm tra, mở rộng hoặc thậm chí thách thức kết quả của nó. Tiêu chuẩn này chứa một bộ dữ liệu kiểm thử ẩn, và lịch sử cho thấy rằng kết quả có thể thay đổi sau khi một số lượng đáng kể người tiến hành đánh giá độc lập.
Nếu những con số của Poetiq được xác nhận, điều này có thể đánh dấu một bước ngoặt trong nghiên cứu suy luận AI. Một nhóm sáu người có thể vừa chứng minh rằng việc tổ chức mô hình có thể sánh ngang, hoặc thậm chí vượt trội, so với việc huấn luyện các mô hình lớn hơn nhiều. Poetiq vừa chứng minh rằng bạn không cần một phòng thí nghiệm khổng lồ để giành chiến thắng.
Bình luận được đóng lại.