OpenAI đã công bố mô hình ngôn ngữ mới nhất của mình, “o1”, chào hàng những tiến bộ trong khả năng suy luận phức tạp.
Trong thông báo, công ty khẳng định mẫu o1 mới của họ có thể sánh ngang với con người trong các bài kiểm tra toán, lập trình và kiến thức khoa học.
Tuy nhiên, tác động thực sự vẫn còn là suy đoán.
Những yêu cầu phi thường
Theo OpenAI, o1 có thể đạt điểm ở mức phần trăm thứ 89 trong các thử thách lập trình cạnh tranh do Codeforces tổ chức.
Công ty khẳng định mô hình của họ có thể đạt đến trình độ có thể giúp công ty lọt vào top 500 học sinh toàn quốc trong Kỳ thi Toán mời danh giá của Mỹ (AIME).
Hơn nữa, OpenAI tuyên bố rằng o1 vượt trội hơn thành tích trung bình của các chuyên gia về lĩnh vực này có bằng tiến sĩ trong kỳ thi chuẩn kết hợp vật lý, hóa học và sinh học.
Đây là những tuyên bố phi thường và điều quan trọng là phải duy trì sự hoài nghi cho đến khi chúng ta thấy được sự giám sát công khai và thử nghiệm thực tế.
Học tăng cường
Bước đột phá được cho là quy trình học tăng cường của o1, được thiết kế để dạy mô hình phân tích các vấn đề phức tạp bằng cách sử dụng phương pháp gọi là “chuỗi suy nghĩ”.
Bằng cách mô phỏng logic từng bước giống con người, sửa lỗi và điều chỉnh chiến lược trước khi đưa ra câu trả lời cuối cùng, OpenAI khẳng định rằng o1 đã phát triển các kỹ năng suy luận vượt trội so với các mô hình ngôn ngữ tiêu chuẩn.
Ý nghĩa
Không rõ lý luận mà o1 đưa ra có thể nâng cao khả năng hiểu các truy vấn hay tạo ra phản hồi trong các chủ đề toán học, lập trình, khoa học và các chủ đề kỹ thuật khác như thế nào.
Theo quan điểm SEO, bất kỳ điều gì cải thiện khả năng diễn giải nội dung và khả năng trả lời trực tiếp các truy vấn đều có thể có tác động. Tuy nhiên, nên thận trọng cho đến khi chúng ta thấy thử nghiệm khách quan của bên thứ ba.
OpenAI phải vượt ra ngoài việc chỉ trích chuẩn mực và cung cấp bằng chứng khách quan, có thể tái tạo để hỗ trợ cho các tuyên bố của mình. Việc thêm các khả năng của o1 vào ChatGPT trong các chương trình thí điểm thực tế đã lên kế hoạch sẽ giúp thể hiện các trường hợp sử dụng thực tế.
Hình ảnh nổi bật: JarTee/Shutterstock
Nguồn: Searchenginejournal