OpenAI Bỏ Qua o2 và Ra Mắt Mô Hình “Suy Luận” o3 Mới

OpenAI Bỏ Qua o2 và Ra Mắt Mô Hình “Suy Luận” o3 Mới

Ngày cuối cùng của chuỗi sự kiện “12 Ngày Giáng Sinh” của OpenAI đã đến với sự ra mắt của o3, một mô hình “suy luận” chuỗi suy nghĩ mới mà công ty tuyên bố là tiên tiến nhất từ trước đến nay. Mô hình này hiện chưa được cung cấp cho người dùng phổ thông, nhưng các nhà nghiên cứu về an toàn có thể đăng ký xem trước bắt đầu từ hôm nay. OpenAI và các bên khác hy vọng rằng các mô hình suy luận sẽ góp phần giải quyết vấn đề nan giải về việc chatbot thường xuyên tạo ra các phản hồi sai lệch.

OpenAI đã chọn bỏ qua việc phát hành mô hình o2, một quyết định gây nhiều tò mò trong cộng đồng. Tuy không có thông báo chính thức lý giải sự vắng mặt của o2, nhưng nhiều người suy đoán rằng OpenAI có thể đã phát hiện ra những hạn chế nghiêm trọng về mặt an toàn hoặc hiệu suất trong quá trình phát triển, dẫn đến quyết định tập trung vào việc hoàn thiện o3.

Mô hình o3 được thiết kế để cải thiện đáng kể khả năng lập luận và suy luận của chatbot. Khả năng này là rất quan trọng để tạo ra các phản hồi chính xác, nhất quán và đáng tin cậy hơn. Việc tập trung vào khả năng suy luận phản ánh nỗ lực của OpenAI trong việc giải quyết vấn đề “ảo tưởng” (hallucination) – một hiện tượng phổ biến trong các mô hình ngôn ngữ lớn, nơi chatbot tạo ra thông tin sai lệch nhưng lại trình bày một cách tự tin.

Việc chỉ cho phép các nhà nghiên cứu an toàn tiếp cận trước khi phát hành rộng rãi cho thấy OpenAI đang ưu tiên việc đánh giá kỹ lưỡng các khía cạnh an toàn của o3. Đây là một bước tiến tích cực, cho thấy cam kết của công ty trong việc giảm thiểu rủi ro tiềm ẩn liên quan đến công nghệ AI mạnh mẽ. Quá trình đánh giá này sẽ giúp xác định và khắc phục bất kỳ lỗi hoặc lỗ hổng nào trước khi o3 được tung ra thị trường rộng rãi.

Sự ra mắt của o3 đánh dấu một bước tiến quan trọng trong cuộc đua phát triển các mô hình ngôn ngữ lớn có khả năng suy luận tốt hơn. Thành công của o3 sẽ có ý nghĩa to lớn đối với nhiều ứng dụng AI, từ hỗ trợ khách hàng đến nghiên cứu khoa học. Tuy nhiên, việc đảm bảo an toàn và giảm thiểu rủi ro vẫn là ưu tiên hàng đầu trong quá trình phát triển và triển khai công nghệ này.

#OpenAI #o3 #AI #SuyLuận #MôHìnhNgônNgữLớn #Chatbot #AnToànAI #12DaysofShipmas #CôngNghệAI #TríTuệNhânTạo

          The final day of OpenAI’s “12 Days of Shipmas” has arrived with the unveiling of o3, a new chain-of-thought “reasoning” model that the company claims is its most advanced yet. The model is not yet available for general use, but safety researchers can sign up for a preview starting today.</p> <p>OpenAI and others hope that reasoning models will go a long way toward solving the pernicious problem of chatbots frequently producing wrong answers. Chatbots fundamentally do not “think” like humans and different techniques are needed to try and create the best simulacrum of a human thought process.

When asked a question, reasoning models pause and consider related prompts that could help produce an accurate answer. For example, if you ask the o3 model, “can habaneros be grown in the Pacific Northwest,” the model might lay out a series of questions it will research to come to a conclusion, such as “where do habaneros typically grow,” “what are the ideal conditions for growing habaneros,” and “what type of climate does the Pacific Northwest have.” Anyone who has used chatbots knows you sometimes have to prompt a chatbot with additional follow-ups until it finally gets the right result. Reasoning models are supposed to do this additional work for you.

o3 is the successor to o1, OpenAI’s first chain-of-thought reasoning model. Reps said they decided to skip the “o2” naming convention “out of respect” for the British telecommunications company, but it certainly doesn’t hurt that it makes the product sound more advanced. The company says the new model comes with the ability to adjust its reasoning time. Users can choose low, medium, or high reasoning time; the greater the compute, the better o3 is supposed to perform. OpenAI says it will spend time “red-teaming” the new model with researchers to prevent it from producing potentially harmful responses (since again, it is not a human and does not know right versus wrong).

Reasoning is the buzzword of the day in the field of generative AI, as industry insiders believe it is the next unlock necessary to improve the performance of large language models. More compute eventually does not offer equivalent performance gains, so new techniques are needed. Google DeepMind recently unveiled its own reasoning model called Gemini Deep Research, which can take 5-10 minutes to generate a report that analyzes many sources across the web in order to come to its findings.

OpenAI is confident in o3, and offers impressive benchmarks—it says that in a Codeforcing testing, which measures coding ability, o3 got a score of 2727. For context, a score of 2400 would put an engineer in the 99th percentile of programmers. It gets a score of 96.7% on the 2024 American Invitational Mathematics Exam, missing just one question. We will have to see how the model holds up in real-world testing, and it is still generally not a good idea to rely too much on AI models for important work where accuracy is necessary. But optimists are confident that the problem of accuracy is being solved. Hopefully so, because as it stands, Google’s AI Overviews in search are still the subject of frequent social media ridicule.

AI model companies like OpenAI and Perplexity are in a race to become the next Google, collecting the world’s knowledge and helping users make sense of it all. They even have search products now that are meant to more directly replicate Google with access to real-time web results.

All of these players seem to leapfrog one another with every passing day, however. The feeling is somewhat reminiscent of the late ’90s when there were a myriad of search engines to choose from—Google, Yahoo, and AltaVista, Ask Jeeves, just to name a few, all hoovering up the internet’s data and presenting it just with a different UX. Most of them disappeared after one came along that was supremely better than the rest—Google.

OpenAI clearly has a strong lead right now with hundreds of millions of monthly active users and a partnership with Apple, but Google has received a lot of plaudits recently for advancements in its Gemini models. The Verge reports that the company is going to soon integrate Gemini more deeply into its search interface.

Xem chi tiết và đăng kýXem chi tiết và đăng kýXem chi tiết và đăng ký

Khám phá thêm từ Phụ Kiện Đỉnh

Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.

Khám phá thêm từ Phụ Kiện Đỉnh

Đăng ký ngay để tiếp tục đọc và truy cập kho lưu trữ đầy đủ.

Tiếp tục đọc