OpenAI o1-preview/mini: A Reasoning Model that Accelerates Complex Problem Solving

Hello, my name is Kakeya, the CEO of Scuti.
We specialize in offshore development and lab-based development with a focus on generative AI, as well as offering consulting services related to generative AI. Recently, we have been receiving many requests for system development integrated with generative AI.

On September 12, 2024, OpenAI announced the “OpenAI o1” series of AI models, which are equipped with advanced reasoning capabilities.

This AI model tackles complex problems using human-like thought processes, generating more refined and high-precision outputs. The first in the series, “o1-preview,” was released as an early access version, alongside a lightweight version called “o1-mini,” which has drawn significant attention from researchers and developers worldwide.

In this article, we will explain the technical details of OpenAI o1-preview/mini, compare it with previous models, discuss benchmark results, use cases, and safety considerations.

 

OpenAI o1-preview / mini: An AI Model that Dramatically Enhances Reasoning Abilities

What makes OpenAI o1 so remarkable?

Chain of Thought (CoT) Reasoning Like Humans: OpenAI o1 mimics the human process of solving complex problems using “Chain of Thought,” allowing it to analyze problems step by step and derive solutions.

Expert-Level Capabilities: OpenAI o1 demonstrates expert-level abilities in highly specialized fields such as mathematics, coding, and science.

Consideration for Safety and Ethics: OpenAI o1 is designed to comply with safety regulations and avoid generating harmful content. It also incorporates technologies to promote ethical behavior and eliminate bias.

 

OpenAI o1-preview: Solving Complex Problems with Reasoning Abilities that Surpass GPT-4o

OpenAI o1-preview uses a technique called “Chain of Thought” to process complex reasoning tasks in a multi-stage manner like a human, enabling advanced problem-solving capabilities.

o1-preview overcomes the challenges of complex reasoning that GPT-4o faced by employing human-like thinking processes, allowing it to tackle more sophisticated problems. It excels particularly in tasks requiring logical reasoning, strategic planning, and problem-solving.

o1-preview is not the next version of GPT-4o, but a new language model.

At present, o1-preview does not have some features, such as web search or file upload, like ChatGPT. Therefore, in general cases, GPT-4o might still be superior. However, in complex reasoning tasks, o1-preview elevates the potential of AI to a new level and is expected to be a key milestone in future AI development.

 

OpenAI o1-mini: Specializing in STEM Reasoning with a Focus on Speed and Cost Efficiency

OpenAI o1-mini is a lightweight version of o1-preview that maintains its reasoning capabilities while dramatically improving processing speed and cost efficiency. Compared to o1-preview, o1-mini operates 3 to 5 times faster, and its usage cost is 80% cheaper.

o1-mini is specifically trained in STEM fields (Science, Technology, Engineering, and Mathematics), particularly excelling in reasoning tasks related to mathematics and coding. Like o1-preview, o1-mini also uses “Chain of Thought” reasoning to solve complex problems step by step, similar to human processes.

o1-mini may not perform as well in tasks that require extensive general knowledge compared to o1-preview or GPT-4o. This is because o1-mini is specialized in STEM fields and has less exposure to general knowledge compared to o1-preview. However, for applications that require high-precision reasoning with limited resources, o1-mini is a powerful and attractive option.

 

Benchmark Results of OpenAI o1 

OpenAI o1-preview/mini has outperformed previous AI models in various benchmarks, elevating AI reasoning capabilities to a new level.

The following graph, published by OpenAI, compares o1’s performance in mathematics, programming, and PhD-level science with GPT-4o, showing that o1’s scores are overwhelmingly superior to those of GPT-4o.

Source: https://openai.com/index/learning-to-reason-with-llms/

 

Mathematics: Achieved a Score at the Top 500 Level in the United States on AIME

In the American Invitational Mathematics Examination (AIME), which measures high school students’ mathematical abilities, o1 solved 74.4% of problems (11.1 out of 15) in a single sample, 83.3% (12.5 out of 15) in consensus across 64 samples, and 93% (13.9 out of 15) when re-ranking 1000 samples using a learned scoring function.

This score ranks at the top 500 level nationwide in the United States, high enough to qualify for the selection process for the International Mathematical Olympiad (IMO).

Source:https://openai.com/index/learning-to-reason-with-llms/ モデルの学習時間共にAIMEのスコアが伸びていることがわかります

 

Coding: Ranked in the Top 89% on Codeforces, Achieved High Precision on HumanEval

OpenAI developed a model based on OpenAI o1 that enhances programming capabilities, and it was pitted against humans under the same conditions in the International Olympiad in Informatics (IOI). The result was a score of 213, ranking in the top 49%. This score is about 60 points higher than a random submission strategy.

When the submission limit was relaxed, the model scored 362.14, surpassing the gold medal standard. Additionally, in Codeforces’ simulation evaluation, the o1-based model achieved an Elo rating of 1807, outperforming 93% of programmers.

Regarding o1-mini, it achieved an Elo rating of 1650 on Codeforces, comparable to o1 (1673 Elo) and surpassing o1-preview (1258 Elo). This score corresponds to the top 86% of programmers on Codeforces. Furthermore, o1-mini demonstrated excellent performance in coding benchmarks like HumanEval and high school-level cybersecurity competitions like CTF.

These results suggest that o1-preview/mini has advanced coding capabilities, reaching a level where they can compete with human programmers. By automating various coding tasks such as code generation, code review, and bug fixing, o1-preview/mini is expected to significantly contribute to the efficiency of software development.

Source:https://openai.com/index/learning-to-reason-with-llms/

 

Science: Achieved Accuracy Surpassing Human Experts in GPQA Diamond

In the scientific question-answering benchmark “GPQA Diamond,” o1 achieved accuracy surpassing human experts, shocking the world. This marks the first instance where an AI model has outperformed human experts in a scientific field requiring advanced expertise.

o1-preview also achieved a 73.3% accuracy rate in GPQA Diamond, while o1-mini scored 60.0%, both far exceeding GPT-4o’s 50.6%.

o1-preview/mini is expected to contribute significantly to the advancement of science and technology by assisting in tasks such as reading scientific papers, analyzing experimental data, and developing new drugs.

Source:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

 

o1-mini Falls Short of GPT-4o in MMLU, Which Requires Broad General Knowledge

In the Multiple-Choice Question set “MMLU,” which covers 57 different fields, o1 achieved an accuracy rate of 92.3%, and o1-preview scored 90.8%, both outperforming GPT-4o’s 88.7%. However, o1-mini scored 85.2%, which is lower than GPT-4o.

This is likely because o1-mini is specialized in STEM fields and does not perform as well as GPT-4o in tasks like MMLU, which require broad general knowledge.

Source:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

 

Human Evaluation: o1-preview/mini Superior in Reasoning-Focused Fields

OpenAI has also conducted human evaluation experiments. In these experiments, evaluators compared the answers of o1-preview/mini and GPT-4o to determine which provided better responses.

As a result, in reasoning-focused fields such as data analysis, coding, and mathematics, o1-preview/mini’s answers were rated as superior to those of GPT-4o.

However, in language-focused fields such as text generation and translation, GPT-4o’s answers were rated higher. This is likely because o1-preview/mini is specialized in STEM fields, and therefore does not perform as well as GPT-4o in language generation tasks.

The graph below shows the percentage of responses rated as “better than GPT-4o.” A score of 50% indicates that the evaluation found little difference between the two, while a score above 50% means o1 was rated better than GPT-4o.

The three graphs on the right (programming, data analysis, and calculations) show higher ratings for o1 compared to GPT-4o.

Source:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

Use Cases

​OpenAI o1-preview/mini, with its advanced reasoning abilities, has the potential to assist in solving problems across various fields and extend human capabilities.

Programming: A Powerful Tool to Accelerate Software Development

o1-preview/mini is expected to significantly contribute to the efficiency of software development with its advanced coding abilities. By automating various coding tasks such as code generation, code review, and bug fixing, developers can focus on more creative work.

In this video, o1-preview is used to implement a snake game in HTML, JS, and CSS. Next, the user instructs it to add obstacles in the shape of the letters “AI” to make the game more challenging. o1-preview modifies the code as instructed and creates a snake game with “AI”-shaped obstacles on the screen.

 

In another video, a user, who lacked the skills to write code meeting complex requirements, explains how they used o1-preview to generate the necessary code textually for creating a tool to visually explain the Self-Attention mechanism in a Transformer class.

o1-preview/mini is also expected to be a useful learning support tool for beginner programmers. It not only explains how to write and debug code clearly but also provides an interactive learning environment for understanding fundamental programming concepts.

 

Scientific Research: AI Research Assistant to Accelerate the Advancement of Science and Technology

o1-preview/mini has the potential to accelerate the advancement of science and technology by assisting in various scientific research tasks such as reading scientific papers, analyzing experimental data, and developing new drugs.

For example, o1-preview/mini can automatically analyze vast amounts of scientific papers and extract key information. It can also analyze experimental data and construct statistical models to verify hypotheses. Additionally, o1-preview/mini can design potential drug compounds and predict their efficacy.

In the following video, geneticist Katherine Brownstein explains how o1-preview is useful in genetic research on rare diseases.

Previously, researchers had to manually examine each paper, but with o1-preview, they can quickly summarize the necessary information and easily obtain data on gene expression sites and functions.

 

Mathematics: Solving Complex Mathematical Problems and Supporting the Discovery of New Mathematical Theories

o1-preview/mini can design algorithms to solve complex mathematical problems, simplify and transform mathematical expressions, and model real-world phenomena mathematically.

In the following video, o1-preview is tasked with solving a complex riddle related to age.

The problem is as follows: “The age of the princess is the same as the age of the prince when he is twice the age of the princess. The age of the prince is twice what it was when the princess’s age was half the current total of their ages.” This is a problem that is difficult for even humans to understand and solve immediately.

o1-preview analyzed the problem using the Chain of Thought method, set variables, organized the conditions into equations, and finally arrived at the correct solution: “The princess’s age is 6k, and the prince’s age is 8k (where k is an arbitrary natural number).”

 

Other Applications: Education, Finance, Law, and More

In addition to the fields mentioned above, o1-preview/mini can be applied to a wide range of fields such as education, finance, and law, for complex tasks that require human thought processes.

  • Education: o1-preview/mini can provide individually optimized learning materials and instruction tailored to each student’s learning progress and comprehension level.
  • Finance: o1-preview/mini can analyze vast amounts of financial data, predict market trends, and develop investment strategies.
  • Law: o1-preview/mini can assist with the interpretation of legal documents and case law research, contributing to the efficiency of legal professionals.

 

Development with a Focus on Safety and Ethics

OpenAI has emphasized safety and ethics in the development of o1-preview/mini. The model is designed to avoid generating harmful content, engaging in unethical behavior, and violating privacy.

  • Specific Safety Measures: Refusal of harmful prompts, elimination of bias, and ethical behavior. o1-preview/mini learns reasoning methods within the context of safety regulations, enabling more effective application of these rules. For example, if a user provides a prompt that encourages illegal activity, o1-preview/mini recognizes within the Chain of Thought process that the prompt violates safety regulations and rejects it.

Additionally, o1-preview/mini adopts various bias-reduction techniques to eliminate biases present in the training data. Furthermore, the model is designed to act in accordance with ethical guidelines, ensuring it avoids engaging in unethical behaviors.

Rigorous Safety Evaluation: Jailbreak Test, Bias Detection Test, and Ethics Evaluation Test

OpenAI has conducted various safety tests to evaluate the safety of o1-preview/mini. These tests include the “Jailbreak Test” to check whether the model adheres to safety regulations, the “Bias Detection Test” to see if the model generates biased information, and the “Ethics Evaluation Test” to determine if the model engages in unethical behavior.

 

Comparing GPT-4o and o1

So far, we have discussed OpenAI o1-preview/mini at length, but it seems that GPT-4o is better for text generation, while o1-mini might be superior for program generation. Let’s compare their outputs using two themes.

Japanese Traditional Comedy “Oogiri”

To compare text generation abilities, the following prompt was input, and the outputs were compared:

Perform the traditional Japanese entertainment ‘Oogiri’ and make me burst into laughter.
Theme: What surprising things can the latest AI do?
Please provide 10 responses.

GPT-4o output

 

o1-mini output

As with the previous competition between GPT-4o and Claude 3.5 Sonnet, it seems that GPT has no sense of humor. The output from o1-mini didn’t really resemble traditional Oogiri, so GPT-4o might still be the better option here…

However, o1-mini started the Chain of Thought process even with this kind of prompt, giving it a surreal but different type of humor.

 

Original Game Implementation

Next, let’s test o1-mini in its strong suit: programming. The following prompt was entered:

Please deploy the game in accordance with the ## Conditions below.
## Conditions
– Implement a game that runs solely in a browser.
– Use “Puyo Puyo” as a motif but slightly change the rules and design to create a new game. No direct copying allowed.
– The game should be called “MofuMofu” and feature a Shiba Inu as the main character.
– Incorporate elements that give the user a “Fluffy feeling.”
– Design the background and falling objects.
– Consolidate all the code into a single file.

GPT-4o output

 

O1-mini output

This was an overwhelming victory for o1-mini!

First, the speed of the output was completely different. o1-mini felt about five times faster.

As for the quality, GPT-4o’s output wasn’t even functional as a game. On the other hand, although o1-mini’s game ended up being more like Tetris than Puyo Puyo, and there was a bug that prevented moving to the right at some point, the game was still operational and somewhat complete as a game.

It was disappointing that the “Fluffy feeling” wasn’t there at all, though.

In any case, I could feel that o1-mini’s programming capabilities were superior to GPT-4o!

OpenAI o1-preview/mini: Mô hình lý luận tăng tốc giải quyết vấn đề phức tạp

Xin chào, tôi là Kakeya, giám đốc của Scuti.
Công ty chúng tôi chuyên về phát triển offshore tại Việt Nam, phát triển dựa trên AI tạo sinh và cung cấp các dịch vụ tư vấn liên quan đến AI tạo sinh. Gần đây, chúng tôi rất vinh dự khi nhận được nhiều yêu cầu phát triển hệ thống tích hợp AI tạo sinh.

Vào ngày 12 tháng 9 năm 2024, công ty OpenAI đã công bố loạt mô hình AI “OpenAI o1” được trang bị khả năng lý luận tiên tiến.

Mô hình AI này giải quyết các vấn đề phức tạp bằng cách sử dụng quá trình tư duy giống con người, tạo ra các kết quả tinh tế và có độ chính xác cao hơn. Phiên bản đầu tiên, “o1-preview,” đã được phát hành dưới dạng phiên bản trải nghiệm sớm, cùng với một phiên bản nhẹ gọi là “o1-mini,” thu hút sự chú ý lớn từ các nhà nghiên cứu và nhà phát triển trên toàn thế giới.

Trong bài viết này, chúng tôi sẽ giải thích chi tiết kỹ thuật của OpenAI o1-preview/mini, so sánh với các mô hình trước đây, thảo luận kết quả benchmark, các trường hợp sử dụng và các cân nhắc về an toàn.

 

OpenAI o1-preview / mini: Mô hình AI nâng cao đáng kể khả năng lý luận

Điều gì làm cho OpenAI o1 đặc biệt đến vậy?

Chuỗi Suy Nghĩ (Chain of Thought) giống con người: OpenAI o1 bắt chước quá trình giải quyết vấn đề phức tạp của con người thông qua “Chuỗi Suy Nghĩ,” cho phép nó phân tích từng bước vấn đề và đưa ra giải pháp.

Khả năng ở cấp độ chuyên gia: OpenAI o1 thể hiện khả năng ở cấp độ chuyên gia trong các lĩnh vực chuyên môn cao như toán học, lập trình và khoa học.

Cân nhắc về An toàn và Đạo đức: OpenAI o1 được thiết kế để tuân thủ các quy định về an toàn và tránh tạo ra nội dung có hại. Nó cũng áp dụng các công nghệ để thúc đẩy hành vi đạo đức và loại bỏ thiên vị.

 

OpenAI o1-preview: Giải quyết các vấn đề phức tạp với khả năng lý luận vượt trội GPT-4o

OpenAI o1-preview sử dụng kỹ thuật được gọi là “Chuỗi Suy Nghĩ” để xử lý các nhiệm vụ lý luận phức tạp theo cách nhiều giai đoạn giống như con người, cho phép khả năng giải quyết vấn đề cao cấp.

o1-preview vượt qua những thách thức về khả năng lý luận phức tạp mà GPT-4o gặp phải bằng cách áp dụng các quy trình tư duy giống con người, cho phép giải quyết các vấn đề phức tạp hơn. Nó đặc biệt xuất sắc trong các nhiệm vụ đòi hỏi suy luận logic, lập kế hoạch chiến lược và giải quyết vấn đề.

o1-preview không phải là phiên bản tiếp theo của GPT-4o, mà là một mô hình ngôn ngữ mới.

Hiện tại, o1-preview không có một số tính năng như tìm kiếm web hoặc tải tệp lên, như ChatGPT. Vì vậy, trong các trường hợp thông thường, GPT-4o có thể vẫn tốt hơn. Tuy nhiên, trong các nhiệm vụ lý luận phức tạp, o1-preview nâng tầm tiềm năng của AI lên một cấp độ mới và được kỳ vọng sẽ trở thành một dấu mốc quan trọng trong phát triển AI trong tương lai.

 

OpenAI o1-mini: Chuyên môn về lý luận trong STEM, tập trung vào tốc độ và hiệu quả chi phí

OpenAI o1-mini là phiên bản nhẹ của o1-preview, giữ nguyên khả năng lý luận nhưng cải thiện đáng kể về tốc độ xử lý và hiệu quả chi phí. So với o1-preview, o1-mini hoạt động nhanh hơn 3 đến 5 lần và chi phí sử dụng rẻ hơn 80%.

o1-mini được đào tạo đặc biệt trong các lĩnh vực STEM (Khoa học, Công nghệ, Kỹ thuật và Toán học), đặc biệt xuất sắc trong các nhiệm vụ lý luận liên quan đến toán học và lập trình. Giống như o1-preview, o1-mini cũng sử dụng “Chuỗi Suy Nghĩ” để giải quyết các vấn đề phức tạp một cách từng bước, tương tự như quy trình của con người.

o1-mini có thể không hoạt động tốt trong các nhiệm vụ yêu cầu kiến thức chung rộng lớn so với o1-preview hoặc GPT-4o. Điều này là do o1-mini được chuyên môn hóa trong các lĩnh vực STEM và có ít kinh nghiệm về kiến thức chung so với o1-preview. Tuy nhiên, đối với các ứng dụng yêu cầu khả năng lý luận chính xác cao với nguồn lực hạn chế, o1-mini là một lựa chọn mạnh mẽ và hấp dẫn.

 

Kết quả đánh giá Benchmark của OpenAI o1 

OpenAI o1-preview/mini đã vượt trội so với các mô hình AI trước đây trong các bài kiểm tra benchmark khác nhau, nâng cao khả năng lý luận của AI lên một cấp độ mới.

Biểu đồ sau, được công bố bởi OpenAI, so sánh hiệu suất của o1 trong các lĩnh vực toán học, lập trình và khoa học cấp độ Tiến sĩ với GPT-4o, cho thấy điểm số của o1 vượt trội hơn rất nhiều so với GPT-4o.

Nguồn: https://openai.com/index/learning-to-reason-with-llms/

 

Toán học: Đạt điểm số ở mức Top 500 toàn quốc trên AIME

Trong kỳ thi AIME (American Invitational Mathematics Examination) đo lường khả năng toán học của học sinh trung học, o1 đã giải quyết được 74.4% (11.1 trong 15 câu hỏi) ở một mẫu đơn, 83.3% (12.5 trong 15 câu hỏi) trên 64 mẫu đồng thuận và đạt 93% (13.9 trong 15 câu hỏi) khi xếp hạng lại 1000 mẫu bằng cách sử dụng hàm chấm điểm đã học.

Điểm số này đạt mức Top 500 toàn quốc tại Hoa Kỳ, đủ để đủ điều kiện tham gia quá trình tuyển chọn cho Olympic Toán học Quốc tế (IMO).

Nguồn:https://openai.com/index/learning-to-reason-with-llms/ モデルの学習時間共にAIMEのスコアが伸びていることがわかります

 

Lập trình: Xếp hạng trong Top 89% trên Codeforces, đạt độ chính xác cao trên HumanEval

OpenAI đã phát triển một mô hình dựa trên OpenAI o1 để tăng cường khả năng lập trình và nó đã được so tài với con người trong cùng điều kiện tại Olympic Tin học Quốc tế (IOI). Kết quả là mô hình đạt được 213 điểm, xếp hạng trong Top 49%. Điểm này cao hơn khoảng 60 điểm so với chiến lược nộp bài ngẫu nhiên.

Khi nới lỏng giới hạn số lần nộp bài, mô hình đã đạt được 362.14 điểm, vượt qua tiêu chuẩn huy chương vàng. Ngoài ra, trong đánh giá mô phỏng của Codeforces, mô hình dựa trên o1 đạt Elo 1807, vượt qua 93% lập trình viên.

Về o1-mini, nó đã đạt Elo 1650 trên Codeforces, tương đương với o1 (1673 Elo) và vượt qua o1-preview (1258 Elo). Điểm số này tương đương với Top 86% lập trình viên trên Codeforces. Hơn nữa, o1-mini đã thể hiện hiệu suất xuất sắc trong các bài kiểm tra lập trình như HumanEval và các cuộc thi an ninh mạng cấp trung học như CTF.

Những kết quả này cho thấy o1-preview/mini có khả năng lập trình nâng cao, đạt đến mức có thể cạnh tranh với lập trình viên con người. Bằng cách tự động hóa các tác vụ lập trình khác nhau như tạo mã, đánh giá mã và sửa lỗi, o1-preview/mini được kỳ vọng sẽ đóng góp đáng kể vào việc tăng hiệu suất phát triển phần mềm.

Nguồn:https://openai.com/index/learning-to-reason-with-llms/

 

Khoa học: Đạt độ chính xác vượt qua chuyên gia con người trên GPQA Diamond

Trong bài kiểm tra hỏi đáp khoa học “GPQA Diamond”, o1 đã đạt độ chính xác vượt qua các chuyên gia con người, gây chấn động thế giới. Đây là lần đầu tiên một mô hình AI vượt qua các chuyên gia con người trong một lĩnh vực khoa học đòi hỏi kiến thức chuyên sâu.

o1-preview cũng đạt tỷ lệ chính xác 73.3% trên GPQA Diamond, trong khi o1-mini đạt 60.0%, cả hai đều vượt xa GPT-4o với 50.6%.

o1-preview/mini được kỳ vọng sẽ đóng góp đáng kể vào sự phát triển của khoa học và công nghệ bằng cách hỗ trợ các nhiệm vụ như đọc hiểu tài liệu khoa học, phân tích dữ liệu thí nghiệm, và phát triển thuốc mới.

Nguồn:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

 

o1-mini thua kém GPT-4o trong MMLU, đòi hỏi kiến thức tổng quát rộng

Trong bộ câu hỏi trắc nghiệm MMLU bao gồm 57 lĩnh vực khác nhau, o1 đạt tỷ lệ chính xác 92.3%, và o1-preview đạt 90.8%, cả hai đều vượt qua GPT-4o với 88.7%. Tuy nhiên, o1-mini đạt 85.2%, thấp hơn GPT-4o.

Điều này có thể là do o1-mini chuyên về các lĩnh vực STEM và không thể hiện tốt như GPT-4o trong các nhiệm vụ như MMLU, đòi hỏi kiến thức tổng quát rộng.

Nguồn:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

 

Đánh giá của con người: o1-preview/mini vượt trội trong các lĩnh vực tập trung vào lý luận

OpenAI cũng đã thực hiện các thí nghiệm đánh giá bởi con người. Trong các thí nghiệm này, người đánh giá so sánh các câu trả lời của o1-preview/mini và GPT-4o để xác định câu trả lời nào tốt hơn.

Kết quả cho thấy trong các lĩnh vực tập trung vào lý luận như phân tích dữ liệu, lập trình và toán học, câu trả lời của o1-preview/mini được đánh giá cao hơn so với GPT-4o.

Tuy nhiên, trong các lĩnh vực tập trung vào ngôn ngữ như tạo văn bản và dịch thuật, câu trả lời của GPT-4o được đánh giá cao hơn. Điều này có thể là do o1-preview/mini chuyên về các lĩnh vực STEM và do đó không thể hiện tốt bằng GPT-4o trong các nhiệm vụ tạo ngôn ngữ.

Biểu đồ dưới đây cho thấy tỷ lệ phần trăm các phản hồi được đánh giá là “tốt hơn GPT-4o.” Điểm 50% cho thấy sự đánh giá không có nhiều khác biệt giữa hai mô hình, trong khi điểm trên 50% có nghĩa là o1 được đánh giá tốt hơn GPT-4o.

Ba biểu đồ bên phải (lập trình, phân tích dữ liệu và tính toán) cho thấy đánh giá tốt hơn cho o1 so với GPT-4o.

Nguồn:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

Các trường hợp sử dụng

OpenAI o1-preview/mini, với khả năng lý luận tiên tiến, có tiềm năng hỗ trợ giải quyết các vấn đề trong nhiều lĩnh vực khác nhau và mở rộng khả năng của con người.

Lập trình: Một công cụ mạnh mẽ để tăng tốc phát triển phần mềm

o1-preview/mini được kỳ vọng sẽ đóng góp đáng kể vào việc tăng hiệu quả phát triển phần mềm với khả năng lập trình tiên tiến. Bằng cách tự động hóa các tác vụ lập trình khác nhau như tạo mã, đánh giá mã và sửa lỗi, các nhà phát triển có thể tập trung vào những công việc sáng tạo hơn.

Trong video này, o1-preview được sử dụng để triển khai trò chơi rắn trong HTML, JS và CSS. Tiếp theo, người dùng yêu cầu thêm các chướng ngại vật có hình dạng chữ “AI” để làm cho trò chơi khó hơn. o1-preview đã sửa đổi mã theo chỉ dẫn và tạo ra một trò chơi rắn với các chướng ngại vật hình chữ “AI” trên màn hình.

Trong một video khác, một người dùng thiếu kỹ năng viết mã đáp ứng các yêu cầu phức tạp đã giải thích cách họ sử dụng o1-preview để tạo mã cần thiết dưới dạng văn bản nhằm tạo ra một công cụ giải thích trực quan về cơ chế Self-Attention trong một lớp Transformer.

o1-preview/mini cũng được kỳ vọng là một công cụ hỗ trợ học tập hữu ích cho các lập trình viên mới bắt đầu. Nó không chỉ giải thích cách viết và gỡ lỗi mã rõ ràng mà còn cung cấp môi trường học tập tương tác để hiểu các khái niệm lập trình cơ bản.

 

Nghiên cứu khoa học: Trợ lý nghiên cứu AI để tăng tốc phát triển khoa học và công nghệ

o1-preview/mini có khả năng đẩy nhanh sự phát triển của khoa học và công nghệ bằng cách hỗ trợ các nhiệm vụ nghiên cứu khoa học khác nhau như đọc tài liệu khoa học, phân tích dữ liệu thí nghiệm và phát triển thuốc mới.

Ví dụ, o1-preview/mini có thể tự động phân tích một lượng lớn tài liệu khoa học và trích xuất thông tin quan trọng. Nó cũng có thể phân tích dữ liệu thí nghiệm và xây dựng các mô hình thống kê để kiểm chứng giả thuyết. Ngoài ra, o1-preview/mini có thể thiết kế các hợp chất thuốc tiềm năng và dự đoán hiệu quả của chúng.

Trong video dưới đây, nhà di truyền học Katherine Brownstein giải thích cách o1-preview hỗ trợ nghiên cứu di truyền về các bệnh hiếm gặp.

Trước đây, các nhà nghiên cứu phải kiểm tra từng tài liệu một cách thủ công, nhưng với o1-preview, họ có thể nhanh chóng tóm tắt thông tin cần thiết và dễ dàng lấy được dữ liệu về các vị trí biểu hiện gene và chức năng.

 

Toán học: Giải quyết các vấn đề toán học phức tạp và hỗ trợ khám phá lý thuyết toán học mới

o1-preview/mini có thể thiết kế các thuật toán để giải quyết các vấn đề toán học phức tạp, đơn giản hóa và biến đổi các biểu thức toán học, và mô hình hóa các hiện tượng trong thế giới thực bằng toán học.

Trong video dưới đây, o1-preview được giao nhiệm vụ giải một câu đố phức tạp liên quan đến tuổi tác.

Vấn đề như sau: “Tuổi của công chúa bằng tuổi của hoàng tử khi anh ta gấp đôi tuổi của công chúa. Tuổi của hoàng tử gấp đôi so với khi tuổi của công chúa bằng một nửa tổng tuổi hiện tại của cả hai.” Đây là một bài toán khó mà ngay cả con người cũng khó có thể hiểu và giải ngay lập tức.

o1-preview đã phân tích vấn đề bằng cách sử dụng phương pháp Chuỗi Suy Nghĩ, đặt biến số, sắp xếp các điều kiện thành các phương trình và cuối cùng đưa ra câu trả lời đúng: “Tuổi của công chúa là 6k và tuổi của hoàng tử là 8k (k là một số tự nhiên bất kỳ).”

 

Các Ứng Dụng Khác: Giáo dục, Tài chính, Pháp lý và nhiều lĩnh vực khác

Ngoài các lĩnh vực đã đề cập, o1-preview/mini có thể được áp dụng trong nhiều lĩnh vực như giáo dục, tài chính và pháp lý cho các nhiệm vụ phức tạp cần quá trình tư duy của con người.

  • Giáo dục: o1-preview/mini có thể cung cấp tài liệu và hướng dẫn học tập được tối ưu hóa theo từng học sinh, phù hợp với tiến độ học tập và mức độ hiểu biết của họ.
  • Tài chính: o1-preview/mini có thể phân tích một lượng lớn dữ liệu tài chính, dự đoán xu hướng thị trường và phát triển chiến lược đầu tư.
  • Pháp lý: o1-preview/mini có thể hỗ trợ trong việc giải thích các tài liệu pháp lý và nghiên cứu án lệ, góp phần tăng cường hiệu suất cho các chuyên gia pháp lý.

 

Phát triển với trọng tâm vào An toàn và Đạo đức

OpenAI đã nhấn mạnh tầm quan trọng của an toàn và đạo đức trong việc phát triển o1-preview/mini. Mô hình này được thiết kế để tránh tạo ra nội dung có hại, thực hiện hành vi phi đạo đức và vi phạm quyền riêng tư.

  • Các Biện Pháp An Toàn Cụ Thể: Từ chối các lệnh có hại, loại bỏ thiên vị và hành xử có đạo đức. o1-preview/mini học các phương pháp suy luận trong bối cảnh các quy định an toàn, giúp áp dụng các quy tắc này hiệu quả hơn. Ví dụ, nếu người dùng cung cấp một lệnh khuyến khích hành vi phạm pháp, o1-preview/mini nhận ra điều này vi phạm các quy tắc an toàn và từ chối nó trong quá trình suy nghĩ.

Ngoài ra, o1-preview/mini áp dụng các kỹ thuật giảm thiên vị khác nhau để loại bỏ các thiên vị có trong dữ liệu huấn luyện. Hơn nữa, mô hình này được thiết kế để tuân thủ các hướng dẫn đạo đức, đảm bảo không thực hiện các hành vi phi đạo đức.

  • Đánh Giá An Toàn Nghiêm Ngặt: Kiểm Tra Jailbreak, Kiểm Tra Phát Hiện Thiên Vị, và Kiểm Tra Đánh Giá Đạo Đức

OpenAI đã thực hiện các bài kiểm tra an toàn khác nhau để đánh giá mức độ an toàn của o1-preview/mini. Các bài kiểm tra này bao gồm “Kiểm Tra Jailbreak” để kiểm tra xem mô hình có tuân thủ các quy định an toàn hay không, “Kiểm Tra Phát Hiện Thiên Vị” để xem liệu mô hình có tạo ra thông tin thiên vị hay không, và “Kiểm Tra Đánh Giá Đạo Đức” để xác định xem mô hình có tham gia vào các hành vi phi đạo đức hay không.

 

So sánh GPT-4o và o1

Cho đến nay, chúng tôi đã thảo luận chi tiết về OpenAI o1-preview/mini, nhưng có vẻ như GPT-4o tốt hơn cho việc tạo văn bản, trong khi o1-mini có thể vượt trội hơn trong việc tạo chương trình. Hãy so sánh kết quả của chúng dựa trên hai chủ đề.

“Oogiri” Hài Truyền Thống Nhật Bản

Để so sánh khả năng tạo văn bản, chúng tôi đã nhập vào lệnh sau và so sánh các đầu ra:

Hãy biểu diễn nghệ thuật hài truyền thống của Nhật Bản ‘Oogiri’ và làm tôi cười phá lên.
Chủ đề: AI hiện đại có thể làm được những điều ngạc nhiên nào?
Hãy đưa ra 10 câu trả lời.

Đầu ra từ GPT-4o

 

Đầu ra từ o1-mini

Giống như trong cuộc so tài giữa GPT-4o và Claude 3.5 Sonnet trước đây, có vẻ như GPT không có khiếu hài hước. Đầu ra từ o1-mini không thực sự giống với Oogiri truyền thống, vì vậy GPT-4o có thể vẫn tốt hơn trong trường hợp này…

Tuy nhiên, o1-mini đã bắt đầu quá trình Chuỗi Suy Nghĩ ngay cả với lệnh này, mang lại một loại hài hước khác lạ, có chút siêu thực.

 

Triển khai Trò chơi Gốc

Tiếp theo, hãy thử sức mạnh lập trình của o1-mini. Lệnh sau đã được nhập:

Tạo trò chơi theo đúng các #Điều kiện bên dưới:
## Điều kiện:
– Triển khai một trò chơi chỉ chạy trên trình duyệt.
– Sử dụng “Puyo Puyo” làm chủ đề nhưng thay đổi nhẹ các quy tắc và thiết kế để tạo ra một trò chơi mới. Không được sao chép trực tiếp.

– Trò chơi phải được gọi là “MofuMofu” và có nhân vật chính là một chú chó Shiba Inu.
– Kết hợp các yếu tố giúp người dùng cảm nhận được sự “mềm mại” (Fluffy feeling).
– Thiết kế nền và các vật rơi.
– Gộp toàn bộ mã vào một tệp duy nhất.

 

Đầu ra từ GPT-4o

 

Đầu ra từ o1-mini

Đây là chiến thắng áp đảo cho o1-mini!

Trước hết, tốc độ đầu ra hoàn toàn khác nhau. o1-mini cảm giác nhanh hơn khoảng 5 lần.

Về chất lượng, đầu ra của GPT-4o thậm chí không thể hoạt động, không thể gọi là một trò chơi. Mặt khác, mặc dù trò chơi của o1-mini giống Tetris hơn là Puyo Puyo, và có một lỗi khiến không thể di chuyển sang phải từ một thời điểm nào đó, nhưng trò chơi vẫn hoạt động và có thể coi là hoàn chỉnh ở mức cơ bản.

Thật tiếc là không có cảm giác “mềm mại” như mong đợi.

Dù sao, tôi có thể cảm nhận rằng khả năng lập trình của o1-mini cao hơn GPT-4o!