OpenAI o1-preview/mini: Mô hình lý luận tăng tốc giải quyết vấn đề phức tạp

Xin chào, tôi là Kakeya, giám đốc của Scuti.
Công ty chúng tôi chuyên về phát triển offshore tại Việt Nam, phát triển dựa trên AI tạo sinh và cung cấp các dịch vụ tư vấn liên quan đến AI tạo sinh. Gần đây, chúng tôi rất vinh dự khi nhận được nhiều yêu cầu phát triển hệ thống tích hợp AI tạo sinh.

Vào ngày 12 tháng 9 năm 2024, công ty OpenAI đã công bố loạt mô hình AI “OpenAI o1” được trang bị khả năng lý luận tiên tiến.

Mô hình AI này giải quyết các vấn đề phức tạp bằng cách sử dụng quá trình tư duy giống con người, tạo ra các kết quả tinh tế và có độ chính xác cao hơn. Phiên bản đầu tiên, “o1-preview,” đã được phát hành dưới dạng phiên bản trải nghiệm sớm, cùng với một phiên bản nhẹ gọi là “o1-mini,” thu hút sự chú ý lớn từ các nhà nghiên cứu và nhà phát triển trên toàn thế giới.

Trong bài viết này, chúng tôi sẽ giải thích chi tiết kỹ thuật của OpenAI o1-preview/mini, so sánh với các mô hình trước đây, thảo luận kết quả benchmark, các trường hợp sử dụng và các cân nhắc về an toàn.

 

OpenAI o1-preview / mini: Mô hình AI nâng cao đáng kể khả năng lý luận

Điều gì làm cho OpenAI o1 đặc biệt đến vậy?

Chuỗi Suy Nghĩ (Chain of Thought) giống con người: OpenAI o1 bắt chước quá trình giải quyết vấn đề phức tạp của con người thông qua “Chuỗi Suy Nghĩ,” cho phép nó phân tích từng bước vấn đề và đưa ra giải pháp.

Khả năng ở cấp độ chuyên gia: OpenAI o1 thể hiện khả năng ở cấp độ chuyên gia trong các lĩnh vực chuyên môn cao như toán học, lập trình và khoa học.

Cân nhắc về An toàn và Đạo đức: OpenAI o1 được thiết kế để tuân thủ các quy định về an toàn và tránh tạo ra nội dung có hại. Nó cũng áp dụng các công nghệ để thúc đẩy hành vi đạo đức và loại bỏ thiên vị.

 

OpenAI o1-preview: Giải quyết các vấn đề phức tạp với khả năng lý luận vượt trội GPT-4o

OpenAI o1-preview sử dụng kỹ thuật được gọi là “Chuỗi Suy Nghĩ” để xử lý các nhiệm vụ lý luận phức tạp theo cách nhiều giai đoạn giống như con người, cho phép khả năng giải quyết vấn đề cao cấp.

o1-preview vượt qua những thách thức về khả năng lý luận phức tạp mà GPT-4o gặp phải bằng cách áp dụng các quy trình tư duy giống con người, cho phép giải quyết các vấn đề phức tạp hơn. Nó đặc biệt xuất sắc trong các nhiệm vụ đòi hỏi suy luận logic, lập kế hoạch chiến lược và giải quyết vấn đề.

o1-preview không phải là phiên bản tiếp theo của GPT-4o, mà là một mô hình ngôn ngữ mới.

Hiện tại, o1-preview không có một số tính năng như tìm kiếm web hoặc tải tệp lên, như ChatGPT. Vì vậy, trong các trường hợp thông thường, GPT-4o có thể vẫn tốt hơn. Tuy nhiên, trong các nhiệm vụ lý luận phức tạp, o1-preview nâng tầm tiềm năng của AI lên một cấp độ mới và được kỳ vọng sẽ trở thành một dấu mốc quan trọng trong phát triển AI trong tương lai.

 

OpenAI o1-mini: Chuyên môn về lý luận trong STEM, tập trung vào tốc độ và hiệu quả chi phí

OpenAI o1-mini là phiên bản nhẹ của o1-preview, giữ nguyên khả năng lý luận nhưng cải thiện đáng kể về tốc độ xử lý và hiệu quả chi phí. So với o1-preview, o1-mini hoạt động nhanh hơn 3 đến 5 lần và chi phí sử dụng rẻ hơn 80%.

o1-mini được đào tạo đặc biệt trong các lĩnh vực STEM (Khoa học, Công nghệ, Kỹ thuật và Toán học), đặc biệt xuất sắc trong các nhiệm vụ lý luận liên quan đến toán học và lập trình. Giống như o1-preview, o1-mini cũng sử dụng “Chuỗi Suy Nghĩ” để giải quyết các vấn đề phức tạp một cách từng bước, tương tự như quy trình của con người.

o1-mini có thể không hoạt động tốt trong các nhiệm vụ yêu cầu kiến thức chung rộng lớn so với o1-preview hoặc GPT-4o. Điều này là do o1-mini được chuyên môn hóa trong các lĩnh vực STEM và có ít kinh nghiệm về kiến thức chung so với o1-preview. Tuy nhiên, đối với các ứng dụng yêu cầu khả năng lý luận chính xác cao với nguồn lực hạn chế, o1-mini là một lựa chọn mạnh mẽ và hấp dẫn.

 

Kết quả đánh giá Benchmark của OpenAI o1 

OpenAI o1-preview/mini đã vượt trội so với các mô hình AI trước đây trong các bài kiểm tra benchmark khác nhau, nâng cao khả năng lý luận của AI lên một cấp độ mới.

Biểu đồ sau, được công bố bởi OpenAI, so sánh hiệu suất của o1 trong các lĩnh vực toán học, lập trình và khoa học cấp độ Tiến sĩ với GPT-4o, cho thấy điểm số của o1 vượt trội hơn rất nhiều so với GPT-4o.

Nguồn: https://openai.com/index/learning-to-reason-with-llms/

 

Toán học: Đạt điểm số ở mức Top 500 toàn quốc trên AIME

Trong kỳ thi AIME (American Invitational Mathematics Examination) đo lường khả năng toán học của học sinh trung học, o1 đã giải quyết được 74.4% (11.1 trong 15 câu hỏi) ở một mẫu đơn, 83.3% (12.5 trong 15 câu hỏi) trên 64 mẫu đồng thuận và đạt 93% (13.9 trong 15 câu hỏi) khi xếp hạng lại 1000 mẫu bằng cách sử dụng hàm chấm điểm đã học.

Điểm số này đạt mức Top 500 toàn quốc tại Hoa Kỳ, đủ để đủ điều kiện tham gia quá trình tuyển chọn cho Olympic Toán học Quốc tế (IMO).

Nguồn:https://openai.com/index/learning-to-reason-with-llms/ モデルの学習時間共にAIMEのスコアが伸びていることがわかります

 

Lập trình: Xếp hạng trong Top 89% trên Codeforces, đạt độ chính xác cao trên HumanEval

OpenAI đã phát triển một mô hình dựa trên OpenAI o1 để tăng cường khả năng lập trình và nó đã được so tài với con người trong cùng điều kiện tại Olympic Tin học Quốc tế (IOI). Kết quả là mô hình đạt được 213 điểm, xếp hạng trong Top 49%. Điểm này cao hơn khoảng 60 điểm so với chiến lược nộp bài ngẫu nhiên.

Khi nới lỏng giới hạn số lần nộp bài, mô hình đã đạt được 362.14 điểm, vượt qua tiêu chuẩn huy chương vàng. Ngoài ra, trong đánh giá mô phỏng của Codeforces, mô hình dựa trên o1 đạt Elo 1807, vượt qua 93% lập trình viên.

Về o1-mini, nó đã đạt Elo 1650 trên Codeforces, tương đương với o1 (1673 Elo) và vượt qua o1-preview (1258 Elo). Điểm số này tương đương với Top 86% lập trình viên trên Codeforces. Hơn nữa, o1-mini đã thể hiện hiệu suất xuất sắc trong các bài kiểm tra lập trình như HumanEval và các cuộc thi an ninh mạng cấp trung học như CTF.

Những kết quả này cho thấy o1-preview/mini có khả năng lập trình nâng cao, đạt đến mức có thể cạnh tranh với lập trình viên con người. Bằng cách tự động hóa các tác vụ lập trình khác nhau như tạo mã, đánh giá mã và sửa lỗi, o1-preview/mini được kỳ vọng sẽ đóng góp đáng kể vào việc tăng hiệu suất phát triển phần mềm.

Nguồn:https://openai.com/index/learning-to-reason-with-llms/

 

Khoa học: Đạt độ chính xác vượt qua chuyên gia con người trên GPQA Diamond

Trong bài kiểm tra hỏi đáp khoa học “GPQA Diamond”, o1 đã đạt độ chính xác vượt qua các chuyên gia con người, gây chấn động thế giới. Đây là lần đầu tiên một mô hình AI vượt qua các chuyên gia con người trong một lĩnh vực khoa học đòi hỏi kiến thức chuyên sâu.

o1-preview cũng đạt tỷ lệ chính xác 73.3% trên GPQA Diamond, trong khi o1-mini đạt 60.0%, cả hai đều vượt xa GPT-4o với 50.6%.

o1-preview/mini được kỳ vọng sẽ đóng góp đáng kể vào sự phát triển của khoa học và công nghệ bằng cách hỗ trợ các nhiệm vụ như đọc hiểu tài liệu khoa học, phân tích dữ liệu thí nghiệm, và phát triển thuốc mới.

Nguồn:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

 

o1-mini thua kém GPT-4o trong MMLU, đòi hỏi kiến thức tổng quát rộng

Trong bộ câu hỏi trắc nghiệm MMLU bao gồm 57 lĩnh vực khác nhau, o1 đạt tỷ lệ chính xác 92.3%, và o1-preview đạt 90.8%, cả hai đều vượt qua GPT-4o với 88.7%. Tuy nhiên, o1-mini đạt 85.2%, thấp hơn GPT-4o.

Điều này có thể là do o1-mini chuyên về các lĩnh vực STEM và không thể hiện tốt như GPT-4o trong các nhiệm vụ như MMLU, đòi hỏi kiến thức tổng quát rộng.

Nguồn:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

 

Đánh giá của con người: o1-preview/mini vượt trội trong các lĩnh vực tập trung vào lý luận

OpenAI cũng đã thực hiện các thí nghiệm đánh giá bởi con người. Trong các thí nghiệm này, người đánh giá so sánh các câu trả lời của o1-preview/mini và GPT-4o để xác định câu trả lời nào tốt hơn.

Kết quả cho thấy trong các lĩnh vực tập trung vào lý luận như phân tích dữ liệu, lập trình và toán học, câu trả lời của o1-preview/mini được đánh giá cao hơn so với GPT-4o.

Tuy nhiên, trong các lĩnh vực tập trung vào ngôn ngữ như tạo văn bản và dịch thuật, câu trả lời của GPT-4o được đánh giá cao hơn. Điều này có thể là do o1-preview/mini chuyên về các lĩnh vực STEM và do đó không thể hiện tốt bằng GPT-4o trong các nhiệm vụ tạo ngôn ngữ.

Biểu đồ dưới đây cho thấy tỷ lệ phần trăm các phản hồi được đánh giá là “tốt hơn GPT-4o.” Điểm 50% cho thấy sự đánh giá không có nhiều khác biệt giữa hai mô hình, trong khi điểm trên 50% có nghĩa là o1 được đánh giá tốt hơn GPT-4o.

Ba biểu đồ bên phải (lập trình, phân tích dữ liệu và tính toán) cho thấy đánh giá tốt hơn cho o1 so với GPT-4o.

Nguồn:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

Các trường hợp sử dụng

OpenAI o1-preview/mini, với khả năng lý luận tiên tiến, có tiềm năng hỗ trợ giải quyết các vấn đề trong nhiều lĩnh vực khác nhau và mở rộng khả năng của con người.

Lập trình: Một công cụ mạnh mẽ để tăng tốc phát triển phần mềm

o1-preview/mini được kỳ vọng sẽ đóng góp đáng kể vào việc tăng hiệu quả phát triển phần mềm với khả năng lập trình tiên tiến. Bằng cách tự động hóa các tác vụ lập trình khác nhau như tạo mã, đánh giá mã và sửa lỗi, các nhà phát triển có thể tập trung vào những công việc sáng tạo hơn.

Trong video này, o1-preview được sử dụng để triển khai trò chơi rắn trong HTML, JS và CSS. Tiếp theo, người dùng yêu cầu thêm các chướng ngại vật có hình dạng chữ “AI” để làm cho trò chơi khó hơn. o1-preview đã sửa đổi mã theo chỉ dẫn và tạo ra một trò chơi rắn với các chướng ngại vật hình chữ “AI” trên màn hình.

Trong một video khác, một người dùng thiếu kỹ năng viết mã đáp ứng các yêu cầu phức tạp đã giải thích cách họ sử dụng o1-preview để tạo mã cần thiết dưới dạng văn bản nhằm tạo ra một công cụ giải thích trực quan về cơ chế Self-Attention trong một lớp Transformer.

o1-preview/mini cũng được kỳ vọng là một công cụ hỗ trợ học tập hữu ích cho các lập trình viên mới bắt đầu. Nó không chỉ giải thích cách viết và gỡ lỗi mã rõ ràng mà còn cung cấp môi trường học tập tương tác để hiểu các khái niệm lập trình cơ bản.

 

Nghiên cứu khoa học: Trợ lý nghiên cứu AI để tăng tốc phát triển khoa học và công nghệ

o1-preview/mini có khả năng đẩy nhanh sự phát triển của khoa học và công nghệ bằng cách hỗ trợ các nhiệm vụ nghiên cứu khoa học khác nhau như đọc tài liệu khoa học, phân tích dữ liệu thí nghiệm và phát triển thuốc mới.

Ví dụ, o1-preview/mini có thể tự động phân tích một lượng lớn tài liệu khoa học và trích xuất thông tin quan trọng. Nó cũng có thể phân tích dữ liệu thí nghiệm và xây dựng các mô hình thống kê để kiểm chứng giả thuyết. Ngoài ra, o1-preview/mini có thể thiết kế các hợp chất thuốc tiềm năng và dự đoán hiệu quả của chúng.

Trong video dưới đây, nhà di truyền học Katherine Brownstein giải thích cách o1-preview hỗ trợ nghiên cứu di truyền về các bệnh hiếm gặp.

Trước đây, các nhà nghiên cứu phải kiểm tra từng tài liệu một cách thủ công, nhưng với o1-preview, họ có thể nhanh chóng tóm tắt thông tin cần thiết và dễ dàng lấy được dữ liệu về các vị trí biểu hiện gene và chức năng.

 

Toán học: Giải quyết các vấn đề toán học phức tạp và hỗ trợ khám phá lý thuyết toán học mới

o1-preview/mini có thể thiết kế các thuật toán để giải quyết các vấn đề toán học phức tạp, đơn giản hóa và biến đổi các biểu thức toán học, và mô hình hóa các hiện tượng trong thế giới thực bằng toán học.

Trong video dưới đây, o1-preview được giao nhiệm vụ giải một câu đố phức tạp liên quan đến tuổi tác.

Vấn đề như sau: “Tuổi của công chúa bằng tuổi của hoàng tử khi anh ta gấp đôi tuổi của công chúa. Tuổi của hoàng tử gấp đôi so với khi tuổi của công chúa bằng một nửa tổng tuổi hiện tại của cả hai.” Đây là một bài toán khó mà ngay cả con người cũng khó có thể hiểu và giải ngay lập tức.

o1-preview đã phân tích vấn đề bằng cách sử dụng phương pháp Chuỗi Suy Nghĩ, đặt biến số, sắp xếp các điều kiện thành các phương trình và cuối cùng đưa ra câu trả lời đúng: “Tuổi của công chúa là 6k và tuổi của hoàng tử là 8k (k là một số tự nhiên bất kỳ).”

 

Các Ứng Dụng Khác: Giáo dục, Tài chính, Pháp lý và nhiều lĩnh vực khác

Ngoài các lĩnh vực đã đề cập, o1-preview/mini có thể được áp dụng trong nhiều lĩnh vực như giáo dục, tài chính và pháp lý cho các nhiệm vụ phức tạp cần quá trình tư duy của con người.

  • Giáo dục: o1-preview/mini có thể cung cấp tài liệu và hướng dẫn học tập được tối ưu hóa theo từng học sinh, phù hợp với tiến độ học tập và mức độ hiểu biết của họ.
  • Tài chính: o1-preview/mini có thể phân tích một lượng lớn dữ liệu tài chính, dự đoán xu hướng thị trường và phát triển chiến lược đầu tư.
  • Pháp lý: o1-preview/mini có thể hỗ trợ trong việc giải thích các tài liệu pháp lý và nghiên cứu án lệ, góp phần tăng cường hiệu suất cho các chuyên gia pháp lý.

 

Phát triển với trọng tâm vào An toàn và Đạo đức

OpenAI đã nhấn mạnh tầm quan trọng của an toàn và đạo đức trong việc phát triển o1-preview/mini. Mô hình này được thiết kế để tránh tạo ra nội dung có hại, thực hiện hành vi phi đạo đức và vi phạm quyền riêng tư.

  • Các Biện Pháp An Toàn Cụ Thể: Từ chối các lệnh có hại, loại bỏ thiên vị và hành xử có đạo đức. o1-preview/mini học các phương pháp suy luận trong bối cảnh các quy định an toàn, giúp áp dụng các quy tắc này hiệu quả hơn. Ví dụ, nếu người dùng cung cấp một lệnh khuyến khích hành vi phạm pháp, o1-preview/mini nhận ra điều này vi phạm các quy tắc an toàn và từ chối nó trong quá trình suy nghĩ.

Ngoài ra, o1-preview/mini áp dụng các kỹ thuật giảm thiên vị khác nhau để loại bỏ các thiên vị có trong dữ liệu huấn luyện. Hơn nữa, mô hình này được thiết kế để tuân thủ các hướng dẫn đạo đức, đảm bảo không thực hiện các hành vi phi đạo đức.

  • Đánh Giá An Toàn Nghiêm Ngặt: Kiểm Tra Jailbreak, Kiểm Tra Phát Hiện Thiên Vị, và Kiểm Tra Đánh Giá Đạo Đức

OpenAI đã thực hiện các bài kiểm tra an toàn khác nhau để đánh giá mức độ an toàn của o1-preview/mini. Các bài kiểm tra này bao gồm “Kiểm Tra Jailbreak” để kiểm tra xem mô hình có tuân thủ các quy định an toàn hay không, “Kiểm Tra Phát Hiện Thiên Vị” để xem liệu mô hình có tạo ra thông tin thiên vị hay không, và “Kiểm Tra Đánh Giá Đạo Đức” để xác định xem mô hình có tham gia vào các hành vi phi đạo đức hay không.

 

So sánh GPT-4o và o1

Cho đến nay, chúng tôi đã thảo luận chi tiết về OpenAI o1-preview/mini, nhưng có vẻ như GPT-4o tốt hơn cho việc tạo văn bản, trong khi o1-mini có thể vượt trội hơn trong việc tạo chương trình. Hãy so sánh kết quả của chúng dựa trên hai chủ đề.

“Oogiri” Hài Truyền Thống Nhật Bản

Để so sánh khả năng tạo văn bản, chúng tôi đã nhập vào lệnh sau và so sánh các đầu ra:

Hãy biểu diễn nghệ thuật hài truyền thống của Nhật Bản ‘Oogiri’ và làm tôi cười phá lên.
Chủ đề: AI hiện đại có thể làm được những điều ngạc nhiên nào?
Hãy đưa ra 10 câu trả lời.

Đầu ra từ GPT-4o

 

Đầu ra từ o1-mini

Giống như trong cuộc so tài giữa GPT-4o và Claude 3.5 Sonnet trước đây, có vẻ như GPT không có khiếu hài hước. Đầu ra từ o1-mini không thực sự giống với Oogiri truyền thống, vì vậy GPT-4o có thể vẫn tốt hơn trong trường hợp này…

Tuy nhiên, o1-mini đã bắt đầu quá trình Chuỗi Suy Nghĩ ngay cả với lệnh này, mang lại một loại hài hước khác lạ, có chút siêu thực.

 

Triển khai Trò chơi Gốc

Tiếp theo, hãy thử sức mạnh lập trình của o1-mini. Lệnh sau đã được nhập:

Tạo trò chơi theo đúng các #Điều kiện bên dưới:
## Điều kiện:
– Triển khai một trò chơi chỉ chạy trên trình duyệt.
– Sử dụng “Puyo Puyo” làm chủ đề nhưng thay đổi nhẹ các quy tắc và thiết kế để tạo ra một trò chơi mới. Không được sao chép trực tiếp.

– Trò chơi phải được gọi là “MofuMofu” và có nhân vật chính là một chú chó Shiba Inu.
– Kết hợp các yếu tố giúp người dùng cảm nhận được sự “mềm mại” (Fluffy feeling).
– Thiết kế nền và các vật rơi.
– Gộp toàn bộ mã vào một tệp duy nhất.

 

Đầu ra từ GPT-4o

 

Đầu ra từ o1-mini

Đây là chiến thắng áp đảo cho o1-mini!

Trước hết, tốc độ đầu ra hoàn toàn khác nhau. o1-mini cảm giác nhanh hơn khoảng 5 lần.

Về chất lượng, đầu ra của GPT-4o thậm chí không thể hoạt động, không thể gọi là một trò chơi. Mặt khác, mặc dù trò chơi của o1-mini giống Tetris hơn là Puyo Puyo, và có một lỗi khiến không thể di chuyển sang phải từ một thời điểm nào đó, nhưng trò chơi vẫn hoạt động và có thể coi là hoàn chỉnh ở mức cơ bản.

Thật tiếc là không có cảm giác “mềm mại” như mong đợi.

Dù sao, tôi có thể cảm nhận rằng khả năng lập trình của o1-mini cao hơn GPT-4o!

Leave a Reply

Your email address will not be published. Required fields are marked *