Context Engineering: Chìa khóa xây dựng AI Agent hiệu quả

Context Engineering là chiến lược quản lý toàn bộ thông tin (context) cho AI Agent, khác với Prompt Engineering. Tìm hiểu 3 kỹ thuật cốt lõi giúp Agent thông minh hơn và duy trì sự tập trung dài hạn.

Trong những năm đầu của kỷ nguyên AI tạo sinh, Prompt Engineering từng là kỹ năng được săn đón, giúp chúng ta tìm ra những từ ngữ và cấu trúc tốt nhất để khai thác sức mạnh của mô hình ngôn ngữ lớn (LLM). Tuy nhiên, khi chúng ta chuyển từ các tác vụ một lần (one-shot task) sang xây dựng các AI Agent (Tác nhân AI) có khả năng hoạt động tự chủ, thực hiện nhiều bước và ghi nhớ thông tin trong thời gian dài, một khái niệm mới đã nổi lên và trở nên quan trọng hơn: Context Engineering (Kỹ thuật Ngữ cảnh).
Bài viết này sẽ làm rõ Context Engineering là gì, nó khác biệt như thế nào so với Prompt Engineering và những chiến lược cốt lõi mà các kỹ sư AI tại Anthropic đang áp dụng để xây dựng các Agent thông minh và đáng tin cậy.

1. Context Engineering là gì?

Context (Ngữ cảnh) đề cập đến toàn bộ tập hợp các tokens được đưa vào khi lấy mẫu (sampling) từ một LLM. Nó là nguồn tài nguyên quan trọng, nhưng có giới hạn, cung cấp cho mô hình mọi thứ nó cần để đưa ra quyết định hoặc tạo ra đầu ra mong muốn.

Context Engineering (CE) là tập hợp các chiến lược nhằm quản lý và tối ưu hóa tiện ích của các tokens đó, chống lại các giới hạn cố hữu của LLM (như cửa sổ ngữ cảnh giới hạn), nhằm mục đích:

Tìm ra cấu hình ngữ cảnh nào có khả năng tạo ra hành vi mong muốn của mô hình nhất. Nói cách khác, CE không chỉ là về việc bạn viết gì trong prompt, mà là về việc bạn sắp xếp và duy trì toàn bộ trạng thái thông tin có sẵn cho LLM tại bất kỳ thời điểm nào.

2. Khác biệt cốt lõi giữa Context Engineering và Prompt Engineering

Anthropic xem Context Engineering là sự tiến hóa tự nhiên của Prompt Engineering.

| Tiêu chí | Prompt Engineering | Context Engineering |
| ————- | ——————————– | —————————————- |
| **Trọng tâm** | Viết hướng dẫn (prompt) hiệu quả | Quản lý toàn bộ ngữ cảnh của mô hình |
| **Phạm vi** | Một tác vụ đơn lẻ | Nhiều vòng tương tác, trạng thái dài hạn |
| **Cách làm** | Tối ưu từng câu | Tối ưu toàn bộ luồng thông tin |
| **Khi dùng** | Một câu hỏi – một câu trả lời | Agent tự hoạt động, tự học, tự nhớ |

Prompt Engineering đề cập đến các phương pháp viết và tổ chức hướng dẫn cho mô hình ngôn ngữ lớn (LLM) nhằm đạt được kết quả tối ưu (bạn có thể tham khảo thêm trong tài liệu hướng dẫn của chúng tôi về các chiến lược Prompt Engineering hiệu quả).

Trong khi đó, Context Engineering là tập hợp các chiến lược nhằm lựa chọn và duy trì tập hợp token (thông tin) tối ưu trong quá trình suy luận (inference) của LLM — bao gồm toàn bộ thông tin khác có thể được đưa vào ngữ cảnh, không chỉ riêng phần prompt.

Trong giai đoạn đầu của việc phát triển ứng dụng với LLM, prompting chiếm phần lớn công việc của kỹ sư AI, vì phần lớn các trường hợp sử dụng (ngoài trò chuyện thông thường) yêu cầu prompt được tối ưu cho các tác vụ một lần như phân loại hoặc sinh văn bản.

Đúng như tên gọi, trọng tâm chính của Prompt Engineering là cách viết prompt hiệu quả, đặc biệt là system prompt (hướng dẫn hệ thống).
Tuy nhiên, khi chúng ta tiến tới việc xây dựng các tác nhân AI (AI Agents) có khả năng mạnh mẽ hơn — hoạt động qua nhiều vòng suy luận (multi-turn inference) và thời gian dài hơn (long-horizon tasks) — chúng ta cần có các chiến lược để quản lý toàn bộ trạng thái ngữ cảnh, bao gồm:
– System instructions (hướng dẫn hệ thống)
– Tools (công cụ mà agent có thể gọi)
– Model Context Protocol (MCP)
– Dữ liệu bên ngoài
– Lịch sử tin nhắn

Một Agent hoạt động theo vòng lặp sẽ liên tục tạo ra ngày càng nhiều dữ liệu có thể liên quan đến các vòng suy luận tiếp theo. Những thông tin này phải được tinh lọc một cách tuần hoàn để giữ lại các phần quan trọng nhất.
Context Engineering chính là nghệ thuật và khoa học của việc chọn lọc những gì sẽ được đưa vào cửa sổ ngữ cảnh giới hạn từ “vũ trụ thông tin” liên tục mở rộng đó.

3. Các yếu tố cốt lõi cần chú ý khi phát triển AI Agent
Nguyên tắc vàng của Context Engineering là: Tìm tập hợp tokens có tín hiệu cao (high-signal tokens) nhỏ nhất để tối đa hóa xác suất đạt được kết quả mong muốn.

3.1. Coi Context là Tài nguyên Hữu hạn
Các nghiên cứu cho thấy, giống như con người có giới hạn bộ nhớ làm việc (working memory), LLM cũng có một “ngân sách chú ý” (Attention Budget) và gặp hiện tượng Context Rot (khả năng nhớ lại thông tin giảm khi số lượng tokens tăng lên).

Do đó, các kỹ sư cần:
– Tối giản hóa: Chỉ đưa vào thông tin thực sự cần thiết.
– Tinh gọn Tools: Thiết kế các công cụ (Tools) không bị chồng chéo chức năng, rõ ràng và tạo thành một bộ tối thiểu để tránh gây mơ hồ cho Agent khi ra quyết định.
Sử dụng ví dụ (Few-shot) chọn lọc: Thay vì nhồi nhét một danh sách dài các trường hợp biên, hãy chọn lọc các ví dụ điển hình, đa dạng (canonical examples) để minh họa hành vi mong đợi.

3.2. Tối ưu Hướng dẫn Hệ thống (System Prompts)
Prompt ban đầu là một phần không thể thiếu của ngữ cảnh. Nó cần đạt đến “độ cao phù hợp” (Right Altitude) – trạng thái cân bằng hoàn hảo:
– Tránh quá cứng nhắc: Không nên mã hóa logic phức tạp, dễ gãy (brittle, hardcoded logic) vào prompt.
– Tránh quá mơ hồ: Không cung cấp hướng dẫn quá chung chung, thiếu tín hiệu cụ thể.
– Tối ưu: Sử dụng ngôn ngữ đơn giản, trực tiếp. Tổ chức prompt thành các phần riêng biệt (, ) bằng thẻ XML hoặc Markdown để mô hình dễ dàng phân tách thông tin.

3.3. Chiến lược quản lý Ngữ cảnh cho Tác vụ dài hạn (Long-Horizon Tasks)
Đối với các Agent cần hoạt động liên tục trong thời gian dài (như di chuyển codebase lớn, nghiên cứu chuyên sâu), vượt quá giới hạn của cửa sổ ngữ cảnh, Context Engineering cung cấp ba kỹ thuật chính:

Vì sao Context Engineering lại quan trọng trong việc xây dựng AI Agent mạnh mẽ

Mặc dù các mô hình ngôn ngữ lớn (LLM) có tốc độ xử lý cao và khả năng quản lý khối lượng dữ liệu ngày càng lớn, nhưng chúng – giống như con người – vẫn có giới hạn về khả năng tập trung và dễ bị “rối loạn thông tin” khi ngữ cảnh trở nên quá lớn. Các nghiên cứu dạng “needle-in-a-haystack” (tìm kim trong đống rơm) đã phát hiện ra một hiện tượng gọi là context rot — tức là khi số lượng token trong cửa sổ ngữ cảnh tăng lên, khả năng của mô hình trong việc ghi nhớ và truy xuất chính xác thông tin từ ngữ cảnh đó lại giảm xuống.

1. Context là tài nguyên có giới hạn

Dù một số mô hình có thể suy giảm chậm hơn, nhưng hiện tượng này xảy ra ở tất cả các LLM. Vì vậy, ngữ cảnh phải được xem như một tài nguyên hữu hạn, có lợi ích giảm dần theo từng token thêm vào.Giống như con người chỉ có một dung lượng bộ nhớ làm việc (working memory) nhất định, LLM cũng có “ngân sách chú ý” (attention budget) mà nó sử dụng khi xử lý khối lượng lớn ngữ cảnh. Mỗi token mới được thêm vào đều “tiêu tốn” một phần ngân sách đó, khiến việc chọn lọc thông tin đưa vào mô hình trở nên vô cùng quan trọng.

2. Giới hạn bắt nguồn từ kiến trúc Transformer

Nguồn gốc của sự khan hiếm “chú ý” này nằm ở kiến trúc Transformer – nền tảng của các LLM hiện nay. Trong kiến trúc này, mỗi token có thể “chú ý” đến mọi token khác trong toàn bộ ngữ cảnh, tạo ra n² mối quan hệ cặp đôi cho n token. Khi độ dài ngữ cảnh tăng lên: Khả năng của mô hình trong việc duy trì các mối quan hệ này bị kéo căng, dẫn đến sự đánh đổi tự nhiên giữa kích thước ngữ cảnh và độ tập trung của sự chú ý. Ngoài ra, LLM được huấn luyện chủ yếu trên các chuỗi ngắn, vì vậy chúng có ít kinh nghiệm và ít tham số chuyên biệt hơn cho các mối quan hệ phụ thuộc dài hạn trên toàn ngữ cảnh.

3. Giải pháp kỹ thuật giúp mở rộng ngữ cảnh (nhưng không hoàn hảo)

Một số kỹ thuật như position encoding interpolation (nội suy mã hóa vị trí) giúp mô hình xử lý chuỗi dài hơn bằng cách thích ứng chúng với phạm vi ngữ cảnh ngắn hơn mà mô hình đã được huấn luyện. Tuy nhiên, điều này có thể làm giảm độ chính xác trong việc hiểu vị trí token, khiến hiệu năng giảm dần chứ không sụp đổ hoàn toàn.

Kết quả là: Mô hình vẫn hoạt động tốt với ngữ cảnh dài, nhưng có thể mất độ chính xác trong việc truy xuất thông tin hoặc suy luận dài hạn, so với khi làm việc với ngữ cảnh ngắn hơn.

Giải phẫu của một ngữ cảnh hiệu quả

Vì các mô hình ngôn ngữ lớn (LLM) bị giới hạn bởi “ngân sách chú ý” (attention budget) hữu hạn, kỹ thuật xây dựng ngữ cảnh hiệu quả là tìm ra tập hợp nhỏ nhất của các token có giá trị cao (high-signal tokens) — tức là những phần thông tin cô đọng, quan trọng — sao cho tối đa hóa khả năng đạt được kết quả mong muốn.
Tuy nhiên, việc áp dụng nguyên tắc này trong thực tế không hề đơn giản. Dưới đây là những hướng dẫn cụ thể về cách áp dụng nó cho các thành phần khác nhau trong ngữ cảnh:

1. System prompt — phải cực kỳ rõ ràng và đúng “độ cao”

Phần system prompt nên được viết bằng ngôn ngữ đơn giản, trực tiếp, truyền đạt ý tưởng ở đúng “độ cao” (altitude) phù hợp cho tác nhân (agent).
“Độ cao phù hợp” ở đây chính là vùng Goldilocks — không quá cụ thể, cũng không quá mơ hồ. Hai sai lầm phổ biến khi viết system prompt là:

Quá chi tiết:
Một số kỹ sư cố gắng mã hóa những logic phức tạp vào trong prompt để điều khiển hành vi của agent một cách chính xác tuyệt đối. Cách làm này dễ gãy và khó bảo trì, vì chỉ cần thay đổi nhỏ cũng khiến toàn bộ hệ thống phản ứng sai.

Quá chung chung:
Ngược lại, có những prompt chỉ cung cấp hướng dẫn mơ hồ, không đưa ra tín hiệu cụ thể cho mô hình về loại kết quả mong đợi. Trong trường hợp này, mô hình giả định sai ngữ cảnh chia sẻ và dễ sinh ra phản hồi lệch hướng.

***** Giải pháp tối ưu ******
Tạo prompt ở “độ cao vừa phải” — đủ cụ thể để hướng dẫn hành vi rõ ràng, nhưng đủ linh hoạt để mô hình có thể suy luận và thích ứng.
Nói cách khác, hãy đưa ra heuristics mạnh (nguyên tắc định hướng) thay vì “kịch bản cứng nhắc”.

2. Cấu trúc prompt rõ ràng, gọn gàng

Chúng tôi khuyến khích tổ chức prompt thành các phần riêng biệt, ví dụ như:

## Tool guidance
## Output description

Bạn có thể dùng XML tag hoặc tiêu đề Markdown để phân tách rõ ràng từng phần.Tuy nhiên, khi các mô hình ngày càng thông minh hơn, cách định dạng có thể sẽ dần ít quan trọng hơn — trọng tâm vẫn là nội dung và tính rõ ràng giữ lượng thông tin ở mức “tối thiểu đầy đủ”

Bất kể bạn chọn cấu trúc như thế nào, mục tiêu chính là:
“Cung cấp lượng thông tin nhỏ nhất nhưng vẫn đủ để mô hình hiểu và thực hiện đúng hành vi mong muốn.”
“Tối thiểu” không có nghĩa là ngắn gọn đến mức thiếu thông tin. Agent vẫn cần được cung cấp đầy đủ dữ kiện ban đầu để hành xử đúng.

Cách làm tốt nhất:

Bắt đầu bằng một prompt tối giản, thử nghiệm nó với mô hình tốt nhất hiện có, sau đó bổ sung hướng dẫn hoặc ví dụ cụ thể dựa trên những lỗi phát sinh trong giai đoạn thử nghiệm đầu tiên.
Thiết kế công cụ (Tools) cho Agent các công cụ cho phép agent tương tác với môi trường và lấy thêm ngữ cảnh mới trong quá trình làm việc.

Vì công cụ là “hợp đồng” giữa agent và thế giới bên ngoài, nên việc thiết kế chúng cần ưu tiên hiệu quả, cụ thể:
Trả về thông tin một cách tiết kiệm token, hướng dẫn hành vi của agent sao cho hiệu quả và hợp lý.
Trong bài “Writing tools for AI agents – with AI agents”, Anthropic khuyến nghị rằng:
– Công cụ nên dễ hiểu đối với mô hình,
– Có ít chồng chéo chức năng,
– Giống như các hàm trong codebase tốt — tự chứa, rõ ràng, chịu lỗi tốt,

Các tham số đầu vào nên mô tả rõ ràng, không nhập nhằng, và phù hợp với khả năng của mô hình.

Sai lầm phổ biến:
Một bộ công cụ “phình to” quá mức — chứa quá nhiều chức năng hoặc khiến agent bối rối khi chọn công cụ nào để dùng.
Nếu một kỹ sư con người còn không chắc nên dùng công cụ nào, thì đừng mong một AI agent làm tốt hơn.

Giải pháp: Xây dựng một tập công cụ tối thiểu khả dụng (minimal viable toolset) — điều này giúp việc bảo trì dễ hơn và ngữ cảnh gọn hơn trong các tương tác dài hạn.

5. Ví dụ minh họa (Few-shot prompting)

– Cung cấp ví dụ — hay còn gọi là few-shot prompting — là một thực hành tốt đã được chứng minh qua thời gian.
Nhưng: Đừng “nhồi nhét” hàng loạt tình huống ngoại lệ (edge cases) vào prompt để cố gắng bao phủ mọi quy tắc có thể xảy ra.
Thay vào đó, hãy chọn lọc một bộ ví dụ tiêu biểu, đa dạng và mang tính chuẩn mực (canonical), thể hiện hành vi mong muốn của agent.
Với một mô hình ngôn ngữ, “một ví dụ hay đáng giá hơn cả ngàn dòng hướng dẫn”.
– Giữ ngữ cảnh gọn mà tinh dù bạn đang làm việc với system prompt, công cụ, ví dụ, hay lịch sử hội thoại, hãy nhớ nguyên tắc vàng: “Giữ cho ngữ cảnh có thông tin, nhưng chặt chẽ.”

Mục tiêu của context engineering không phải là nhồi nhét dữ liệu,
mà là chọn lọc thông minh — sao cho mỗi token đều có giá trị đóng góp rõ ràng.

Sự tiến hóa của agent và tầm quan trọng của ngữ cảnh. Khi các mô hình nền tảng (base models) ngày càng thông minh hơn, mức độ tự chủ của agent cũng tăng lên.
Một agent có thể tự điều hướng trong những không gian vấn đề phức tạp, phục hồi sau lỗi, và tự học từ môi trường — điều mà trước đây phải dựa vào kỹ sư con người.

Cùng với sự tiến hóa đó, tư duy thiết kế ngữ cảnh (context design) cũng thay đổi.
Nếu trước đây, nhiều ứng dụng AI chỉ sử dụng kỹ thuật truy xuất ngữ cảnh trước khi suy luận (pre-inference retrieval) — ví dụ, dùng embeddings để lấy ra những đoạn thông tin quan trọng trước khi gửi vào model — thì nay, xu hướng mới là “just-in-time context retrieval”.

– “Just-in-time” – Cung cấp ngữ cảnh đúng lúc thay vì tải trước toàn bộ dữ liệu liên quan, các agent hiện đại chỉ lưu lại những “định danh nhẹ” (lightweight identifiers) như:
– Đường dẫn tệp (file paths),
– Câu truy vấn đã lưu (stored queries),
– Liên kết web (URLs), v.v.
=> Rồi khi cần, agent sẽ tự động gọi công cụ để tải dữ liệu vào ngữ cảnh tại thời điểm runtime.

Ví dụ:
👉 Claude Code – giải pháp “agentic coding” của Anthropic – sử dụng chiến lược này để phân tích dữ liệu phức tạp trên cơ sở dữ liệu lớn. Thay vì nạp toàn bộ dataset, mô hình chỉ viết các truy vấn có mục tiêu, lưu kết quả, và dùng lệnh Bash như head hay tail để xem xét các phần cần thiết.

Cách tiếp cận này bắt chước nhận thức của con người:
chúng ta không ghi nhớ toàn bộ dữ liệu, mà dùng hệ thống tổ chức bên ngoài — như thư mục, hộp thư, hay bookmark — để truy xuất đúng thông tin khi cần. Metadata – Cấu trúc giúp agent hiểu ngữ cảnh: Không chỉ tiết kiệm dung lượng, metadata của các tệp và tham chiếu còn cung cấp tín hiệu quan trọng giúp agent suy luận.

Ví dụ:
Một tệp tên test_utils.py nằm trong thư mục tests/ mang ý nghĩa khác hoàn toàn so với tệp cùng tên trong src/core_logic/.
Cấu trúc thư mục, quy ước đặt tên, và dấu thời gian (timestamp)
→ tất cả đều giúp agent hiểu mục đích và mức độ liên quan của thông tin.

Khả năng tự khám phá ngữ cảnh (Progressive disclosure). Khi cho phép agent tự do điều hướng và truy xuất dữ liệu, ta mở ra khả năng “khám phá ngữ cảnh dần dần” — nghĩa là agent tự tìm ra ngữ cảnh liên quan thông qua trải nghiệm.

Mỗi hành động tạo ra thêm dữ kiện cho vòng suy luận kế tiếp:
– Kích thước file → gợi ý độ phức tạp,
– Tên file → ám chỉ mục đích,
– Thời gian cập nhật → chỉ ra mức độ mới và liên quan.

Agent dần xây dựng bức tranh hiểu biết từng lớp một, chỉ giữ lại thông tin cần thiết trong “bộ nhớ làm việc”, và dùng chiến lược ghi chú (note-taking) để lưu lại phần còn lại.

Kết quả là: Agent tập trung vào phần ngữ cảnh liên quan nhất, thay vì bị “chìm” trong lượng thông tin khổng lồ và nhiễu.

Hiệu năng vs. Tự chủ – Bài toán đánh đổi

Tất nhiên, truy xuất ngữ cảnh lúc runtime chậm hơn so với việc dùng dữ liệu đã được tính toán sẵn.
Hơn nữa, cần kỹ sư giàu kinh nghiệm để thiết kế công cụ và chiến lược điều hướng hợp lý.
Nếu không có định hướng rõ ràng, agent có thể:
– Dùng sai công cụ,
– Đi vào ngõ cụt,
– Hoặc bỏ lỡ thông tin quan trọng.
=> Do đó, trong nhiều tình huống, chiến lược lai (hybrid) là tối ưu:
Một phần ngữ cảnh được tải sẵn để đảm bảo tốc độ, phần còn lại được agent tự truy xuất khi cần.

Ví dụ:
👉 Claude Code nạp sẵn các tệp CLAUDE.md vào ngữ cảnh, nhưng vẫn có thể dùng glob hoặc grep để tự tìm file đúng lúc, tránh lỗi chỉ mục cũ hoặc cây cú pháp phức tạp. Chiến lược này đặc biệt phù hợp với môi trường ổn định như pháp lý hay tài chính, nơi dữ liệu ít thay đổi nhưng vẫn cần độ chính xác cao.Kỹ thuật context engineering cho tác vụ dài hạn

Các tác vụ “dài hơi” — như chuyển đổi toàn bộ codebase hoặc dự án nghiên cứu dài hạn — đòi hỏi agent phải:
– Duy trì tính mạch lạc và mục tiêu trong suốt quá trình, Làm việc qua hàng ngàn bước, vượt xa giới hạn context window của mô hình.
– Chờ đợi “context window lớn hơn” không phải là lời giải duy nhất. Bởi vì, dù dài đến đâu, ngữ cảnh vẫn có thể bị nhiễm nhiễu (context pollution) hoặc chứa thông tin lỗi thời.

Anthropic đề xuất 3 kỹ thuật giúp agent làm việc hiệu quả hơn với thời gian dài:
– Compaction – nén và tổng hợp thông tin cũ để tiết kiệm context,
– Structured note-taking – ghi chú có cấu trúc, giúp agent nhớ lại logic,
– Multi-agent architectures – chia tác vụ lớn thành nhiều agent nhỏ cùng phối hợp.

Compaction – Nén ngữ cảnh thông minh

Compaction là kỹ thuật tóm tắt và nén lại nội dung khi cuộc hội thoại hoặc tác vụ của agent bắt đầu chạm đến giới hạn context window.
Cụ thể, thay vì để mô hình phải “mang vác” toàn bộ lịch sử tương tác dài, ta tạo một bản tóm tắt trung thực (high-fidelity summary), rồi khởi tạo lại ngữ cảnh mới bằng chính bản tóm tắt đó.

Mục tiêu: Giúp agent duy trì mạch logic và độ chính xác lâu dài, mà không bị giảm hiệu suất do giới hạn token.

Ví dụ trong Claude Code, Anthropic thực hiện compaction bằng cách:
Gửi toàn bộ lịch sử tin nhắn cho mô hình, dể mô hình tự tóm tắt và nén lại thông tin quan trọng nhất.bản tóm tắt này thường giữ lại:
– Các quyết định kiến trúc,
– Lỗi chưa xử lý,
– Chi tiết triển khai quan trọng, và loại bỏ những phần dư thừa như kết quả của các lệnh công cụ (tool outputs).
=> Sau đó, agent tiếp tục làm việc với ngữ cảnh đã nén cộng thêm 5 file được truy cập gần nhất — giúp người dùng có cảm giác liền mạch, không lo ngại về giới hạn context.

Điểm tinh tế trong compaction:

Chính là chọn cái gì giữ, cái gì bỏ.Nếu nén quá tay, agent có thể mất những chi tiết nhỏ nhưng quan trọng về sau. Anthropic khuyên kỹ sư nên:
Tối đa hóa recall trong giai đoạn đầu (đảm bảo mọi thông tin quan trọng đều được giữ lại),
Sau đó tối ưu precision, loại bỏ phần dư thừa để tinh gọn hơn.

Ví dụ dễ hiểu: Kết quả của một tool đã được gọi nhiều bước trước hầu như không cần giữ lại.
Anthropic thậm chí đã thêm “tool result clearing” – một dạng compaction nhẹ và an toàn – vào Claude Developer Platform.

Structured Note-Taking – Ghi chú có cấu trúc (Bộ nhớ agentic)

Structured note-taking, hay còn gọi là bộ nhớ agentic, là kỹ thuật mà agent thường xuyên ghi chú các thông tin quan trọng ra ngoài context window.
Những ghi chú này sẽ được gọi lại vào ngữ cảnh khi cần thiết trong các bước sau.

Mục tiêu: Cung cấp cho agent một dạng “bộ nhớ dài hạn” mà không tốn nhiều token.
Ví dụ: Claude Code có thể tạo file TODO.md hoặc NOTES.md để lưu danh sách việc cần làm. Các agent tùy chỉnh có thể ghi chú tiến độ, trạng thái, hoặc các dependency quan trọng giữa các bước phức tạp. Anthropic minh họa bằng ví dụ thú vị: Claude chơi Pokémon 🎮 — Agent này ghi nhớ chính xác hàng ngàn bước chơi:
“Trong 1.234 bước qua, tôi đã luyện Pikachu ở Route 1, tăng 8 cấp, còn 2 cấp nữa đạt mục tiêu.”
Không cần hướng dẫn thêm, Claude tự phát triển bản đồ, nhớ vùng đã khám phá, lưu chiến lược đánh boss hiệu quả nhất, và tiếp tục từ chỗ dừng trước đó sau khi context được reset.

Kết quả: Claude duy trì sự mạch lạc xuyên suốt hàng giờ hoạt động, Thực hiện được chiến lược dài hạn mà không cần giữ mọi thông tin trong context window.
Anthropic đã ra mắt “Memory Tool” (bản beta) trong Claude Developer Platform, cho phép agent lưu trữ và truy xuất ghi chú từ hệ thống file —tức là agent có thể: Xây dựng knowledge base cá nhân, Giữ trạng thái dự án giữa các phiên, Và truy cập lại công việc cũ mà không cần giữ toàn bộ trong context hiện tại.

Sub-Agent Architectures – Kiến trúc đa agent chuyên biệt

Sub-agent architecture là chiến lược phân tán công việc giữa nhiều agent nhỏ, mỗi agent đảm nhận một nhiệm vụ cụ thể trong ngữ cảnh riêng biệt (clean context window).Thay vì để một agent phải “gánh” toàn bộ dự án, Anthropic chia nhỏ thành: Agent chính (lead agent): định hướng tổng thể, ra kế hoạch.Các sub-agent: thực hiện các phần việc kỹ thuật sâu, hoặc dùng tool để tìm thông tin liên quan.Mỗi sub-agent có thể “làm việc” rất sâu (vài chục nghìn token), nhưng chỉ trả lại bản tóm tắt súc tích 1.000–2.000 token cho agent chính.
Ưu điểm:
– Tách biệt rõ ràng giữa “ngữ cảnh chi tiết” và “ngữ cảnh tổng hợp”,
– Giúp agent chính tập trung vào phân tích, tổng hợp và ra quyết định.
Anthropic cho biết mô hình này đã tăng hiệu suất đáng kể trong các tác vụ nghiên cứu phức tạp
(ví dụ: hệ thống nghiên cứu đa agent trong bài How We Built Our Multi-Agent Research System).

Kết luận

Kỹ thuật ngữ cảnh (context engineering) đại diện cho một bước chuyển mình căn bản trong cách chúng ta xây dựng các ứng dụng dựa trên mô hình ngôn ngữ lớn (LLM). Khi các mô hình ngày càng trở nên mạnh mẽ hơn, thách thức không chỉ nằm ở việc tạo ra một prompt hoàn hảo — mà là việc lựa chọn có chủ đích những thông tin nào sẽ được đưa vào trong “ngân sách chú ý” (attention budget) giới hạn của mô hình tại mỗi bước.
Dù bạn đang triển khai compaction cho các tác vụ dài hạn, thiết kế các công cụ tiết kiệm token, hay giúp các tác nhân (agent) khám phá môi trường của mình một cách vừa đúng lúc (just-in-time), thì nguyên tắc cốt lõi vẫn không đổi:
Tìm ra tập hợp nhỏ nhất các token có giá trị thông tin cao nhất để tối đa hóa khả năng đạt được kết quả mong muốn.

Những kỹ thuật được trình bày ở đây sẽ còn tiếp tục phát triển cùng với sự tiến bộ của các mô hình. Chúng ta đã bắt đầu thấy rằng các mô hình thông minh hơn sẽ cần ít kỹ thuật “ép buộc” hơn, cho phép các tác nhân hoạt động tự chủ hơn. Tuy nhiên, ngay cả khi năng lực của mô hình tiếp tục mở rộng, việc xem ngữ cảnh như một nguồn tài nguyên quý giá và hữu hạn vẫn sẽ là yếu tố trung tâm để xây dựng các tác nhân đáng tin cậy và hiệu quả.
Hãy bắt đầu khám phá kỹ thuật context engineering trên nền tảng Claude Developer Platform ngay hôm nay, và tham khảo thêm “Memory and Context Management Cookbook” để tìm hiểu những mẹo và phương pháp thực hành tốt nhất.

Best-of-∞: Hiệu Suất Tiệm Cận của Tính Toán Thời Gian Thử Nghiệm

Nghiên cứu đột phá về phương pháp tối ưu hóa hiệu suất LLM với Adaptive Generation và Weighted Ensemble

📝 Tóm Tắt

Chúng tôi nghiên cứu phương pháp Best-of-N cho các mô hình ngôn ngữ lớn (LLMs) với việc lựa chọn dựa trên bỏ phiếu đa số.
Đặc biệt, chúng tôi phân tích giới hạn khi N tiến đến vô cùng, mà chúng tôi gọi là Best-of-∞.
Mặc dù phương pháp này đạt được hiệu suất ấn tượng trong giới hạn, nó đòi hỏi thời gian tính toán vô hạn.
Để giải quyết vấn đề này, chúng tôi đề xuất một sơ đồ sinh câu trả lời thích ứng chọn số lượng N dựa trên sự đồng thuận của câu trả lời,
từ đó phân bổ hiệu quả tài nguyên tính toán. Ngoài tính thích ứng, chúng tôi mở rộng khung làm việc đến các
tổ hợp có trọng số của nhiều LLMs, cho thấy rằng các hỗn hợp như vậy có thể vượt trội hơn bất kỳ mô hình đơn lẻ nào.
Trọng số tổ hợp tối ưu được xây dựng và tính toán hiệu quả như một bài toán lập trình tuyến tính hỗn hợp nguyên.

🚀 Giới Thiệu

Trong những năm gần đây, chúng ta đã chứng kiến những tiến bộ đáng kể trong lĩnh vực Large Language Models (LLMs),
từ các mô hình đóng như Gemini, GPT, Claude đến các mô hình mã nguồn mở như Llama, DeepSeek, Qwen.
Một trong những mối quan tâm lớn nhất trong lĩnh vực LLMs là khả năng thực hiện các nhiệm vụ suy luận phức tạp.

Việc sử dụng nhiều tài nguyên tính toán hơn tại thời điểm kiểm tra, đặc biệt bằng cách tạo ra nhiều câu trả lời,
dẫn đến suy luận đáng tin cậy hơn. Một chiến lược đơn giản nhưng hiệu quả là phương pháp Best-of-N (BoN),
nơi chúng ta tạo ra N câu trả lời và chọn câu trả lời tốt nhất dựa trên một số tiêu chí.

Hình 1: Độ chính xác của Best-of-N với bỏ phiếu đa số theo hàm của N (GPT-OSS-20B) với bốn datasets.
Đường màu xanh lá chỉ ra độ chính xác tiệm cận của N→∞.

Có nhiều cách để triển khai chiến lược BoN. Một cách tiếp cận phổ biến là sử dụng reward model để chọn câu trả lời tốt nhất
hoặc yêu cầu LLM chọn câu trả lời ưa thích. Một cách tiếp cận khác là bỏ phiếu đa số trong đó câu trả lời xuất hiện
thường xuyên nhất được chọn.

Mặc dù đơn giản, bỏ phiếu đa số có nhiều ưu điểm. Đầu tiên, nó không yêu cầu mô hình hóa bổ sung hoặc tạo văn bản thêm.
Thứ hai, so với các phương pháp khác, bỏ phiếu đa số có khả năng chống lại reward hacking và hưởng lợi từ việc tạo thêm với rủi ro tối thiểu,
không giống như các mô hình dựa trên reward nơi việc tăng N có thể dẫn đến overfitting.

Minh họa adaptive sampling

Hình 2: Minh họa adaptive sampling (Algorithm 1). Histogram cho thấy phân phối các câu trả lời được tạo bởi LLM cho một bài toán đơn lẻ.
Màu xanh dương chỉ ra câu trả lời xuất hiện nhiều nhất, màu cam chỉ ra các câu trả lời khác.

Mặc dù chúng ta mong muốn đạt được hiệu suất Best-of-N như vậy khi N→∞, mà chúng ta gọi là hiệu suất Best-of-∞,
nó đòi hỏi một số lượng vô hạn các thế hệ (mẫu), điều này không khả thi trong các tình huống thực tế.
Tuy nhiên, với cùng ngân sách thời gian kiểm tra, chúng ta có thể sử dụng ngân sách có sẵn hiệu quả hơn.
Như được thể hiện trong Hình 2, chúng ta có thể tạo mẫu một cách thích ứng cho đến khi chúng ta xác định được đa số với một mức độ tin cậy nào đó.

Sơ đồ của chúng tôi có thể được mở rộng tự nhiên đến các tổ hợp của nhiều LLMs. Quan trọng là, bỏ phiếu đa số tổ hợp có thể tự nhiên
hưởng lợi từ tính bổ sung. Ví dụ, trong dataset AIME2025, hiệu suất Best-of-∞ của GPT-OSS-20B và Nemotron-Nano-9B-v2 lần lượt là 90.0% và 73.0%,
nhưng tổ hợp của chúng đạt được 93.3%. Một LLM yếu có thể đóng góp vào tổ hợp nếu nó có điểm mạnh bổ sung.

♾️ Best-of-∞ trong Mẫu Hữu Hạn

Trong khi Best-of-∞ định nghĩa một tổ hợp Best-of-N lý tưởng trong giới hạn N→∞, việc thực hiện theo nghĩa đen sẽ đòi hỏi
tính toán thời gian kiểm tra không giới hạn. Bây giờ chúng tôi phát triển một quy trình mẫu hữu hạn theo dõi chặt chẽ giới hạn này.

Ý tưởng cốt lõi của chúng tôi là lấy mẫu thích ứng (tức là yêu cầu LLM tạo ra câu trả lời) cho đến khi chúng ta chắc chắn
về bỏ phiếu đa số dân số với mức độ tin cậy mong muốn. Nói cách khác, chúng ta nhằm mục đích kết thúc quá trình tạo câu trả lời
ngay khi có đủ bằng chứng thống kê để hỗ trợ kết luận rằng phản hồi hiện tại xuất hiện thường xuyên nhất tương ứng với đa số thực sự,
điều này cho phép số lượng N khác nhau trên các vấn đề.

Một thách thức đặc biệt của vấn đề này nằm ở thực tế là hỗ trợ của phân phối câu trả lời được tạo bởi các mô hình ngôn ngữ lớn (LLMs)
là không xác định. Ví dụ, trong một trường hợp, LLM có thể tạo ra hai câu trả lời ứng viên, chẳng hạn như 42 với xác suất 70% và 105 với xác suất 30%,
trong khi trong trường hợp khác, nó có thể tạo ra bốn đầu ra riêng biệt, chẳng hạn như 111 với xác suất 40%, 1 với xác suất 25%,
2 với xác suất 20%, và 702 với xác suất 15%.

Với sự không chắc chắn như vậy trong sự thay đổi của các phản hồi được tạo, một cách tiếp cận đặc biệt phù hợp là sử dụng
mô hình hóa Bayesian không tham số. Đặc biệt, chúng tôi áp dụng một quy trình Dirichlet DP(H,α) trước trên không gian câu trả lời
nắm bắt phân phối không xác định của các câu trả lời. Ở đây, H là phân phối cơ sở trên không gian câu trả lời, và α > 0 là tham số tập trung
kiểm soát khả năng tạo ra câu trả lời mới.

🔧 Algorithm 1: Approximated Best-of-∞

Input: Maximum samples N_max, concentration parameter α, Bayes factor threshold B
1: for n = 1, 2, … do
2:   if using LLM Ensemble then
3:     Choose LLM with probability {w_i}_{i∈𝒦}
4:   end if
5:   Generate answer using selected LLM
6:   if n ≥ N_max then
7:     return majority answer
8:   end if
9:   Compute Bayes factor B_n
10:   if B_n ≥ B then
11:     return majority answer
12:   end if
13: end for
14: return The most frequent answer

Chúng tôi sử dụng Bayes factor để đo lường bằng chứng của đa số thực sự. Chính thức, chúng tôi định nghĩa các giả thuyết như sau:

📊 Định Nghĩa Giả Thuyết

H₀: Câu trả lời xuất hiện thường xuyên nhất A₁ không phải là đa số thực sự.

H₁: Câu trả lời xuất hiện thường xuyên nhất A₁ là đa số thực sự.

Bayes Factor: BF = P(D(n)|H₁) / P(D(n)|H₀)

Khi n đủ lớn so với α, P(H₁|D(n)) của posterior DP có thể được xấp xỉ bằng phân phối Dirichlet.
Mặc dù số lượng này không dễ tính toán, nó có thể được ước tính bằng các phương pháp Monte Carlo bằng cách lấy mẫu từ phân phối Dirichlet.

🎯 Định Lý 1: Sự Hội Tụ

Nếu chúng ta đặt N_max và B đủ lớn, hiệu suất của thuật toán hội tụ đến hiệu suất Best-of-∞.
Điều này đảm bảo rằng phương pháp adaptive sampling của chúng ta có thể đạt được hiệu suất gần như tối ưu
với số lượng mẫu hữu hạn.

🤝 Tổ Hợp LLM

🎯 Best-of-One

Trong phần này, chúng tôi mở rộng khung làm việc Best-of-∞ đến các tổ hợp có trọng số của nhiều LLMs.
Giả sử chúng ta có K LLMs khác nhau, mỗi LLM có thể tạo ra các câu trả lời khác nhau cho cùng một câu hỏi.
Mục tiêu của chúng ta là tìm ra cách kết hợp các LLMs này để đạt được hiệu suất tối ưu.

♾️ Best-of-∞

Câu hỏi trung tâm của chúng ta là làm thế nào để chọn một vector trọng số w tối đa hóa độ chính xác f(w).
Lemma sau đây ngụ ý độ khó của việc tối ưu hóa f(w).

📝 Lemma 2: Non-concavity

f(w) là một hàm không lồi trên không gian simplex của w. Điều này có nghĩa là các phương pháp dựa trên gradient
sẽ không thể tìm ra giải pháp tối ưu toàn cục.

Visualization của non-concave objective function

Hình 3: Visualization của hàm mục tiêu không lồi f(w) trên weight simplex w.
Simplex màu vàng tương ứng với w trong simplex của các trọng số của ba LLMs.

Mặc dù non-concavity ngụ ý tính tối ưu dưới của các phương pháp dựa trên gradient, một cách tiếp cận tối ưu hóa tổ hợp
có thể được áp dụng cho các trường hợp có quy mô điển hình. Điểm mấu chốt trong việc tối ưu hóa f(w) là tổng trong phương trình
nhận giá trị một trong một polytope.

📝 Lemma 3: Polytope Lemma

Cho {p^q_ij} là các phân phối tùy ý của các câu trả lời. Khi đó, tập hợp sau, ngụ ý rằng câu trả lời j là câu trả lời
xuất hiện thường xuyên nhất, là một polytope: {w ∈ Δ_K : Σ_i w_i p^q_ij > max_{j’≠j} Σ_i w_i p^q_ij’}

Lemma 3 nói rằng việc tối đa hóa số lượng câu trả lời đúng tương đương với việc tối đa hóa số lượng polytopes chứa w.
Bằng cách giới thiệu biến phụ y_q chỉ ra tính đúng đắn cho mỗi câu trả lời, điều này có thể được xây dựng như một
bài toán lập trình tuyến tính hỗn hợp nguyên (MILP).

📝 Lemma 4: MILP Formulation

Việc tối đa hóa f(w) tương đương với bài toán MILP sau:

max Σ_q y_q

s.t. w_i ≥ 0 ∀_i, Σ_i w_i = 1, A_q w ≥ -m(1-y_q) ∀q

trong đó A_q là ma trận kích thước ℝ^{|𝒜_q|×K}

⚖️ Max Margin Solutions

Như chúng tôi đã minh họa trong Hình 3, hàm mục tiêu f(w) có vùng liên tục của các giải pháp tối ưu.
Trong khi bất kỳ điểm nội thất nào trên vị trí này đều tối ưu trong Best-of-∞, hiệu suất hữu hạn-N của nó có thể thay đổi.
Trong bài báo này, chúng tôi áp dụng giải pháp “max margin”, tức là ở phần nội thất nhất của giải pháp.

Cụ thể, chúng tôi giới thiệu margin ξ > 0 và thay thế A_q w trong phương trình với A_q w – ξ.
Chúng tôi chọn supremum của margin ξ sao cho giá trị mục tiêu Σ_q y_q không giảm, và áp dụng giải pháp trên margin như vậy.

🧪 Thí Nghiệm

Phần này báo cáo kết quả thí nghiệm của chúng tôi. Chúng tôi xem xét các nhiệm vụ suy luận nặng trên các LLMs mã nguồn mở
mà chúng tôi có thể kiểm tra trong môi trường cục bộ của mình. Chúng tôi đặt siêu tham số α = 0.3 của Algorithm 1 cho tất cả các thí nghiệm.

Để giải MILPs, chúng tôi sử dụng highspy, một giao diện Python mã nguồn mở cho bộ tối ưu hóa HiGHS,
cung cấp các solver tiên tiến cho LP, MIP và MILP quy mô lớn. Chúng tôi áp dụng giải pháp max-margin được mô tả trong Phần 3.2.
Trừ khi được chỉ định khác, tất cả kết quả được ước tính từ 100 lần chạy độc lập. Bayes factor được tính toán với 1,000 mẫu Monte Carlo từ posterior.

📊 LLMs và Datasets Được Test

Chúng tôi đánh giá các LLMs mã nguồn mở (≤ 32B tham số) trên bốn benchmark suy luận. Chúng tôi sử dụng các bộ vấn đề sau:
AIME2024, AIME2025, GPQA-DIAMOND (Graduate-Level Google-Proof Q&A Benchmark), và MATH500.
Các datasets này là các nhiệm vụ suy luận toán học và khoa học đầy thách thức.

📈 Large-scale Generation Dataset

Chúng tôi tạo ra một tập hợp các câu trả lời ứng viên bằng cách truy vấn LLM với câu lệnh vấn đề.
Cho mỗi cặp (LLM, vấn đề), chúng tôi tạo ra ít nhất 80 câu trả lời—một bậc độ lớn lớn hơn 8 thế hệ điển hình
được báo cáo trong hầu hết các báo cáo kỹ thuật LLM. Chúng tôi tin rằng độ khó của các vấn đề cũng như quy mô
của các token được tạo ra đáng kể lớn hơn công việc hiện có về tính toán thời gian kiểm tra.

📊 Thống Kê Dataset

LLM # Files Total Tokens File Size (MB)
AM-Thinking-v1 4,800 79,438,111 185.95
Datarus-R1-14B-preview 4,800 49,968,613 127.03
EXAONE-Deep-32B 60,640 478,575,594 1,372.35
GPT-OSS-20B 68,605 244,985,253 98.59
LIMO-v2 6,095 77,460,567 219.45
MetaStone-S1-32B 4,800 79,438,111 185.95
NVIDIA-Nemotron-Nano-9B-v2 4,800 79,438,111 185.95
Phi-4-reasoning 4,800 79,438,111 185.95
Qwen3-4B 4,800 79,438,111 185.95
Qwen3-14B 4,800 79,438,111 185.95
Qwen3-30B-A3B-Thinking-2507 4,800 79,438,111 185.95

📊 Kết Quả Thí Nghiệm

🎯 Experimental Set 1: Hiệu Quả của Adaptive Sampling

Trong thí nghiệm đầu tiên, chúng tôi so sánh hiệu quả của phương pháp adaptive sampling với phương pháp fixed BoN.
Kết quả cho thấy rằng Algorithm 1 với kích thước mẫu trung bình N̄=3 đạt được độ chính xác tương tự như fixed sample của N=10,
cho thấy hiệu quả đáng kể của adaptive sampling.

🤝 Experimental Set 2: Ưu Thế của LLM Ensemble

Thí nghiệm thứ hai chứng minh ưu thế của tổ hợp LLM so với mô hình đơn lẻ. Chúng tôi kết hợp năm LLMs:
EXAONE-Deep-32B, MetaStone-S1-32B, Phi-4-reasoning, Qwen3-30B-A3B-Thinking, và GPT-OSS-20B trên GPQA-Diamond.
Trọng số được tối ưu hóa thành w=(0.0176,0.0346,0.2690,0.4145,0.2644). Tổ hợp LLM vượt trội hơn bất kỳ mô hình đơn lẻ nào với N≥5.

⚖️ Experimental Set 3: Học Trọng Số Tốt

Thí nghiệm thứ ba khám phá việc học trọng số tối ưu từ dữ liệu. Chúng tôi sử dụng số lượng mẫu khác nhau để xác định trọng số
và đo hiệu suất Best-of-∞ trên AIME2025. Kết quả cho thấy rằng chỉ cần một số lượng mẫu tương đối nhỏ là đủ để học được trọng số tốt.

🔄 Experimental Set 4: Transfer Learning của Trọng Số Tối Ưu

Thí nghiệm thứ tư khám phá khả năng transfer learning của trọng số được học từ một dataset sang dataset khác.
Kết quả cho thấy rằng trọng số được học từ một dataset có thể được áp dụng hiệu quả cho các dataset khác,
cho thấy tính tổng quát của phương pháp.

📊 Experimental Set 5: So Sánh với Các Phương Pháp Chọn Câu Trả Lời Khác

Thí nghiệm cuối cùng so sánh phương pháp của chúng tôi với các phương pháp chọn câu trả lời khác, bao gồm LLM-as-a-judge,
reward models, và self-certainty. Kết quả cho thấy Majority Voting đạt hiệu suất cao thứ hai sau Omniscient,
vượt trội hơn các phương pháp khác.

📈 Kết Quả Hiệu Suất Chi Tiết

LLM AIME2024 AIME2025 GPQA-D MATH500
AM-Thinking-v1 0.867 0.867 0.707 0.950
EXAONE-Deep-32B 0.867 0.767 0.692 0.962
GPT-OSS-20B 0.900 0.900 0.722 0.960
MetaStone-S1-32B 0.867 0.800 0.707 0.950
NVIDIA-Nemotron-Nano-9B-v2 0.867 0.733 0.626 0.956
Phi-4-reasoning 0.867 0.833 0.727 0.944
Qwen3-30B-A3B-Thinking-2507 0.933 0.900 0.732 0.960

Method AIME2025 (%) Mô Tả
Omniscient 91.04 ± 1.32 Lý thuyết: luôn chọn đúng nếu có trong candidates
Majority Voting 85.42 ± 2.01 Chọn câu trả lời xuất hiện nhiều nhất
LLM-as-a-judge (tournament) 82.92 ± 2.57 So sánh từng cặp câu trả lời
LLM-as-a-judge (set) 81.25 ± 2.42 So sánh tất cả câu trả lời cùng lúc
INF-ORM-Llama3.1-70B 79.79 ± 2.54 Reward model đứng thứ 9 RewardBench
Skywork-Reward-V2-Llama-3.1-8B 79.79 ± 2.47 Reward model đứng thứ 1 RewardBench
Skywork-Reward-V2-Qwen3-8B 80.00 ± 2.51 Reward model đứng thứ 6 RewardBench
Self-certainty 75.83 ± 2.47 Chọn câu trả lời có confidence cao nhất
Random (≈ Bo1) 76.25 ± 2.71 Chọn ngẫu nhiên (baseline)

Kết quả cho thấy Majority Voting đạt hiệu suất cao thứ hai sau Omniscient,
vượt trội hơn các phương pháp dựa trên reward model và LLM-as-a-judge. Điều này chứng minh tính hiệu quả
của phương pháp đơn giản nhưng mạnh mẽ này.

🔍 Phát Hiện Chính

✅ Hiệu Quả Adaptive Sampling

Phương pháp adaptive sampling giảm đáng kể số lượng thế hệ cần thiết
trong khi vẫn duy trì hiệu suất cao. Algorithm 1 với N̄=3 đạt được
độ chính xác tương tự như fixed sample của N=10, cho thấy hiệu quả
tính toán đáng kể.

🤝 Ưu Thế Ensemble

Tổ hợp có trọng số của nhiều LLMs vượt trội hơn bất kỳ mô hình đơn lẻ nào,
đặc biệt khi có tính bổ sung. Ensemble đạt 93.3% so với 90.0% của mô hình tốt nhất,
chứng minh giá trị của việc kết hợp các mô hình.

⚖️ Tối Ưu Hóa Trọng Số

Việc tối ưu hóa trọng số ensemble được giải quyết hiệu quả
như một bài toán MILP, cho phép tìm ra trọng số tối ưu một cách có hệ thống.
Phương pháp max-margin đảm bảo tính ổn định cho các ứng dụng thực tế.

📊 Quy Mô Lớn

Thí nghiệm với 11 LLMs và 4 datasets, tổng cộng hơn 3,500 thế hệ
cho mỗi kết hợp LLM–dataset, đại diện cho quy mô lớn nhất trong nghiên cứu hiện tại.
Dataset này sẽ được phát hành cho nghiên cứu tiếp theo.

💡 Insights Quan Trọng

  • Bayes Factor hiệu quả: Phương pháp Bayes Factor cho phép dừng adaptive sampling một cách thông minh,
    tiết kiệm tài nguyên tính toán đáng kể.
  • Tính bổ sung của LLMs: Các LLMs yếu có thể đóng góp tích cực vào ensemble nếu chúng có điểm mạnh bổ sung.
  • Transfer learning: Trọng số được học từ một dataset có thể được áp dụng hiệu quả cho các dataset khác.
  • Robustness: Majority voting robust hơn các phương pháp dựa trên reward model và ít bị ảnh hưởng bởi reward hacking.

🎯 Kết Luận

Trong bài báo này, chúng tôi xem chiến lược Best-of-N với bỏ phiếu đa số như việc lấy mẫu từ
phân phối câu trả lời cơ bản, với hiệu suất Best-of-∞ được định nghĩa tự nhiên.
Để xấp xỉ giới hạn này với một số lượng hữu hạn các mẫu, chúng tôi giới thiệu một phương pháp lấy mẫu thích ứng dựa trên Bayes Factor.

Chúng tôi cũng nghiên cứu vấn đề tổng hợp phản hồi từ nhiều LLMs và đề xuất một bỏ phiếu đa số
tận dụng hiệu quả điểm mạnh của các mô hình cá nhân. Hiệu suất Best-of-∞ có ưu thế vì trọng số của
tổ hợp LLM có thể được tối ưu hóa bằng cách giải một bài toán lập trình tuyến tính hỗn hợp nguyên.

Các thí nghiệm rộng rãi của chúng tôi chứng minh hiệu quả của phương pháp được đề xuất.
Chúng tôi đã thử nghiệm với 11 LLMs được điều chỉnh theo hướng dẫn và bốn bộ vấn đề suy luận nặng,
với ít nhất 80 thế hệ cho mỗi kết hợp LLM–bộ vấn đề. Điều này đại diện cho quy mô lớn hơn đáng kể
của tính toán thời gian kiểm tra so với công việc trước đây.

🚀 Tác Động và Ý Nghĩa

Nghiên cứu này mở ra những khả năng mới trong việc tối ưu hóa hiệu suất LLM thông qua
adaptive generation và weighted ensemble, đặc biệt quan trọng cho các ứng dụng yêu cầu độ chính xác cao
như toán học, khoa học và suy luận phức tạp. Phương pháp này có thể được áp dụng rộng rãi
trong các hệ thống AI thực tế để cải thiện độ tin cậy và hiệu suất. Việc phát hành dataset
và source code sẽ thúc đẩy nghiên cứu tiếp theo trong lĩnh vực này.

⚠️ Hạn Chế và Hướng Phát Triển

Mặc dù có những kết quả tích cực, nghiên cứu này vẫn có một số hạn chế. Việc tối ưu hóa MILP có thể
trở nên khó khăn với số lượng LLMs rất lớn. Ngoài ra, phương pháp adaptive sampling dựa trên Bayes Factor
có thể cần điều chỉnh cho các loại nhiệm vụ khác nhau. Hướng phát triển tương lai bao gồm việc mở rộng
phương pháp cho các nhiệm vụ multimodal và khám phá các cách tiếp cận hiệu quả hơn cho việc tối ưu hóa ensemble.

🔧 Chi Tiết Kỹ Thuật

📈 Datasets Sử Dụng

  • AIME2024: American Invitational Mathematics Examination – 15 bài toán toán học khó
  • AIME2025: Phiên bản mới của AIME với độ khó tương tự
  • GPQA-DIAMOND: Graduate-level Physics Questions – 448 câu hỏi vật lý trình độ sau đại học
  • MATH500: Mathematical reasoning problems – 500 bài toán toán học từ MATH dataset

🤖 LLMs Được Test

  • GPT-OSS-20B (OpenAI) – 20B parameters
  • Phi-4-reasoning (Microsoft) – 14B parameters
  • Qwen3-30B-A3B-Thinking – 30B parameters
  • Nemotron-Nano-9B-v2 (NVIDIA) – 9B parameters
  • EXAONE-Deep-32B – 32B parameters
  • MetaStone-S1-32B – 32B parameters
  • Và 5 mô hình khác

💻 Source Code và Dataset

Source code của nghiên cứu này có sẵn tại:
https://github.com/jkomiyama/BoInf-code-publish

Dataset với hơn 3,500 thế hệ cho mỗi kết hợp LLM–dataset sẽ được phát hành để thúc đẩy nghiên cứu tiếp theo
trong lĩnh vực test-time computation và LLM ensemble.

⚙️ Hyperparameters và Cài Đặt

  • Concentration parameter α: 0.3 cho tất cả thí nghiệm
  • Bayes factor threshold B: Được điều chỉnh cho từng dataset
  • Maximum samples N_max: 100 cho adaptive sampling
  • Monte Carlo samples: 1,000 cho tính toán Bayes factor
  • Independent runs: 100 cho mỗi thí nghiệm

 

📋 Thông Tin Nghiên Cứu

🔬 Nghiên Cứu Gốc

Tiêu đề: Best-of-∞ – Asymptotic Performance of Test-Time Compute

Tác giả: Junpei Komiyama, Daisuke Oba, Masafumi Oyamada

Ngày xuất bản: 26 Sep 2025

Nguồn: arXiv:2509.21091

🎯 Đóng Góp Chính

  • Phân tích hiệu suất tiệm cận của Best-of-N
  • Đề xuất phương pháp Adaptive Generation
  • Tối ưu hóa Weighted Ensemble với MILP
  • Thí nghiệm với 11 LLMs và 4 datasets

💻 Source Code & Dataset

GitHub: BoInf-code-publish

Dataset: Hơn 3,500 thế hệ cho mỗi kết hợp LLM–dataset

📊 Quy Mô Nghiên Cứu

LLMs: 11 mô hình mã nguồn mở

Datasets: 4 benchmark suy luận

Generations: ≥80 lần sinh cho mỗi kết hợp

Blog được tạo từ nghiên cứu gốc với mục đích giáo dục và chia sẻ kiến thức về AI và Machine Learning.

Tất cả hình ảnh và dữ liệu được trích xuất từ bài báo nghiên cứu gốc.
Đây là một trong những nghiên cứu quy mô lớn nhất về test-time computation trong LLMs.

 

KHI NGÔN NGỮ TRỞ THÀNH TRÍ TUỆ

🧠 TƯƠNG LAI CỦA LLM (Large Language Model)

“Tương lai của LLM không nằm ở việc làm mô hình to hơn, mà là khiến nó thông minh hơn, linh hoạt hơn, và thực sự biết hành động.”

Vài năm qua, thế giới chứng kiến sự bùng nổ của các mô hình ngôn ngữ lớn (Large Language Models – LLM) như GPT, Claude, Gemini, Llama hay Mistral.
Chúng giúp ta viết văn bản, lập trình, soạn hợp đồng, thậm chí lập kế hoạch marketing.

Nếu năm 2020, AI chỉ là “trợ lý gõ chữ nhanh hơn”, thì đến 2025, nó đã trở thành một cộng sự thực thụ.
Nhưng tương lai sẽ ra sao? Liệu LLM có thể “hiểu”, “suy nghĩ” và “hành động” như con người?


🧩 1. Từ ngôn ngữ đến trí tuệ đa giác quan

Trước đây, LLM chỉ hiểu văn bản.
Giờ đây, các thế hệ mới như GPT-4o hay Gemini 1.5 đã có thể nhìn hình, nghe âm thanh, đọc video và cảm nhận ngữ cảnh.

Ví dụ, bạn có thể gửi ảnh hoá đơn, video cuộc họp hay bản ghi âm — và AI hiểu được cả nội dung lẫn ý nghĩa.
Đó là bước tiến từ language model thành multimodal intelligencetrí tuệ đa phương thức.


🧮 2. Khi AI bắt đầu suy nghĩ thật sự

Các mô hình tương lai sẽ không chỉ “đoán chữ tiếp theo” như cũ, mà có thể tư duy theo chuỗi, kiểm tra kết quả, và tự sửa sai.

Ví dụ, thay vì chỉ trả lời “Kết quả là 42”, AI sẽ nói:

“Để tính vậy, tôi nhân A với B, sau đó trừ đi C. Tuy nhiên, nếu giả định khác, kết quả có thể thay đổi.”

Đây chính là bước tiến gọi là reasoning (suy luận) — nền tảng để AI hiểu bản chất thay vì chỉ sao chép dữ liệu.

Cùng lúc, LLM còn biết sử dụng công cụ:

  • Tự mở trình duyệt tìm thông tin mới.

  • Gọi API để lấy dữ liệu thời gian thực.

  • Chạy code hoặc tính toán trong Python.


🤖 3. Thế hệ kế tiếp: AI Agents – trợ lý tự hành

Một xu hướng mạnh mẽ khác là Agentic AI – AI biết hành động chứ không chỉ nói chuyện.

Hãy tưởng tượng bạn nói:

“Hãy chuẩn bị hội nghị khách hàng vào tháng tới.”

AI sẽ:

  1. Tự lên kế hoạch chi tiết.

  2. Tạo danh sách việc cần làm.

  3. Gửi email mời khách.

  4. Đặt phòng họp.

  5. Chuẩn bị slide thuyết trình.

Tất cả được điều phối bởi nhiều “AI con” – giống như bạn có một đội ngũ ảo làm việc 24/7.


💡 4. LLM cá nhân hóa – Trí tuệ cho riêng bạn

Tương lai, mỗi người sẽ có một AI riêng – hiểu cách bạn nói, cách bạn viết, thậm chí biết cả thói quen và phong cách của bạn.

AI của bạn có thể:

  • Gợi ý cách viết email theo giọng của bạn.

  • Nhớ rằng bạn không họp vào thứ Sáu.

  • Tự động tóm tắt tin tức bạn quan tâm.

Đây là Personal AI – mô hình nhỏ, riêng tư, chạy trên thiết bị hoặc máy chủ nội bộ.
Không còn là “trợ lý của công ty”, mà là “trợ lý của chính bạn”.


⚙️ 5. Hạ tầng tương lai: Cloud + On-Prem + Edge

Không chỉ phần mềm, mà cả hạ tầng AI cũng đang thay đổi.

  • Cloud (đám mây): dành cho mô hình cực lớn, dùng nhiều GPU.

  • On-Prem (nội bộ): dùng cho dữ liệu nhạy cảm, như tài chính, y tế.

  • Edge (thiết bị cá nhân): mô hình mini chạy trực tiếp trên laptop hoặc điện thoại.

Điều đó có nghĩa:
Bạn có thể vừa dùng AI mạnh trên cloud, vừa giữ dữ liệu riêng tư hoàn toàn trong hệ thống của mình.


📈 6. Ứng dụng thực tế trong 5 năm tới

Lĩnh vực Ứng dụng LLM tương lai
💼 Văn phòng Trợ lý soạn thảo, lập kế hoạch, tóm tắt cuộc họp
🧾 Doanh nghiệp Tự đọc hóa đơn, hợp đồng, báo cáo tài chính
💻 Lập trình AI đồng lập trình, kiểm thử, và triển khai code
🏥 Y tế Hỗ trợ chẩn đoán, ghi chú bệnh án, tư vấn sức khỏe
🎓 Giáo dục Gia sư cá nhân hóa, theo dõi tiến trình học tập
🤖 Robot Kết hợp LLM để ra lệnh và hướng dẫn hành động thực tế


🔒 7. Thách thức phía trước

LLM dù mạnh mẽ vẫn phải đối mặt với nhiều câu hỏi lớn:

  • Làm sao kiểm soát thông tin sai lệch (hallucination)?

  • Làm sao bảo vệ dữ liệu cá nhân khi AI “nhớ quá nhiều”?

  • Ai chịu trách nhiệm pháp lý khi AI đưa ra quyết định sai?

  • Và quan trọng nhất: con người sẽ đóng vai trò gì trong kỷ nguyên AI?

Chính vì thế, các nước đang xây dựng luật AI và hệ thống AI Governance để đảm bảo an toàn, minh bạch và trách nhiệm.


🕰 8. Hành trình 10 năm của LLM

Giai đoạn Đặc trưng
2020–2023 Chatbot, text-only LLM (GPT-3, GPT-4)
2024–2026 Multimodal + Reasoning + Agentic AI
2026–2030 Personal AI + On-device LLM + Robotics

🌟 Kết luận

Từ một chatbot biết nói, LLM đang trở thành nền tảng trí tuệ toàn diện – có thể hiểu, học hỏi, và hành động.

Trong vài năm tới, AI không còn là công cụ, mà là đồng nghiệp, cộng sự, thậm chí là người bạn học suốt đời.

Chúng ta không chỉ “sử dụng AI”, mà sẽ cùng sống và làm việc với AI mỗi ngày.

Dự án AI No.1: Tăng tốc hiệu suất làm việc với Gen AI thông qua ba trụ cột chính

New board of AI No.1 Project

Xin chào, tôi là Kakeya – Giám đốc điều hành của Scuti.

Chúng tôi là một công ty phát triển phần mềm offshore tại Việt Nam, chuyên về AI sinh dữ liệu (generative AI). Scuti cung cấp các dịch vụ như tư vấn AI sinh dữ liệudịch vụ AI-OCR. Gần đây, chúng tôi rất vui khi nhận được nhiều yêu cầu phát triển hệ thống tích hợp với công nghệ AI sinh dữ liệu.

Tại Scuti, chúng tôi tự hào giới thiệu sáng kiến nội bộ mang tên “AI No.1 Project”, được triển khai nhằm nâng cao hiệu suất làm việc và mở rộng khả năng ứng dụng công nghệ AI sinh dữ liệu trong toàn công ty.

Dự án này đã được bắt đầu từ năm ngoái và trong năm tài chính hiện tại, chúng tôi đã tái cấu trúc dự án theo ba trụ cột chính: Project, OrganizationBrand.

Mục tiêu rõ ràng cho từng phòng ban

Mỗi bộ phận đã đặt ra các mục tiêu cụ thể, xác định rõ thời hạn và hành động cần thực hiện. Điều đặc biệt là không chỉ các kỹ sư mà cả bộ phận hành chính và kinh doanh cũng đều tích cực tham gia vào việc ứng dụng AI vào công việc hàng ngày.

Chẳng hạn, bộ phận hành chính đang thử nghiệm sử dụng AI để tự động hóa việc soạn thảo tài liệu và tổng hợp dữ liệu, trong khi bộ phận kinh doanh đang áp dụng AI để tối ưu hóa việc tạo đề xuất và giao tiếp với khách hàng. Những nỗ lực này đã và đang giúp tăng tốc quy trình làm việc và cải thiện chất lượng đầu ra trong toàn công ty.

Truyền thông nội bộ sáng tạo

Hình ảnh bên trên là poster do bộ phận hành chính thiết kế để quảng bá nội bộ cho “AI No.1 Project”. Đây là một ví dụ điển hình cho việc tất cả các bộ phận đều tích cực không chỉ thực hiện mà còn thúc đẩy nhận thức chung về ý nghĩa và lợi ích của dự án trong toàn công ty.

Định hướng tương lai

Scuti sẽ tiếp tục đầu tư vào công nghệ AI sinh dữ liệu để đẩy mạnh chuyển đổi nội bộ và cung cấp các giải pháp thực tiễn, hiệu quả cao cho khách hàng. Từ công cụ nâng cao hiệu suất công việc đến AI-OCR, chúng tôi không ngừng mở rộng danh mục dịch vụ.

Với vị thế là công ty phát triển phần mềm tại Việt Nam có thế mạnh về AI sinh dữ liệu, chúng tôi hướng tới việc dẫn đầu không chỉ về công nghệ mà còn trong ứng dụng thực tế. Hãy cùng theo dõi những bước tiến tiếp theo của chúng tôi trong lĩnh vực đầy hứa hẹn này.

AI No.1 Project: Accelerating Productivity with Gen AI Through Three Core Pillars

New board of AI No.1 Project

 

Hello, my name is Kakeya, CEO of Scuti.

We are a Vietnam-based offshore development company with expertise in generative AI. We offer services such as generative AI consulting and generative AI-OCR. Recently, we’ve been fortunate to receive a growing number of inquiries for system development integrated with generative AI.

At Scuti, we are proud to promote our internal initiative, the “AI No.1 Project”, designed to enhance our organization’s productivity and deepen our understanding and use of generative AI technologies.

This project began last year, and from this fiscal term, we have redefined its focus around three strategic pillars: Project, Organization, and Brand.

Clear Goals for Every Department

Each department has set clear goals on what needs to be achieved and by when. This project is not limited to engineers — it spans across the entire company, including our back office and sales teams. Everyone is actively participating in integrating generative AI into their daily work.

For instance, our back office team is exploring ways to automate document preparation and data aggregation using AI, while the sales department is testing tools to streamline proposal creation and client communications. These efforts are already contributing to faster workflows and improved output quality across the company.

Visualizing the Movement

The image shown above is a poster created by our back office team to promote the “AI No.1 Project” internally. It’s a great example of how all teams are engaged not just in executing the project but also in fostering a company-wide understanding of its purpose and benefits.

Future Direction

Scuti remains committed to leveraging generative AI to drive internal transformation and to deliver practical, high-impact solutions to our clients. From AI-based productivity tools to AI-OCR and beyond, we are continuously expanding our service offerings.

As a Vietnam-based development company with a strong focus on generative AI, we aim to lead not only in technology but in its real-world application. Stay tuned for more updates as we continue evolving in this exciting space.