1. Bài toán thật sự của GenAI hiện nay

Khi hệ thống GenAI bước ra khỏi giai đoạn thử nghiệm, vấn đề lớn nhất không còn là “model này có thông minh không”, mà là: chúng ta đang dùng model nào cho từng yêu cầu cụ thể.

Trong thực tế production, phần lớn request là đơn giản: hỏi–đáp, tóm tắt ngắn, chỉnh sửa câu chữ. Nhưng vẫn tồn tại những request khó: phân tích dữ liệu, suy luận nhiều bước, viết tài liệu kỹ thuật dài.

Nếu toàn bộ hệ thống chỉ dùng một model mạnh nhất, chi phí sẽ tăng rất nhanh và latency khó kiểm soát. Nếu tự viết logic chọn model, code sẽ phình to, khó bảo trì và khó audit.

Model Router xuất hiện đúng tại điểm “đau” này của kiến trúc GenAI.

2. Model Router không phải là “một model thông minh hơn”

Hiểu đúng: Model Router không nhằm tạo ra câu trả lời tốt hơn trực tiếp. Nó là một lớp điều phối (orchestration layer) được đóng gói dưới dạng một model deployable.

Khi nhận một request chat completion, Model Router:

  1. Phân tích prompt: mục đích, loại tác vụ, mức độ suy luận cần thiết.
  2. Đối chiếu với cấu hình routing mà bạn đã thiết lập.
  3. Chọn một model nền phù hợp nhất trong danh sách cho phép.

Application không cần – và cũng không nên – biết model nào được chọn. Ở góc nhìn hệ thống, Model Router chính là “cửa ngõ duy nhất” dẫn vào thế giới LLM.

3. Routing mode là quyết định chiến lược, không phải cấu hình phụ

Khi triển khai Model Router, routing mode quyết định cách router đánh đổi giữa chất lượng – chi phí – độ trễ.

3.1. Balanced – lựa chọn mặc định cho hệ thống sống lâu dài

Balanced mode cố gắng tối ưu tổng thể. Những request đơn giản sẽ được xử lý bởi model nhỏ, rẻ và nhanh. Những request phức tạp hơn sẽ được đẩy lên model mạnh hơn.

Đây là mode phù hợp nhất cho đa số hệ thống SaaS và internal tool, nơi chất lượng ổn định quan trọng hơn việc “mỗi câu trả lời đều hoàn hảo”.

3.2. Quality – khi sai một lần là trả giá lớn

Quality mode ưu tiên chọn model mạnh ngay từ đầu. Nó phù hợp với các tác vụ: phân tích rủi ro, viết tài liệu chuẩn, hoặc hỗ trợ quyết định kinh doanh.

Đổi lại, chi phí trung bình mỗi request sẽ cao hơn đáng kể. Đây là lựa chọn chiến lược, không nên dùng tràn lan.

3.3. Cost – tối ưu cho quy mô lớn và ngân sách cố định

Cost mode ưu tiên model rẻ và nhanh. Phù hợp với chatbot FAQ, hỗ trợ khách hàng cơ bản, hoặc các hệ thống có traffic rất lớn.

Mode này chấp nhận hy sinh một phần khả năng suy luận để đổi lấy khả năng mở rộng và kiểm soát chi phí.

4. Model Subset – nơi kiến trúc và governance gặp nhau

Model Subset cho phép bạn chỉ định rõ: những model nào được phép tham gia vào quyết định routing.

Trong môi trường enterprise hoặc outsource, đây là phần quan trọng nhất:

  • Đáp ứng yêu cầu compliance của từng khách hàng.
  • Chặn các model chi phí cao khỏi dự án ngân sách thấp.
  • Đảm bảo dữ liệu không vượt ra ngoài data boundary cho phép.

Một sai lầm phổ biến là thiết kế subset quá “chặt”. Nếu subset chứa model có context window nhỏ, các request dài có thể thất bại dù hệ thống có model mạnh hơn.

Vì vậy, Model Subset cần được thiết kế như một phần của kiến trúc, không phải checkbox cấu hình.

5. Triển khai: đơn giản ở code, phức tạp ở tư duy hệ thống

Về mặt kỹ thuật, gọi Model Router không khác gì gọi một model chat thông thường. Bạn deploy router, lấy endpoint, và gọi Chat Completions API.

// Pseudo example
POST /chat/completions
{
  "messages": [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Đánh giá tiến độ dự án và rủi ro hiện tại."}
  ]
}
// Deployment được trỏ tới model-router

Sự phức tạp thật sự nằm ở: logging, retry, fallback, quota, và cách bạn đo lường hiệu quả của routing theo thời gian.

6. Góc nhìn thực tế cho team outsource và hệ thống nhiều dự án

Với team outsource, Model Router giúp chuẩn hoá cách dùng AI trên nhiều dự án khác nhau.

Mỗi dự án có thể có:

  • Routing mode riêng.
  • Model subset riêng.
  • Quota và billing tách biệt.

Ở góc nhìn dài hạn, Model Router giúp giảm gánh nặng cho developer: họ không cần liên tục suy nghĩ “nên dùng model nào”, mà tập trung vào logic nghiệp vụ.

Đây không chỉ là tối ưu chi phí, mà là tối ưu tư duy kiến trúc GenAI.