Bước tiến của AI Agent: Khả năng lập luận, lập kế hoạch, thực thi trong kỷ nguyên mới

Xin chào các bạn, tôi là Quỳnh Nga!

AI đang là một chủ đề cực kỳ nóng hổi, thu hút sự quan tâm trên toàn cầu. Hòa cùng tinh thần “tự học” sôi nổi tại công ty, tuần này tôi đã tìm hiểu về Bước tiến của AI Agent trong kỷ nguyên mới – một chủ đề đầy thú vị và hứa hẹn nhiều đột phá. Hãy cùng khám phá trong bài viết này nhé!

1. Khả năng và hạn chế hiện tại của các hệ thống AI Agent

AI Agent, hay tác tử AI, đang nổi lên như một bước tiến quan trọng trong lĩnh vực trí tuệ nhân tạo. Không còn dừng lại ở những tác vụ đơn giản, AI Agent được thiết kế để thực hiện các mục tiêu phức tạp, đòi hỏi khả năng lập luận, lập kế hoạch và tương tác với môi trường bên ngoài thông qua các công cụ (tool).

Khả năng

  • Lập luận (Reasoning): Các AI Agent hiện đại, đặc biệt là những agent dựa trên mô hình ngôn ngữ lớn (LLM), có khả năng suy luận logic, giải quyết vấn đề và đưa ra quyết định dựa trên thông tin đầu vào.
  • Lập kế hoạch (Planning): AI Agent có thể xây dựng kế hoạch hành động chi tiết để đạt được mục tiêu, bao gồm việc chia nhỏ mục tiêu lớn thành các nhiệm vụ nhỏ hơn, sắp xếp thứ tự thực hiện và điều chỉnh kế hoạch khi có thông tin mới.
  • Gọi công cụ (Tool Calling): Khả năng tương tác với các công cụ bên ngoài (ví dụ: API, cơ sở dữ liệu, ứng dụng) cho phép AI Agent mở rộng phạm vi hoạt động, truy cập thông tin và thực hiện các hành động trong thế giới thực.
  • Tự học và Thích ứng: Một số AI Agent có khả năng học hỏi từ kinh nghiệm, tự cải thiện hiệu suất và thích ứng với các tình huống mới.

Hạn chế

  • Phụ thuộc vào Dữ liệu Huấn luyện: Hiệu suất của AI Agent phụ thuộc rất nhiều vào chất lượng và số lượng dữ liệu huấn luyện. Dữ liệu thiên vị hoặc không đầy đủ có thể dẫn đến kết quả không chính xác hoặc không mong muốn.
  • Khả năng Giải thích (Explainability): Việc hiểu rõ quá trình ra quyết định của AI Agent, đặc biệt là các agent dựa trên mô hình học sâu (deep learning), vẫn còn là một thách thức lớn.
  • Khả năng Tổng quát hóa (Generalization): AI Agent có thể hoạt động tốt trong các tình huống đã được huấn luyện, nhưng gặp khó khăn khi đối mặt với các tình huống mới, chưa từng gặp.
  • Vấn đề về An toàn và Đạo đức: Cần có các biện pháp kiểm soát chặt chẽ để đảm bảo AI Agent hoạt động an toàn, tuân thủ các quy tắc đạo đức và không gây hại cho con người.

2. Những hiểu biết sâu sắc từ việc quan sát các hệ thống AI Agent trong thực tế

Sơ đồ phương pháp AutoGPT+P

Việc triển khai AI Agent trong các ứng dụng thực tế đã mang lại nhiều bài học quý giá:

  • Tầm quan trọng của ngữ cảnh: Hiệu suất của AI Agent phụ thuộc rất nhiều vào ngữ cảnh cụ thể của ứng dụng. Việc hiểu rõ yêu cầu, ràng buộc và mục tiêu của bài toán là yếu tố then chốt để thiết kế và triển khai AI Agent thành công.
  • Sự tương tác giữa Con người và AI Agent: Trong nhiều trường hợp, sự hợp tác giữa con người và AI Agent mang lại kết quả tốt nhất. Con người có thể cung cấp hướng dẫn, giám sát và can thiệp khi cần thiết, trong khi AI Agent đảm nhận các tác vụ lặp đi lặp lại, tốn thời gian hoặc đòi hỏi khả năng xử lý dữ liệu lớn.
  • Vòng lặp phản hồi (Feedback Loop): Việc thu thập phản hồi từ người dùng và môi trường là rất quan trọng để cải thiện hiệu suất của AI Agent. Phản hồi có thể được sử dụng để điều chỉnh kế hoạch, cập nhật kiến thức và khắc phục các lỗi sai.
  • Tính linh hoạt và khả năng mở rộng: Các hệ thống AI Agent cần được thiết kế để có thể dễ dàng thích ứng với các thay đổi trong môi trường, yêu cầu của người dùng và sự phát triển của công nghệ.

3. Những cân nhắc quan trọng cho sự phát triển AI Agent trong tương lai

Để AI Agent có thể phát huy hết tiềm năng, cần tập trung vào các khía cạnh sau:

  • Nghiên cứu về các kiến trúc AI Agent mới: Cần tiếp tục khám phá các kiến trúc AI Agent tiên tiến, kết hợp các phương pháp học máy khác nhau (ví dụ: học tăng cường, học sâu, học quy nạp) để nâng cao khả năng lập luận, lập kế hoạch và ra quyết định.
  • Phát triển các công cụ và Framework hỗ trợ: Cần có các công cụ và framework mạnh mẽ để giúp các nhà phát triển xây dựng, kiểm thử và triển khai AI Agent một cách dễ dàng và hiệu quả.
  • Tăng cường khả năng Giải thích và tính Minh bạch: Cần có các phương pháp để làm cho quá trình ra quyết định của AI Agent trở nên dễ hiểu hơn đối với con người, giúp tăng cường sự tin tưởng và chấp nhận của người dùng.
  • Đảm bảo An toàn và Đạo đức: Cần có các quy tắc, tiêu chuẩn và cơ chế kiểm soát để đảm bảo AI Agent hoạt động an toàn, không gây hại và tuân thủ các giá trị đạo đức của xã hội.
  • Nghiên cứu về tương tác giữa Con người và AI Agent: Cần hiểu rõ hơn về cách con người và AI Agent có thể hợp tác hiệu quả, tận dụng thế mạnh của cả hai bên để giải quyết các vấn đề phức tạp.

4. So sánh và đối chiếu kiến trúc Single-Agent và Multi-Agent

Có hai kiến trúc chính cho AI Agent: Single-Agent (tác tử đơn) và Multi-Agent (đa tác tử). Mỗi loại có ưu điểm và nhược điểm riêng, phù hợp với các loại bài toán khác nhau.

  • Single-Agent:
    • Ưu điểm: Đơn giản, dễ triển khai, phù hợp với các bài toán có phạm vi hẹp, yêu cầu rõ ràng.
    • Nhược điểm: Khó giải quyết các bài toán phức tạp, đòi hỏi sự phối hợp của nhiều tác tử. Khó khăn trong việc mở rộng và thích ứng với các thay đổi.
    • Ví dụ: ReAct, RAISE, Reflexion, AutoGPT + P, LATS. (Xem Hình 2 ở trang 5, Hình 3 ở trang 5, Hình 4 ở trang 6 để biết thêm chi tiết).

Một ví dụ về phương pháp ReAct so với các phương pháp khác

  • Multi-Agent:
    • Ưu điểm: Có thể giải quyết các bài toán phức tạp, đòi hỏi sự phối hợp của nhiều tác tử. Dễ dàng mở rộng và thích ứng với các thay đổi. Tăng cường khả năng phục hồi và độ tin cậy.
    • Nhược điểm: Phức tạp hơn, khó triển khai hơn. Đòi hỏi cơ chế giao tiếp và phối hợp giữa các tác tử.
    • Phân loại:
      • Kiến trúc dọc (Vertical Architectures): Có một tác tử lãnh đạo điều phối các tác tử khác.
      • Kiến trúc ngang (Horizontal Architectures): Các tác tử bình đẳng, giao tiếp trực tiếp với nhau.

 

  • Ví dụ: Embodied LLM Agents Learn to Cooperate in Organized Teams, DyLAN, AgentVerse, MetaGPT.

Đội ngũ AI Agent với trưởng nhóm được chỉ định rõ ràng sẽ có hiệu năng cao hơn.

 

Sơ đồ phương pháp AgentVerse

5. Tầm quan trọng của Reasoning, Planning và Tool Calling trong hệ thống AI Agent

Sơ đồ thể hiện phương pháp RAISE

Reasoning (lập luận), Planning (lập kế hoạch) và Tool Calling (gọi công cụ) là ba thành phần cốt lõi của một hệ thống AI Agent mạnh mẽ.

  • Reasoning: Cho phép AI Agent suy luận logic, giải quyết vấn đề và đưa ra quyết định dựa trên thông tin đầu vào.
  • Planning: Cho phép AI Agent xây dựng kế hoạch hành động chi tiết để đạt được mục tiêu.
  • Tool Calling: Cho phép AI Agent tương tác với môi trường bên ngoài, truy cập thông tin và thực hiện các hành động.

Sự kết hợp của ba thành phần này cho phép AI Agent giải quyết các bài toán phức tạp trong thế giới thực, vượt xa khả năng của các hệ thống AI truyền thống.

6. Kết luận

AI Agent đang mở ra một kỷ nguyên mới cho trí tuệ nhân tạo, với tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực. Tuy nhiên, vẫn còn nhiều thách thức cần vượt qua, bao gồm việc cải thiện khả năng lập luận, lập kế hoạch, gọi công cụ, tăng cường khả năng giải thích, đảm bảo an toàn và đạo đức, và phát triển các kiến trúc AI Agent tiên tiến. Việc giải quyết những thách thức này sẽ giúp AI Agent trở thành một công cụ mạnh mẽ, hỗ trợ con người giải quyết các vấn đề phức tạp và thúc đẩy sự phát triển của xã hội.

DeepSeek: Cuộc cách mạng Vertical SaaS với AI

Chào bạn! Bạn đã bao giờ cảm thấy việc xây dựng một ứng dụng SaaS chuyên biệt (theo chiều dọc) được hỗ trợ bởi AI là cực kỳ tốn kém và phức tạp chưa? Đó là một nỗi đau chung – việc truy cập và chạy các Mô hình ngôn ngữ lớn (LLM) mạnh mẽ đó có thể nhanh chóng làm cạn kiệt tài nguyên của bạn. DeepSeek, một mô hình AI mới, có thể là câu trả lời. Nó đang làm rung chuyển mọi thứ bằng cách cung cấp hiệu suất tương đương với những gã khổng lồ như OpenAI nhưng với chi phí thấp hơn nhiều. 

Trong bài viết này, chúng ta sẽ đi sâu vào cách DeepSeek đang thay đổi cuộc chơi cho các công ty khởi nghiệp ứng dụng AI, đặc biệt là trong không gian SaaS dọc.

DeepSeek và Bối cảnh Ứng dụng AI

DeepSeek là gì và tại sao nó lại là yếu tố thay đổi cuộc chơi?

DeepSeek là một nền tảng AI tiên tiến cung cấp các công cụ để xử lý ngôn ngữ tự nhiên, phân tích dữ liệu và tự động hóa. Mô hình suy luận r1 của nó, được phát triển ở Trung Quốc với chi phí dưới 6 triệu đô la, đang cạnh tranh trực tiếp với các mô hình từ các công ty như OpenAI, vốn đã chi hàng trăm triệu cho việc phát triển. Sự khác biệt về giá này đặt ra một câu hỏi quan trọng: chúng ta có đang trả quá cao cho AI không? DeepSeek được thiết kế để hoạt động ở mức tương tự như các LLM tiên tiến khác nhưng đòi hỏi sức mạnh tính toán ít hơn đáng kể.

Tác động của DeepSeek đối với các công ty mô hình nền tảng

Việc phát hành mô hình r1 của DeepSeek đã gây ra nhiều cuộc thảo luận trong ngành VC và AI. Những lo ngại đang gia tăng về định giá của các công ty mô hình nền tảng như OpenAI và Mistral AI. Giá cổ phiếu của Nvidia, một nhà sản xuất chip lớn, đã giảm đáng kể sau khi DeepSeek ra mắt. Câu chuyện phần lớn tập trung vào việc mô hình hiệu quả, chi phí thấp này đe dọa hàng tỷ đô la đầu tư vào các mô hình nền tảng như thế nào (15,7 tỷ đô la trên toàn cầu trong ba quý đầu năm ngoái, theo dữ liệu của PitchBook).

Dân chủ hóa AI và giảm rào cản gia nhập

Một trong những thách thức đáng kể đối với các công ty khởi nghiệp ứng dụng AI là chi phí truy cập hoặc chạy LLM. Họ phải đối mặt với phí truy cập API cao hoặc nhu cầu xây dựng sức mạnh tính toán đáng kể. DeepSeek làm giảm đáng kể những rào cản này. Bản chất nguồn mở của nó cũng cho phép tùy chỉnh dữ liệu nhiều hơn cho các trường hợp sử dụng cụ thể, làm cho nó đặc biệt có lợi cho các công ty khởi nghiệp AI dọc. Đây là những công ty tập trung vào các ngành công nghiệp thích hợp, cho phép họ xây dựng các ứng dụng có tính tùy biến cao.

Ưu điểm của DeepSeek đối với Vertical SaaS

How AI OCR Works: The Process Of Converting Images To Text

Tăng cường hiệu quả và kinh tế khởi nghiệp

Chi phí hoạt động thấp hơn của DeepSeek cho phép các công ty khởi nghiệp đưa các sản phẩm hỗ trợ AI ra thị trường nhanh hơn. Điều này đặc biệt quan trọng đối với các công ty khởi nghiệp bên ngoài Hoa Kỳ, đặc biệt là ở châu Âu, nơi thiếu vốn thường được coi là rào cản lớn đối với việc mở rộng quy mô. DeepSeek giúp san bằng sân chơi. Với một mô hình AI có giá cả phải chăng hơn, các công ty khởi nghiệp có thể đạt được các mốc quan trọng với ít kinh phí hơn, mang lại lợi ích cho các nhà đầu tư ban đầu. 

DeepSeek không chỉ giúp các startups tiết kiệm chi phí về mặt tính toán, mà còn tạo điều kiện cho việc thử nghiệm và triển khai các ý tưởng mới một cách nhanh chóng. Việc giảm bớt gánh nặng tài chính cho phép các công ty tập trung nguồn lực vào phát triển sản phẩm, marketing và các hoạt động kinh doanh cốt lõi khác. Thêm vào đó, khả năng tùy biến cao của DeepSeek cho vertical SaaS cho phép các công ty điều chỉnh mô hình theo nhu cầu riêng, thay vì phải phụ thuộc vào các giải pháp AI “một kích cỡ vừa cho tất cả”.

Hiệu suất và khả năng chưng cất của DeepSeek

Các mô hình của DeepSeek được thiết kế để hiệu quả. Điều thú vị là, việc chưng cất kiến thức từ mô hình DeepSeek R1 lớn hơn sang các mô hình nhỏ hơn thông qua Tinh chỉnh phần mềm (SFT) thường mang lại kết quả tốt hơn so với việc áp dụng trực tiếp quy trình Học tăng cường (RL). Điều này lặp lại những quan sát từ những ngày đầu của ChatGPT, nơi việc tinh chỉnh đơn giản trên dữ liệu chất lượng cao từ các mô hình lớn hơn đã tạo ra kết quả tuyệt vời.

Ứng dụng thực tế và ý kiến chuyên gia

Một số chuyên gia SaaS đã thử nghiệm DeepSeek AI trong nhiều trường hợp sử dụng khác nhau:

  • Tự động hóa hỗ trợ khách hàng: Khả năng xử lý ngôn ngữ tự nhiên của DeepSeek cho phép trả lời nhanh chóng, nhận biết ngữ cảnh, giảm khối lượng công việc thủ công.
  • Tự động hóa tập lệnh Python: DeepSeek có thể làm sạch và cấu trúc dữ liệu khách hàng, tạo mã hiệu quả và chức năng.
  • Phân tích tài liệu pháp lý: DeepSeek có thể sàng lọc qua một lượng lớn dữ liệu pháp lý không có cấu trúc, xác định chính xác những thông tin chi tiết quan trọng một cách nhanh chóng.
  • Tạo nội dung thân thiện với SEO: DeepSeek có thể tạo các bản nháp có cấu trúc, giàu nghiên cứu, đặc biệt là cho các chủ đề kỹ thuật.
  • Tự động hóa phân tích đối thủ cạnh tranh: DeepSeek có thể quét và tóm tắt những thông tin chi tiết quan trọng từ nhiều nguồn, làm nổi bật các mô hình định giá, tình cảm của khách hàng và các xu hướng mới nổi.
  • Tăng cường các chiến lược PR kỹ thuật số: Phân tích của DeepSeek AI để điều chỉnh nội dung cho các đối tượng cụ thể và cải thiện mức độ tương tác của khán giả.
  • Thực hiện nghiên cứu thị trường trong SaaS: DeepSeek có thể tìm thấy các điểm chuẩn lương cho các vai trò kỹ thuật, bằng cách tìm các bài đăng tuyển dụng ẩn.

Nhược điểm và cân nhắc tiềm năng

The Evolution of OCR Technology: From the Past to the Present, and into the Future

Hạn chế trong các tác vụ hội thoại và nội dung sáng tạo

Mặc dù DeepSeek vượt trội trong việc xử lý các tập dữ liệu lớn và tạo ra các đầu ra có cấu trúc, nhưng nó có thể gặp khó khăn với nội dung sáng tạo, hấp dẫn và các tác vụ hội thoại. Đối với nội dung tiếp thị hoặc bài đăng trên blog, nó có thể cảm thấy cứng nhắc và nặng về dữ liệu. ChatGPT thường vượt trội hơn trong việc tạo nội dung tự nhiên, thân thiện với khán giả. DeepSeek, trong một số trường hợp, có thể đưa ra các câu trả lời thiếu sắc thái hoặc không phù hợp với giọng điệu của thương hiệu.

Lo ngại về bảo mật và quyền riêng tư dữ liệu

Có những lo ngại về bảo mật và quyền riêng tư dữ liệu của DeepSeek, đặc biệt là liên quan đến mối liên hệ của nó với một công ty Trung Quốc và khả năng truy cập dữ liệu tiềm ẩn của chính phủ Trung Quốc. Một đánh giá của công ty tuân thủ AI LatticeFlow AI đã tìm thấy các lỗ hổng tấn công mạng đáng kể trong mô hình. Cụ thể, báo cáo của LatticeFlow AI chỉ ra rằng DeepSeek có thể dễ bị tấn công bởi các phương pháp “prompt injection” (chèn câu lệnh), trong đó kẻ tấn công có thể thao túng đầu vào của mô hình để tạo ra kết quả không mong muốn hoặc tiết lộ thông tin nhạy cảm. 

Ngoài ra, do DeepSeek được phát triển ở Trung Quốc, các công ty và cá nhân sử dụng nó có thể phải tuân theo luật và quy định về bảo mật dữ liệu của Trung Quốc, điều này có thể gây ra những lo ngại về quyền riêng tư và bảo mật cho người dùng bên ngoài Trung Quốc. Người dùng DeepSeek nên triển khai các biện pháp bảo mật mạnh mẽ, bao gồm kiểm tra đầu vào cẩn thận, giám sát đầu ra của mô hình và sử dụng các kỹ thuật mã hóa để bảo vệ dữ liệu nhạy cảm.

Quy trình đào tạo của DeepSeek

DeepSeek sử dụng một quy trình đào tạo phức tạp, kết hợp nhiều kỹ thuật học máy khác nhau. Điều này bao gồm cả việc tận dụng các mô hình ngôn ngữ lớn hiện có, tự động hoá thu thập và gán nhãn dữ liệu. Việc hiểu rõ quy trình này giúp các nhà phát triển hiểu rõ hơn về cách thức hoạt động và tối ưu hiệu quả.

Mô hình DeepSeek r10: Học tăng cường từ đầu

Mô hình DeepSeek r10 được phát triển bằng cách sử dụng Học tăng cường (RL) trực tiếp trên mô hình cơ sở DeepSeek V3, *không* sử dụng bất kỳ dữ liệu Tinh chỉnh có giám sát (SFT) nào làm khởi đầu. Điều này rất quan trọng vì nó chứng minh khả năng suy luận có thể được cải thiện đáng kể, ngay cả khi không có dữ liệu giám sát ban đầu. Một câu lệnh đơn giản đã được sử dụng để cho phép mô hình cơ sở tạo ra các thẻ cần thiết cho RL. Họ đã sử dụng các đầu ra có thể kiểm chứng (phần thưởng không-một).

Mô hình DeepSeek R1: Cách tiếp cận đa giai đoạn

Mô hình R1 sử dụng một quy trình đa giai đoạn, phức tạp hơn. Họ đã thu thập một lượng lớn dữ liệu SFT, và quy trình RLHF thông thường được áp dụng.

Điều này bao gồm:

  1. Dữ liệu Chuỗi suy nghĩ khởi đầu: Một vài nghìn ví dụ về dữ liệu Chuỗi suy nghĩ (CoT) dài được sử dụng, như đã đề cập trong bài viết nguồn.
  2. SFT: Tinh chỉnh có giám sát được thực hiện trên mô hình cơ sở.
  3. Lấy mẫu từ chối: Nhiều đầu ra được tạo ra từ mô hình, và một cơ chế lựa chọn (ví dụ: dựa trên điểm số từ một mô hình phần thưởng) được sử dụng để chọn ra đầu ra tốt nhất. Các đầu ra không được chọn sẽ bị loại bỏ.
  4. RL: Học tăng cường được áp dụng ở giai đoạn cuối cùng.

Chưng cất: Một kỹ thuật mạnh mẽ

DeepSeek cũng khám phá việc chưng cất, trong đó kiến thức từ mô hình R1 lớn hơn được chuyển sang các mô hình nhỏ hơn. Họ nhận thấy rằng việc tinh chỉnh đơn giản các mô hình nhỏ hơn trên dữ liệu do mô hình R1 tạo ra thường mang lại hiệu suất tốt hơn so với việc áp dụng toàn bộ quy trình RL. Quá trình này bao gồm việc huấn luyện một mô hình nhỏ hơn, thường được gọi là “học sinh,” để bắt chước hành vi của mô hình lớn hơn, “giáo viên”. Mô hình học sinh học cách tạo ra các đầu ra tương tự như mô hình giáo viên, nhưng với ít tài nguyên tính toán hơn. 

Một ví dụ điển hình là việc sử dụng mô hình DeepSeek R1 để tạo ra một tập dữ liệu lớn các ví dụ, sau đó sử dụng tập dữ liệu này để huấn luyện một mô hình nhỏ hơn, chẳng hạn như một biến thể của mô hình QuEN. Kết quả cho thấy mô hình nhỏ hơn, được huấn luyện thông qua chưng cất, có thể đạt được hiệu suất tương đương hoặc thậm chí vượt trội so với mô hình lớn hơn trong một số nhiệm vụ nhất định.

Chi tiết kỹ thuật của phương pháp DeepSeek

DeepSeek, trong quá trình phát triển, có thể đã sử dụng các framework như Megatron hoặc các framework tương tự để hỗ trợ quá trình huấn luyện. Điều này cho thấy sự phức tạp đáng kể trong việc xây dựng và vận hành hạ tầng tính toán.

Mô hình phần thưởng và chiến lược nhắc nhở

DeepSeek sử dụng hai phần thưởng đơn giản:

  • Phần thưởng chính xác: Kiểm tra xem câu trả lời có đúng không.
  • Phần thưởng định dạng: Khuyến khích mô hình đặt quá trình suy nghĩ của nó giữa các thẻ “think” và “think” và câu trả lời giữa các thẻ “answer” và “answer”. Điều này có thể được thực hiện bằng cách sử dụng kiểm tra biểu thức chính quy.

Họ *không* sử dụng các mô hình phần thưởng kết quả hoặc quá trình, vì họ nhận thấy những điều này có thể dẫn đến hack phần thưởng.

Giải quyết việc trộn ngôn ngữ

Mô hình đôi khi thể hiện “trộn ngôn ngữ”, chuyển sang tiếng Trung Quốc ở giữa câu trả lời tiếng Anh. Để ngăn chặn điều này, một “phần thưởng nhất quán ngôn ngữ” đã được thêm vào. “Phần thưởng nhất quán ngôn ngữ” hoạt động bằng cách đo lường tỷ lệ các từ thuộc ngôn ngữ chính (ví dụ: tiếng Anh) trong phần “suy nghĩ” của mô hình. Nếu tỷ lệ này thấp hơn một ngưỡng nhất định, mô hình sẽ bị phạt. Điều này khuyến khích mô hình duy trì sự nhất quán trong ngôn ngữ được sử dụng trong suốt quá trình tạo văn bản. 

Ví dụ: nếu mô hình đang tạo một câu trả lời bằng tiếng Anh và đột nhiên chèn một cụm từ tiếng Trung Quốc vào phần “suy nghĩ”, phần thưởng nhất quán ngôn ngữ sẽ phát hiện sự không nhất quán này và áp dụng một hình phạt, làm giảm khả năng mô hình tiếp tục trộn lẫn ngôn ngữ. Ví dụ, nếu ngưỡng tỷ lệ từ tiếng Anh là 80%, và mô hình tạo ra một chuỗi suy nghĩ có 60% từ tiếng Anh và 40% từ tiếng Trung, nó sẽ nhận một hình phạt tương ứng.

Đào tạo đa giai đoạn

Quá trình đào tạo DeepSeek bao gồm nhiều giai đoạn, mỗi giai đoạn tập trung vào một khía cạnh cụ thể của hiệu suất mô hình.

  1. RL ban đầu trên dữ liệu suy luận: Giai đoạn này tập trung vào việc cải thiện khả năng suy luận logic của mô hình. DeepSeek sử dụng một tập dữ liệu lớn các ví dụ suy luận, chẳng hạn như các bài toán hoặc các câu hỏi logic, và huấn luyện mô hình để tạo ra các câu trả lời chính xác.
  2. Thu thập dữ liệu từ các miền khác: Sau khi mô hình đã đạt được mức độ thành thạo nhất định trong việc suy luận, nó được sử dụng để tạo ra dữ liệu từ các miền khác, chẳng hạn như các tác vụ ngôn ngữ tự nhiên tổng quát hoặc các cuộc hội thoại. 600k dữ liệu mới được thu thập từ mô hình cho vòng tiếp theo. Dữ liệu này được sử dụng để cải thiện khả năng của mô hình trong các lĩnh vực ngoài suy luận logic.
  3. RL thứ cấp: Giai đoạn cuối cùng của quá trình đào tạo liên quan đến việc tinh chỉnh mô hình bằng cách sử dụng học tăng cường. Ở giai đoạn này, một mô hình phần thưởng được sử dụng để đánh giá chất lượng của các đầu ra của mô hình, và mô hình được huấn luyện để tạo ra các đầu ra có điểm số cao hơn. Việc kết hợp các giai đoạn này giúp mô hình học cách tạo ra các câu trả lời chính xác, mạch lạc và phù hợp với ngữ cảnh.

Những gì không hoạt động

Bài báo cũng trình bày chi tiết các phương pháp *không* thành công:

  • Mô hình phần thưởng quá trình (PRM): Sử dụng PRM, như trong RLHF truyền thống, được phát hiện là kém hiệu quả hơn. Họ nghi ngờ điều này có thể là do khó khăn trong việc đào tạo một PRM đủ khả năng cho một mô hình lớn như vậy.
  • Tìm kiếm cây Monte Carlo (MCTS): MCTS, một thuật toán tìm kiếm được sử dụng rộng rãi trong các trò chơi và bài toán lập kế hoạch, đã không cho thấy sự cải thiện hiệu suất đáng kể khi áp dụng cho DeepSeek. Thuật toán MCTS hoạt động bằng cách xây dựng một cây tìm kiếm, trong đó các nút đại diện cho các trạng thái có thể có của hệ thống, và các cạnh đại diện cho các hành động. Thuật toán duyệt cây bằng cách mô phỏng các hành động ngẫu nhiên và sử dụng kết quả mô phỏng để ước tính giá trị của mỗi nút. Mặc dù MCTS đã rất thành công trong một số lĩnh vực, nhưng DeepSeek lại không cải thiện được. Các nhà nghiên cứu cho rằng điều này có thể do khó khăn trong việc đào tạo một mô hình đủ mạnh

Kết luận: Tương lai của các ứng dụng AI

Limitations of OCR and Future Prospects

Cuộc đua AI toàn cầu đã chuyển sang hiệu quả. Các mô hình AI sẽ cần phải tiết kiệm chi phí hơn để cạnh tranh. Trong khi các công ty mô hình nền tảng cạnh tranh để giành ưu thế, các công ty khởi nghiệp ứng dụng AI, đặc biệt là trong không gian SaaS dọc, đã sẵn sàng để tăng trưởng nhanh chóng, được thúc đẩy bởi những tiến bộ như DeepSeek. 

DeepSeek không chỉ là một công cụ; nó đại diện cho một sự thay đổi trong cách các công ty SaaS dọc có thể tiếp cận và triển khai AI. Bằng cách giảm chi phí và rào cản kỹ thuật, nó mở ra cơ hội cho sự đổi mới và cạnh tranh. Đối với các công ty vertical SaaS, DeepSeek mang lại lợi thế cạnh tranh đặc biệt. Ví dụ, một công ty SaaS trong lĩnh vực chăm sóc sức khỏe có thể sử dụng DeepSeek để phân tích hồ sơ bệnh án, chẩn đoán bệnh sớm, hoặc cá nhân hóa kế hoạch điều trị. Một công ty SaaS trong lĩnh vực tài chính có thể sử dụng DeepSeek để phát hiện gian lận, dự báo rủi ro, hoặc tối ưu hóa danh mục đầu tư. Việc giảm chi phí và tăng khả năng tùy chỉnh của DeepSeek giúp các công ty này tạo ra các giải pháp AI chuyên biệt, hiệu quả hơn so với việc sử dụng các mô hình AI tổng quát. 

Trong tương lai, chúng ta có thể mong đợi thấy nhiều công ty SaaS dọc hơn tận dụng sức mạnh của DeepSeek và các mô hình tương tự để tạo ra các giải pháp AI tùy chỉnh, mang lại giá trị cao hơn cho khách hàng của họ. Sự dân chủ hóa AI này có thể dẫn đến một làn sóng các ứng dụng SaaS dọc mới, tập trung vào các ngách cụ thể và giải quyết các vấn đề kinh doanh phức tạp.

CoRAG: Microsoft AI’s New Iterative AI

3. Speeding Up Contract Review in the Legal Industry
Are you struggling with AI models that give you inaccurate or unreliable information? It’s frustrating when large language models (LLMs) hallucinate or miss important details. But what if AI could reason and retrieve information like a human expert? Microsoft AI introduces CoRAG (Chain-of-Retrieval Augmented Generation), an AI framework designed for iterative retrieval and reasoning in knowledge-intensive tasks. This innovative approach dynamically reformulates queries and enhances accuracy. In this article, we’ll explore how CoRAG works, its benefits, and why it’s a game-changer for factual, grounded AI.

CoRAG: What is Chain-of-Retrieval?

Understanding CoRAG’s Core Concept

CoRAG, or Chain-of-Retrieval Augmented Generation, is a method developed by researchers from Microsoft Corporation and Renmin University of China. It aims to train Retrieval-Augmented Generation (RAG) models to iteratively retrieve and reason before generating answers. Unlike conventional RAG systems, CoRAG dynamically reformulates queries based on the evolving reasoning state. This iterative process allows the model to delve deeper into the knowledge base and refine its understanding of the query. CoRAG represents a significant advancement in the field of AI, offering a more robust and reliable approach to knowledge-intensive tasks.

By enabling models to iteratively retrieve and reason, CoRAG addresses the limitations of traditional RAG systems, which often struggle with complex or multi-hop queries. The framework’s ability to dynamically reformulate queries based on the evolving reasoning state allows for a more nuanced and accurate understanding of the information being sought. This iterative process helps address retrieval bottlenecks and improve performance on benchmarks and in real-world applications, marking a crucial step towards more trustworthy and factual AI. CoRAG supports diverse decoding strategies and adjusts test-time retrieval dynamically, further enhancing its adaptability.

Why CoRAG is a Game Changer

Traditional foundation models are trained on massive datasets and remain static post-deployment. CoRAG, however, enhances reliability by incorporating real-time or domain-specific information during the generation process. This integration addresses common issues such as hallucinations or gaps in long-tail factual knowledge. By allowing the AI to retrieve and reason in a chain-like manner, CoRAG achieves state-of-the-art results on benchmarks like KILT, particularly excelling in multi-hop reasoning tasks by addressing retrieval bottlenecks. This is because CoRAG’s dynamic query reformulation allows it to overcome the limitations of a single retrieval step, a common bottleneck in traditional RAG systems.

Recent advancements in RAG have introduced iterative retrieval-generation methods to overcome the limitations of a single retrieval step. Approaches like FLARE and ITER-RETGEN enable models to decide when and what to retrieve during generation, enhancing performance in complex reasoning tasks. Methods like IRCoT adopt chain-of-thought reasoning, refining retrieval steps recursively, while Self-RAG integrates retrieval, generation, and critique for improved factual accuracy. CoRAG builds upon these advancements by providing a comprehensive framework for training models to iteratively retrieve and reason, resulting in more grounded and factual AI models.

CoRAG vs. Conventional RAG Systems

Conventional RAG systems typically follow a sequential pipeline where retrieved information is provided as input to the generative model. The overall performance depends heavily on the quality of the retrieval process. CoRAG, conversely, dynamically reformulates queries during retrieval, enhancing accuracy. It supports diverse decoding strategies, adjusts test-time retrieval dynamically, and demonstrates robustness to varying retriever quality. This offers a pathway to more grounded and factual AI models. To ensure scalability, dense retrievers often use bi-encoder architectures for compressing documents and queries into fixed-size vectors, enabling efficient search algorithms.

However, this efficiency comes at the cost of reduced flexibility for handling complex or multi-hop queries, which require iterative reasoning and retrieval steps based on dynamically evolving information. CoRAG addresses this limitation by incorporating iterative retrieval and reasoning steps, allowing it to handle more complex queries with greater accuracy and achieve state-of-the-art results on benchmarks like KILT.

How CoRAG Works: Key Components

Retrieval Chain Generation

Retrieval chains are generated using rejection sampling. Intermediate sub-queries and sub-answers are iteratively formed, and the chain with the highest log-likelihood score is selected to augment datasets. This process helps the model learn how to break down complex queries into smaller, more manageable parts.

The CoRAG framework enhances RAG models through three key components: retrieval chain generation, model training, and test-time scaling strategies. This approach uses rejection sampling to augment datasets with intermediate retrieval chains, enabling fine-tuning of open-source models. The retrieval chains are automatically generated using rejection sampling, eliminating the need for manual annotations. The model iteratively forms sub-queries and sub-answers, selecting the chain with the highest log-likelihood score to augment the datasets.

Model Training with Augmented Datasets

Using a multi-task learning framework, the model is trained on these augmented datasets for sub-query, sub-answer, and final answer prediction. This approach ensures that the model not only retrieves relevant information but also understands how to use it to generate accurate and coherent responses.

CoRAG supports diverse decoding strategies and adjusts test-time retrieval dynamically. This is done using a multi-task learning framework, where the model learns to predict sub-queries, sub-answers, and final answers based on the augmented datasets. This comprehensive training regime is crucial for ensuring that the model not only retrieves relevant information but also understands how to effectively utilize it in generating coherent and accurate responses. By learning to predict intermediate steps, the model develops a deeper understanding of the underlying reasoning process, enabling it to handle complex queries with greater precision and enhancing accuracy.

Test-Time Scaling Strategies

At test time, decoding strategies like greedy decoding, best-of-N sampling, and tree search allow for controlling token consumption and retrieval steps. These approaches optimize the trade-off between performance and compute efficiency. The ability to adjust test-time retrieval dynamically allows CoRAG to adapt to varying retriever quality and task demands. This is a significant advantage over traditional RAG systems, which often rely on a fixed retrieval strategy. Scaling test-time computing has also been explored to boost RAG performance, with strategies such as retrieving more documents or using long-context LLMs, as seen in LongRAG and IterDRAG.

Tree-of-Thought (ToT) and STaR extend reasoning capabilities by leveraging structured exploration and intermediate training states, though these approaches increase token consumption and response latency. CoRAG seeks to balance performance with efficiency through adaptive decoding strategies that optimize token consumption and retrieval steps. These include greedy decoding, best-of-N sampling, and tree search.

CoRAG’s Performance: Evaluation and Results

How AI OCR Works: The Process Of Converting Images To Text

Benchmarks Used for Evaluation

The evaluation of CoRAG was conducted using two benchmarks:

  1. Multi-hop QA datasets, including 2WikiMultihopQA, HotpotQA, Bamboogle, and MuSiQue, to test multi-hop reasoning.
  2. The KILT benchmark for generalization across knowledge-intensive tasks.

These benchmarks provide a comprehensive assessment of CoRAG’s capabilities across a range of tasks. Multi-hop QA datasets are particularly important for evaluating the model’s ability to reason and synthesize information from multiple sources. The KILT benchmark, on the other hand, assesses the model’s ability to generalize across a variety of knowledge-intensive tasks, providing a measure of its overall versatility and robustness.

Fine-tuning and Outperformance

Fine-tuning was performed on Llama-3.1-8B-Instruct using retrieval chain-augmented datasets. CoRAG-8B significantly outperformed baselines in most multi-hop QA datasets. In the KILT benchmark, CoRAG achieved state-of-the-art performance across tasks. Specifically, CoRAG achieved state-of-the-art results on multi-hop QA datasets and the KILT benchmark, outperforming larger models. The evaluation of CoRAG was conducted using two benchmarks: (1) multi-hop QA datasets, including 2WikiMultihopQA, HotpotQA, Bamboogle, and MuSiQue, to test multi-hop reasoning, and (2) the KILT benchmark for generalization across knowledge-intensive tasks. Fine-tuning was performed on Llama-3.1-8B-Instruct using retrieval chain-augmented datasets.

CoRAG-8B significantly outperformed baselines in most multi-hop QA datasets, except Bamboogle, where limited instances and outdated retrieval data caused variability. In the KILT benchmark, CoRAG achieved state-of-the-art performance across tasks, except for FEVER, where a larger model slightly surpassed it. CoRAG achieves state-of-the-art results on benchmarks like KILT, particularly excelling in multi-hop reasoning tasks by addressing retrieval bottlenecks.

Scaling and Generalization Capabilities

Performance scaling experiments showed improvements with increased retrieval chain lengths and sampling strategies. Detailed analysis highlights its scaling and generalization capabilities, paving the way for advancing factual, grounded, and trustworthy AI systems in challenging tasks. The researchers from Microsoft Corporation and the Renmin University of China introduced CoRAG (Chain-of-Retrieval Augmented Generation), a method for training RAG models to iteratively retrieve and reason before generating answers.

Unlike traditional RAG methods that rely on a single retrieval step, CoRAG dynamically reformulates queries during retrieval, enhancing accuracy. This ability to scale and generalize is crucial for deploying AI systems in real-world scenarios, where they are likely to encounter a wide range of tasks and data distributions.

At test time, adaptive decoding strategies balance performance with computational efficiency, and intermediate retrieval chains are automatically generated using rejection sampling, eliminating the need for manual annotations. Performance scaling experiments showed improvements with increased retrieval chain lengths and sampling strategies. Detailed analysis highlights its scaling and generalization capabilities.

Benefits of CoRAG

What is OCR? Its Mechanism and Importance

Enhanced Accuracy and Groundedness

CoRAG dynamically reformulates queries during retrieval, enhancing accuracy. Intermediate retrieval chains are automatically generated using rejection sampling, eliminating the need for manual annotations. The CoRAG framework enhances RAG models through three key components: retrieval chain generation, model training, and test-time scaling strategies. Retrieval chains are generated using rejection sampling, where intermediate sub-queries and sub-answers are iteratively formed, and the chain with the highest log-likelihood score is selected to augment datasets. This iterative refinement ensures that the generated responses are not only accurate but also firmly grounded in the retrieved information.

Computational Efficiency

At test time, adaptive decoding strategies balance performance with computational efficiency, making CoRAG a practical solution for real-world applications. These approaches optimize the trade-off between performance and compute efficiency. These approaches allow for controlling token consumption and retrieval steps at test time. By dynamically adjusting the retrieval process and optimizing the decoding strategies, CoRAG achieves a balance between accuracy and computational cost.

State-of-the-Art Results

CoRAG achieves state-of-the-art results on multi-hop QA datasets and the KILT benchmark, outperforming larger models. CoRAG-8B significantly outperformed baselines in most multi-hop QA datasets, except Bamboogle, where limited instances and outdated retrieval data caused variability. In the KILT benchmark, CoRAG achieved state-of-the-art performance across tasks, except for FEVER, where a larger model slightly surpassed it. This highlights the effectiveness of CoRAG in tackling complex, knowledge-intensive tasks and its potential to surpass even larger models in terms of performance.

Future Implications of CoRAG

Conclusion

Paving the Way for Trustworthy AI

CoRAG offers a pathway to more grounded and factual AI models. It achieves state-of-the-art results on benchmarks like KILT, particularly excelling in multi-hop reasoning tasks by addressing retrieval bottlenecks. By addressing the retrieval bottlenecks and hallucination problems CoRAG contributes significantly to the field of trustworthy AI. The ability to dynamically reformulate queries and iteratively refine the retrieval process ensures that the generated responses are not only accurate but also grounded in reliable information sources.

Advancing Factual and Grounded AI Systems

The study presents CoRAG, a framework that trains LLMs to retrieve and reason through complex queries iteratively. Unlike traditional RAG methods that rely on a single retrieval step, CoRAG dynamically reformulates queries during retrieval, enhancing accuracy. Detailed analysis highlights its scaling and generalization capabilities, paving the way for advancing factual, grounded, and trustworthy AI systems in challenging tasks. This research demonstrates how to advance factual, grounded, and trustworthy AI systems, ultimately leading to more reliable and beneficial AI applications in various domains. CoRAG demonstrates robustness to varying retriever quality.

Agentic RAG: Giải pháp thông minh cho truy xuất dữ liệu

Bạn có bao giờ cảm thấy lạc lõng giữa biển thông tin? Trong thế giới bão hòa thông tin ngày nay, việc truy xuất đúng dữ liệu khi bạn cần là một kỳ công không hề nhỏ. Retrieval Augmented Generation (RAG) đã có những bước tiến đáng kể trong việc giải quyết thách thức này, đóng vai trò là một công cụ đáng tin cậy để sàng lọc qua vô số thông tin.

Tuy nhiên, khi nhu cầu của chúng ta về dữ liệu sắc thái và nhận biết ngữ cảnh hơn tăng lên, RAG một mình không phải lúc nào cũng đủ. Đó là nơi Agentic RAG xuất hiện — nâng cao RAG truyền thống với các khả năng nâng cao để không chỉ định vị thông tin mà còn hiểu sâu sắc và ưu tiên nó một cách thông minh. Về bản chất — Agentic RAG đánh dấu một sự thay đổi từ việc chỉ tìm kiếm dữ liệu sang tích cực tham gia vào nó theo những cách có ý nghĩa. Trong bài viết này, chúng ta sẽ cùng nhau khám phá Agentic RAG, từ khái niệm cơ bản đến ứng dụng thực tế, để bạn có thể hiểu rõ hơn về công nghệ đầy tiềm năng này.

Agentic RAG là gì? Tổng quan cho người mới

Agentic RAG: Hơn cả một công cụ tìm kiếm

Agentic RAG mô tả việc triển khai RAG dựa trên AI Agent. Cụ thể, nó kết hợp các AI Agent vào quy trình RAG để điều phối các thành phần của nó và thực hiện các hành động bổ sung vượt ra ngoài việc truy xuất và tạo thông tin đơn giản để khắc phục những hạn chế của quy trình không phải agentic.

Agentic RAG khác biệt như thế nào?

Điểm khác biệt lớn nhất của Agentic RAG so với RAG truyền thống là việc sử dụng các AI Agent thông minh. Các Agent này có khả năng phân tích dữ liệu một cách tự động, đưa ra quyết định chiến lược và thực hiện các quy trình suy luận đa bước. Điều này cho phép Agentic RAG xử lý các tác vụ phức tạp trên nhiều bộ dữ liệu lớn và đa dạng.

Agentic RAG giải quyết vấn đề gì?

Agentic RAG giải quyết những hạn chế của RAG truyền thống, bao gồm:

  1. Khó khăn trong việc ưu tiên thông tin từ các tập dữ liệu lớn.
  2. Bỏ qua kiến thức chuyên môn, chất lượng cao.
  3. Thiếu khả năng hiểu ngữ cảnh và mức độ liên quan của dữ liệu.

Nền tảng của Agentic RAG: RAG và AI Agent

RAG là gì?

Retrieval Augmented Generation (RAG) là một kỹ thuật xây dựng các ứng dụng được hỗ trợ bởi LLM. Nó tận dụng một nguồn kiến thức bên ngoài để cung cấp cho LLM ngữ cảnh phù hợp và giảm ảo giác. Một quy trình RAG đơn giản bao gồm một thành phần truy xuất (thường bao gồm một mô hình nhúng và cơ sở dữ liệu vector) và một thành phần tạo (LLM).

AI Agent là gì?

Với sự phổ biến của LLM, các mô hình mới của AI Agent và hệ thống đa Agent đã nổi lên. AI Agent là LLM có vai trò và nhiệm vụ, có quyền truy cập vào bộ nhớ và các công cụ bên ngoài. Khả năng lý luận của LLM giúp Agent lập kế hoạch các bước cần thiết và hành động để hoàn thành nhiệm vụ. Các thành phần cốt lõi của một AI Agent bao gồm: LLM (với vai trò và nhiệm vụ), bộ nhớ (ngắn hạn và dài hạn), lập kế hoạch (ví dụ: phản ánh, tự phê bình, định tuyến truy vấn, v.v.) và các công cụ (ví dụ: máy tính, tìm kiếm trên web, v.v.).

Agentic RAG: Triển khai RAG dựa trên AI Agent

Agentic RAG mô tả việc triển khai RAG dựa trên AI Agent. Cụ thể, nó kết hợp các AI Agent vào quy trình RAG để điều phối các thành phần của nó và thực hiện các hành động bổ sung vượt ra ngoài việc truy xuất và tạo thông tin đơn giản để khắc phục những hạn chế của quy trình không phải agentic.

Agentic RAG so với RAG (Vanilla): So sánh chi tiết

Sức mạnh của Agentic RAG: Sử dụng công cụ tổng quát hóa

Mặc dù khái niệm cơ bản của RAG (gửi truy vấn, truy xuất thông tin và tạo phản hồi) vẫn giữ nguyên, nhưng việc sử dụng công cụ tổng quát hóa nó, làm cho nó linh hoạt và mạnh mẽ hơn.

Ví dụ minh họa sự khác biệt

Hãy nghĩ về nó theo cách này: RAG thông thường (vanilla) giống như ở thư viện (trước khi điện thoại thông minh tồn tại) để trả lời một câu hỏi cụ thể. Mặt khác, Agentic RAG giống như có một chiếc điện thoại thông minh trong tay với trình duyệt web, máy tính, email, v.v.

Bảng so sánh Agentic RAG và Vanilla RAG

 Vanilla RAGAgentic RAG
Truy cập vào các công cụ bên ngoàiKhông
Xử lý trước truy vấnKhông
Truy xuất nhiều bướcKhông
Xác thực thông tin đã truy xuấtKhông

Kiến trúc Agentic RAG: Đơn Agent và Đa Agent

Kiến trúc Agentic RAG: Agent là trung tâm

Ngược lại với kiến trúc RAG tuần tự, cốt lõi của kiến trúc Agentic RAG là Agent. Kiến trúc Agentic RAG có thể có nhiều mức độ phức tạp khác nhau. Ở dạng đơn giản nhất, kiến trúc RAG đơn Agent là một bộ định tuyến đơn giản. Tuy nhiên, bạn cũng có thể thêm nhiều Agent vào kiến trúc RAG đa Agent.

RAG đơn Agent (Bộ định tuyến)

Ở dạng đơn giản nhất, Agentic RAG là một bộ định tuyến. Điều này có nghĩa là bạn có ít nhất hai nguồn kiến thức bên ngoài và Agent quyết định nguồn nào sẽ truy xuất thêm ngữ cảnh. Tuy nhiên, các nguồn kiến thức bên ngoài không bị giới hạn ở cơ sở dữ liệu (vector). Bạn cũng có thể truy xuất thêm thông tin từ các công cụ. Ví dụ: bạn có thể thực hiện tìm kiếm trên web hoặc bạn có thể sử dụng API để truy xuất thêm thông tin từ các kênh Slack hoặc tài khoản email của bạn.

Hệ thống RAG đa Agent

Như bạn có thể đoán, hệ thống đơn Agent cũng có những hạn chế của nó vì nó chỉ giới hạn ở một Agent duy nhất với lý luận, truy xuất và tạo câu trả lời trong một. Do đó, việc xâu chuỗi nhiều Agent vào một ứng dụng RAG đa Agent sẽ có lợi.

Ví dụ: bạn có thể có một Agent chính điều phối việc truy xuất thông tin giữa nhiều Agent truy xuất chuyên dụng. Ví dụ: một Agent có thể truy xuất thông tin từ các nguồn dữ liệu nội bộ độc quyền. Một Agent khác có thể chuyên về truy xuất thông tin từ tài khoản cá nhân của bạn, chẳng hạn như email hoặc trò chuyện. Một Agent khác cũng có thể chuyên về truy xuất thông tin công khai từ tìm kiếm trên web.

Các Agent chính trong quy trình RAG: Phân loại và chức năng

Các loại Agent trong quy trình RAG

Quy trình RAG sử dụng một số loại Agent, mỗi loại có một vai trò riêng trong quá trình truy xuất và tạo thông tin:

  • Agent định tuyến: Định hướng các truy vấn đến các nguồn liên quan nhất.
  • Agent lập kế hoạch truy vấn: Xử lý các truy vấn phức tạp bằng cách chia chúng thành các phần nhỏ hơn.
  • Agent Re-Act (Lý luận và Hành động): Cung cấp các phản hồi thích ứng bằng cách sử dụng dữ liệu thời gian thực và tương tác của người dùng.

Agent lập kế hoạch và thực thi động

  • Chức năng: Thích ứng và tối ưu hóa trong thời gian thực với dữ liệu và các yêu cầu đang phát triển.
  • Các lĩnh vực trọng tâm chính:
    • Lập kế hoạch dài hạn
    • Thông tin chi tiết về thực hiện
    • Hiệu quả hoạt động
    • Giảm thiểu sự chậm trễ
  • Phương pháp:
    • Tách biệt lập kế hoạch cấp cao khỏi các hành động ngắn hạn.
    • Tạo đồ thị tính toán toàn diện cho các kế hoạch truy vấn.
    • Sử dụng cả người lập kế hoạch (để tạo chiến lược) và người thực thi (để triển khai từng bước).

Công cụ hỗ trợ Agent trong RAG

Các công cụ là các thành phần thiết yếu hỗ trợ các Agent trong khuôn khổ RAG, cung cấp các tài nguyên và chức năng quan trọng:

  • Chức năng cốt lõi: Nhận dạng thực thể, phân tích tình cảm, tiền xử lý dữ liệu.
  • Khả năng bổ sung: Tóm tắt, dịch, tạo mã.
  • Vai trò: Nâng cao hiệu quả và tính linh hoạt của hệ thống RAG bằng cách cho phép các Agent thực hiện các tác vụ chuyên biệt.

Ứng dụng thực tế của Agentic RAG: Các trường hợp sử dụng cho doanh nghiệp

Ứng dụng Agentic RAG trong doanh nghiệp

Các tổ chức phải đối mặt với những thách thức đáng kể trong việc quản lý và tận dụng các nguồn dữ liệu rộng lớn của họ. Agentic RAG cung cấp các giải pháp sáng tạo cho những thách thức này, chuyển đổi các khía cạnh khác nhau của hoạt động kinh doanh, bao gồm nhưng không giới hạn ở:

  • Phản hồi truy vấn thích ứng theo thời gian thực: Đảm bảo nhân viên và khách hàng nhận được thông tin chính xác kịp thời.
  • Hỗ trợ tự động cho nhân viên và khách hàng: Cung cấp câu trả lời nhanh chóng và chính xác cho các câu hỏi của khách hàng.
  • Quản lý kiến thức nội bộ: Hợp lý hóa quyền truy cập vào thông tin quan trọng.
  • Hỗ trợ nghiên cứu và đổi mới: Giúp tổng hợp và trình bày dữ liệu liên quan.

Moveworks AI Assistant: Triển khai Agentic RAG

Moveworks đã phát triển một giải pháp AI Agentic sáng tạo giúp chuyển đổi cách các doanh nghiệp xử lý việc truy xuất thông tin và tự động hóa tác vụ. Bằng cách khai thác sức mạnh của Agentic RAG, hệ thống này cung cấp một phương pháp tinh vi để giải quyết các nhu cầu phức tạp của doanh nghiệp.

Việc triển khai RAG của Moveworks kết hợp hai yếu tố quan trọng:

  1. Khả năng LLM: Sử dụng khả năng tạo ngôn ngữ của LLM để tạo ra các phản hồi văn bản trôi chảy và phù hợp.
  2. Tích hợp kiến thức cụ thể: Kết hợp thông tin từ các nguồn kiến thức được tuyển chọn để đảm bảo các câu trả lời chính xác, theo miền cụ thể.

Phương pháp Agentic RAG này giải quyết những hạn chế của LLM truyền thống, có thể tạo ra các phản hồi hợp lý nhưng không chính xác do chỉ dựa vào dữ liệu đào tạo. Bằng cách tích hợp nội dung liên quan, cập nhật vào các phản hồi của LLM, Moveworks AI Assistant nhằm mục đích cung cấp các câu trả lời chính xác phù hợp với bối cảnh kinh doanh cụ thể.

Triển khai Agentic RAG: Các bước và công cụ

Các bước triển khai Agentic RAG

Việc áp dụng một khuôn khổ Agentic RAG có thể tăng cường đáng kể khả năng truy xuất và tạo dữ liệu của một tổ chức, cải thiện các quy trình ra quyết định và tự động hóa các quy trình làm việc phức tạp. Tuy nhiên, việc triển khai đòi hỏi một cách tiếp cận chiến lược và xem xét cẩn thận các yếu tố khác nhau.

  1. Đánh giá và lập kế hoạch ban đầu
    • Đánh giá các hệ thống hiện có.
    • Xác định các nguồn dữ liệu và công cụ cần thiết.
  2. Phân bổ nguồn lực và thiết lập nhóm
    • Tập hợp một đội ngũ lành nghề để phát triển và triển khai.
    • Đảm bảo đủ nguồn lực cho phát triển, thử nghiệm và triển khai.
  3. Tích hợp với các hệ thống hiện có
    • Tạo một kế hoạch để tích hợp trơn tru với cơ sở hạ tầng CNTT hiện tại.
    • Xác định các vấn đề tương thích tiềm ẩn.
    • Hiểu các nguồn dữ liệu, định dạng và điểm tích hợp.

Các thách thức tiềm ẩn khi triển khai Agentic RAG

Khi áp dụng một khuôn khổ Agentic RAG, một số thách thức triển khai phải được xem xét:

  • Chất lượng và tuyển chọn dữ liệu: Hiệu quả của các Agentic RAG phụ thuộc vào tính chính xác, đầy đủ và phù hợp của dữ liệu mà chúng sử dụng.
  • Khả năng diễn giải và giải thích: Các quy trình ra quyết định của Agent phải minh bạch và dễ hiểu.
  • Mối quan tâm về quyền riêng tư và bảo mật: Thực hiện các biện pháp bảo vệ dữ liệu nghiêm ngặt, kiểm soát truy cập và các giao thức liên lạc an toàn là rất quan trọng để bảo vệ quyền riêng tư của người dùng và ngăn chặn vi phạm dữ liệu.

Công cụ hỗ trợ triển khai Agentic RAG

  • LlamaIndex: LlamaIndex cung cấp một nền tảng vững chắc để xây dựng các hệ thống Agentic với khả năng lập chỉ mục và truy vấn dữ liệu hiệu quả.
  • LangChain: LangChain tăng cường xử lý chuỗi suy nghĩ và cung cấp một khuôn khổ linh hoạt để phát triển các ứng dụng với các mô hình ngôn ngữ lớn.

Tương lai của Agentic RAG: Xu hướng và công nghệ mới nổi

Xu hướng chính định hình tương lai của Agentic RAG

Khi chúng ta nhìn về phía trước, bối cảnh của Agentic RAG đang phát triển nhanh chóng, được thúc đẩy bởi các công nghệ sáng tạo và các trường hợp sử dụng mở rộng. Hãy khám phá một số xu hướng chính định hình tương lai của nó:

  1. Truy xuất đa phương thức: Các hệ thống trong tương lai sẽ tích hợp liền mạch văn bản, hình ảnh và âm thanh, cung cấp các phản hồi toàn diện và phong phú về ngữ cảnh hơn.
  2. Khả năng đa ngôn ngữ: Phá vỡ các rào cản ngôn ngữ, Agentic RAG sẽ hoạt động trên nhiều ngôn ngữ, mở rộng khả năng ứng dụng toàn cầu của nó.
  3. Xử lý ngôn ngữ tự nhiên nâng cao: Những cải tiến trong NLP sẽ cho phép hiểu truy vấn sắc thái hơn và tạo ra phản hồi giống con người hơn.
  4. Hội tụ công nghệ AI: Tích hợp với thị giác máy tính và nhận dạng giọng nói sẽ mở ra những tiềm năng mới, tạo ra các công cụ linh hoạt hơn.
  5. Khả năng giải thích và minh bạch: Khi các hệ thống này ngày càng phức tạp, sẽ có một sự tập trung ngày càng tăng vào việc làm cho các quy trình ra quyết định của chúng dễ hiểu hơn đối với người dùng.

Các ứng dụng và lợi ích trong tương lai

Các ứng dụng tiềm năng của Agentic RAG trải rộng trên nhiều ngành và chức năng:

  • Dịch vụ khách hàng và nhân viên: Xử lý các yêu cầu phức tạp với các phản hồi chính xác, được cá nhân hóa.
  • Trợ lý thông minh: Cung cấp các tương tác tự nhiên, nhận biết ngữ cảnh hơn.
  • Nghiên cứu khoa học: Tổng hợp lượng lớn dữ liệu để tạo ra các giả thuyết và hiểu biết mới.
  • Sáng tạo nội dung: Hỗ trợ các nhà văn và nhà tiếp thị trong việc tạo ra nội dung liên quan, chất lượng cao.
  • Giáo dục: Điều chỉnh trải nghiệm học tập theo nhu cầu của từng học sinh.
  • Chăm sóc sức khỏe: Hỗ trợ các chuyên gia y tế với thông tin cập nhật đồng thời duy trì quyền riêng tư của bệnh nhân.
  • Dịch vụ pháp lý: Hỗ trợ trong nghiên cứu pháp lý, chuẩn bị hồ sơ và giám sát tuân thủ.

Nắm bắt Agentic RAG: Mở ra tiềm năng dữ liệu

Agentic RAG đánh dấu một sự thay đổi mô hình trong truy xuất và tạo thông tin. Bằng cách giới thiệu các Agent thông minh có thể lý luận, lập kế hoạch và thực hiện các tác vụ phức tạp, nó vượt qua những hạn chế của các hệ thống RAG truyền thống.

Công nghệ chuyển đổi này trao quyền cho các tổ chức khai thác toàn bộ tiềm năng dữ liệu của họ, thúc đẩy sự đổi mới, cải thiện quá trình ra quyết định và nâng cao trải nghiệm của khách hàng.

Google Agentspace: Nền Tảng AI Cho Doanh Nghiệp 2025


Bạn có bao giờ cảm thấy “ngập lụt” trong hàng tá công cụ, email, tài liệu chỉ để tìm một thông tin cần thiết cho công việc? Bạn ước có một “trợ lý ảo” thông minh giúp bạn xử lý các tác vụ lặp đi lặp lại, tìm kiếm thông tin nhanh chóng và thậm chí là tự động hóa quy trình làm việc? Nếu câu trả lời là “Có”, thì Google Agentspace chính là giải pháp dành cho bạn. Google Agentspace là một nền tảng AI mới của Google, kết hợp sức mạnh của mô hình ngôn ngữ Gemini, công cụ tìm kiếm hàng đầu của Google và dữ liệu doanh nghiệp của bạn.

Nó giúp nhân viên làm việc hiệu quả hơn bằng cách cung cấp các “trợ lý AI” (AI agents) có khả năng lập kế hoạch, nghiên cứu, tạo nội dung và thực hiện hành động – tất cả chỉ với một câu lệnh. Trong bài viết này, chúng ta sẽ cùng khám phá chi tiết về Google Agentspace, cách nó hoạt động và những lợi ích mà nó mang lại cho doanh nghiệp.

Google Agentspace là gì? Giới thiệu tổng quan

Khái niệm cơ bản về Google Agentspace

Google Agentspace là một nền tảng AI được thiết kế để giúp các doanh nghiệp khai thác tối đa sức mạnh của trí tuệ nhân tạo. Nó không chỉ là một công cụ tìm kiếm thông thường, mà còn là một không gian làm việc thông minh, nơi các “trợ lý AI” (AI agents) có thể hỗ trợ nhân viên thực hiện các công việc phức tạp. Điều này giúp giải phóng nhân viên khỏi các tác vụ tẻ nhạt, cho phép họ tập trung vào những công việc đòi hỏi tư duy sáng tạo và ra quyết định.

Google Agentspace kết hợp Gemini’s advanced reasoning, Google-quality search, và enterprise data, regardless of where it’s hosted. Google Agentspace làm cho nhân viên của bạn làm việc hiệu quả bằng cách giúp họ hoàn thành các công việc phức tạp đòi hỏi lập kế hoạch, nghiên cứu, tạo nội dung và hành động – tất cả chỉ với một câu lệnh duy nhất. Nền tảng này không chỉ dừng lại ở việc tìm kiếm thông tin mà còn mở ra khả năng tự động hóa quy trình, tạo ra các agent chuyên biệt cho từng phòng ban, và tương tác với dữ liệu một cách trực quan hơn.

https://storage.googleapis.com/gweb-cloudblog-publish/images/google_agentspace.max-2500x2500.jpg

Nguồn: https://cloud.google.com/blog/products/ai-machine-learning/bringing-ai-agents-to-enterprises-with-google-agentspace

Sự khác biệt của Google Agentspace

Điểm khác biệt lớn nhất của Google Agentspace so với các công cụ AI khác là khả năng kết hợp ba yếu tố quan trọng:

  • Sức mạnh của Gemini: Mô hình ngôn ngữ tiên tiến Gemini của Google cung cấp khả năng suy luận và xử lý ngôn ngữ tự nhiên vượt trội. Gemini 2.0 Flash, phiên bản mới, còn được tích hợp trong NotebookLM, mang lại hiệu suất cao hơn nữa.
  • Chất lượng tìm kiếm của Google: Khả năng tìm kiếm thông tin chính xác và nhanh chóng đã làm nên tên tuổi của Google. Agentspace tận dụng tối đa lợi thế này, cho phép truy cập thông tin từ nhiều nguồn khác nhau trong doanh nghiệp.
  • Dữ liệu doanh nghiệp: Agentspace kết nối với dữ liệu của doanh nghiệp, bất kể nó được lưu trữ ở đâu (Google Drive, SharePoint, Confluence, Jira, ServiceNow, v.v.). Điều này có nghĩa là Agentspace có thể truy cập và xử lý thông tin từ các nguồn dữ liệu khác nhau, bao gồm cả dữ liệu có cấu trúc (như bảng tính và cơ sở dữ liệu) và dữ liệu phi cấu trúc (như tài liệu và email).

Sự kết hợp này tạo ra một nền tảng AI mạnh mẽ, có thể hiểu và xử lý thông tin trong ngữ cảnh cụ thể của doanh nghiệp, vượt trội hơn hẳn so với các giải pháp chỉ tập trung vào một khía cạnh như chatbot hay công cụ tìm kiếm thông thường.

Các tính năng chính của Google Agentspace

NotebookLM Plus: Tương tác dữ liệu thông minh

NotebookLM Plus là một phiên bản nâng cấp của NotebookLM, được thiết kế đặc biệt cho doanh nghiệp. Nó cho phép nhân viên:

  • Tải lên các tài liệu phức tạp: Các tài liệu như báo cáo tài chính, tài liệu kỹ thuật, hoặc nghiên cứu thị trường có thể được tải lên để phân tích.
  • Tổng hợp thông tin và trích xuất các ý chính: NotebookLM Plus có thể nhanh chóng tóm tắt nội dung của các tài liệu dài, giúp tiết kiệm thời gian đọc và tìm kiếm thông tin.
  • Khám phá các insight ẩn giấu trong dữ liệu: Bằng cách sử dụng AI, NotebookLM Plus có thể phát hiện ra các xu hướng, mối quan hệ và thông tin quan trọng mà con người có thể bỏ qua.
  • Tương tác với dữ liệu theo những cách mới, chẳng hạn như tạo bản tóm tắt âm thanh giống như podcast: Tính năng này giúp người dùng dễ dàng tiếp thu thông tin, đặc biệt là khi đang di chuyển hoặc không có thời gian đọc.

NotebookLM Plus sử dụng Gemini 2.0 Flash, phiên bản mới nhất của mô hình ngôn ngữ Gemini, để cung cấp khả năng xử lý ngôn ngữ tự nhiên mạnh mẽ. Nó cung cấp trải nghiệm tương tự như phiên bản NotebookLM dành cho người dùng cá nhân, nhưng được tăng cường với các tính năng bảo mật và quyền riêng tư dành cho doanh nghiệp.

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/1_FINAL_nblm.gif

Nguồn: https://cloud.google.com/blog/products/ai-machine-learning/bringing-ai-agents-to-enterprises-with-google-agentspace

Ví dụ, một nhà phân tích có thể tải lên báo cáo kết quả kinh doanh quý 3 của công ty và yêu cầu NotebookLM Plus tạo một bản tóm tắt âm thanh, hoặc xác định các yếu tố chính ảnh hưởng đến doanh thu.

Tìm kiếm AI toàn doanh nghiệp

Google Agentspace cung cấp một công cụ tìm kiếm đa phương thức, được tùy chỉnh cho doanh nghiệp. Công cụ này hoạt động như một “nguồn thông tin đáng tin cậy” duy nhất cho toàn bộ tổ chức. Nó có thể:

  • Hỗ trợ hội thoại: Nhân viên có thể đặt câu hỏi bằng ngôn ngữ tự nhiên và nhận được câu trả lời chính xác. Thay vì phải sử dụng các từ khóa cụ thể, người dùng có thể đặt câu hỏi như đang nói chuyện với một đồng nghiệp.
  • Trả lời các câu hỏi phức tạp: Agentspace có thể xử lý các câu hỏi đòi hỏi suy luận và kết hợp thông tin từ nhiều nguồn. Ví dụ, nó có thể trả lời các câu hỏi như “Doanh số bán hàng của sản phẩm X ở khu vực Y thay đổi như thế nào trong quý vừa qua so với cùng kỳ năm ngoái?”.
  • Đề xuất chủ động: Công cụ tìm kiếm có thể đưa ra các gợi ý hữu ích dựa trên ngữ cảnh của câu hỏi. Ví dụ, nếu một người dùng đang tìm kiếm thông tin về một dự án cụ thể, công cụ tìm kiếm có thể đề xuất các tài liệu liên quan, các cuộc họp sắp tới, hoặc các thành viên trong nhóm dự án.
  • Thực hiện hành động: Agentspace có thể thực hiện các hành động dựa trên thông tin tìm thấy, chẳng hạn như gửi email tóm tắt. Ví dụ, người dùng có thể yêu cầu Agentspace “Tìm các ticket Jira liên quan đến lỗi X và gửi email tóm tắt cho quản lý”.
  • Hỗ trợ đa ngôn ngữ: Agentspace có thể hiểu và trả lời các câu hỏi bằng nhiều ngôn ngữ khác nhau, giúp các doanh nghiệp có hoạt động quốc tế dễ dàng truy cập thông tin.

Công cụ tìm kiếm này có thể truy cập cả dữ liệu có cấu trúc (bảng biểu, cơ sở dữ liệu) và dữ liệu phi cấu trúc (tài liệu, email). Nó cũng tích hợp với các ứng dụng bên thứ ba phổ biến như Confluence, Google Drive, Jira, Microsoft SharePoint và ServiceNow. Việc tích hợp này giúp người dùng không cần phải chuyển đổi giữa các ứng dụng khác nhau để tìm kiếm thông tin.

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/2_FINAL_search_and_email.gif

Nguồn: https://cloud.google.com/blog/products/ai-machine-learning/bringing-ai-agents-to-enterprises-with-google-agentspace

Ví dụ, một nhân viên có thể yêu cầu Agentspace “Tìm các ticket Jira liên quan đến lỗi X và gửi email tóm tắt cho quản lý”.

Các AI Agents chuyên biệt

Google Agentspace là nơi khởi đầu cho các AI agents tùy chỉnh, được thiết kế để tự động hóa các chức năng kinh doanh cụ thể. Các agents này có thể được sử dụng trong nhiều bộ phận khác nhau, chẳng hạn như:

  • Marketing: Nghiên cứu thị trường (phân tích xu hướng, đối thủ cạnh tranh), tạo nội dung (viết bài blog, email marketing, nội dung mạng xã hội), phân tích hiệu suất chiến dịch (đo lường ROI, xác định các kênh hiệu quả).
  • Tài chính: Phân tích báo cáo tài chính (xác định các rủi ro, cơ hội), quản lý báo cáo chi phí (tự động phân loại chi phí, phát hiện gian lận), dự báo tài chính.
  • Pháp lý: Tóm tắt tài liệu pháp lý (trích xuất các điều khoản quan trọng, xác định các rủi ro pháp lý), tự động hóa quy trình (soạn thảo hợp đồng, theo dõi tiến độ vụ việc).
  • Kỹ thuật: Tìm kiếm lỗi code (phân tích code, đề xuất sửa lỗi), tạo tài liệu kỹ thuật (tự động tạo tài liệu hướng dẫn sử dụng, tài liệu API), hỗ trợ phát triển phần mềm.
  • Nhân sự: Hỗ trợ quá trình tuyển dụng (sàng lọc hồ sơ, lên lịch phỏng vấn), giải đáp thắc mắc của nhân viên (cung cấp thông tin về chính sách, phúc lợi), quản lý hiệu suất.

Về mặt kỹ thuật, các agents này được xây dựng dựa trên nền tảng mô hình ngôn ngữ lớn (LLM) của Google, kết hợp với các kỹ thuật như fine-tuning (tinh chỉnh) trên dữ liệu cụ thể của doanh nghiệp và prompt engineering (kỹ thuật tạo câu lệnh) để đạt được hiệu suất tối ưu trong các tác vụ chuyên biệt. Trong tương lai, Google Agentspace sẽ cung cấp một công cụ trực quan, ít code (low-code) để nhân viên có thể tự xây dựng và điều chỉnh các AI agents của riêng mình. Điều này có nghĩa là người dùng không cần phải có kiến thức chuyên sâu về lập trình để tạo ra các agent phục vụ cho nhu cầu cụ thể của họ.

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/3_FINAL_agent_expense.gif

Nguồn: https://cloud.google.com/blog/products/ai-machine-learning/bringing-ai-agents-to-enterprises-with-google-agentspace

Ví dụ, một nhân viên tài chính có thể sử dụng một AI agent để tự động xử lý các báo cáo chi phí.

Lợi ích và ứng dụng thực tế của Google Agentspace

Tăng năng suất và hiệu quả

Bằng cách tự động hóa các tác vụ lặp đi lặp lại và cung cấp thông tin nhanh chóng, chính xác, Google Agentspace giúp nhân viên làm việc hiệu quả hơn. Các nghiên cứu cho thấy nhân viên thường phải sử dụng 4-6 công cụ khác nhau chỉ để trả lời một câu hỏi. Agentspace giải quyết vấn đề này bằng cách cung cấp một điểm truy cập duy nhất cho tất cả thông tin, giúp tiết kiệm thời gian và công sức. Nhân viên không còn phải mất thời gian tìm kiếm thông tin trên nhiều nền tảng khác nhau, mà có thể tập trung vào những công việc quan trọng hơn.

Cải thiện khả năng ra quyết định

Với khả năng phân tích dữ liệu và cung cấp insight, Agentspace giúp các nhà quản lý và nhân viên đưa ra quyết định sáng suốt hơn. Ví dụ, một nhà quản lý có thể sử dụng Agentspace để phân tích dữ liệu bán hàng và xác định các xu hướng, từ đó đưa ra các quyết định về chiến lược sản phẩm hoặc giá cả. Hoặc một nhân viên hỗ trợ khách hàng có thể sử dụng Agentspace để nhanh chóng tìm kiếm thông tin về sản phẩm hoặc dịch vụ, giúp giải quyết vấn đề của khách hàng nhanh chóng và hiệu quả hơn.

Thúc đẩy đổi mới

Bằng cách giải phóng nhân viên khỏi các công việc tẻ nhạt, Agentspace cho phép họ tập trung vào những công việc đòi hỏi tư duy sáng tạo và đổi mới. Khi nhân viên không còn phải mất thời gian cho các tác vụ lặp đi lặp lại, họ có thể dành nhiều thời gian hơn để suy nghĩ về các ý tưởng mới, phát triển các sản phẩm hoặc dịch vụ mới, hoặc cải tiến các quy trình hiện có.

Ứng dụng trong các ngành khác nhau

Google Agentspace có thể được áp dụng trong nhiều ngành khác nhau, từ tài chính, ngân hàng đến bán lẻ, sản xuất và chăm sóc sức khỏe. Một số ví dụ cụ thể:

  • Deloitte: Sử dụng Agentspace để hợp nhất thông tin từ nhiều nguồn khác nhau, giúp các chuyên gia tư vấn tìm kiếm thông tin nhanh chóng và đưa ra giải pháp cho khách hàng. Việc này giúp Deloitte tăng tốc độ cung cấp dịch vụ và nâng cao chất lượng tư vấn.
  • Nokia: Sử dụng Agentspace để kết nối các nhóm làm việc và giúp họ truy cập thông tin quan trọng một cách dễ dàng. Điều này cải thiện sự cộng tác và trao đổi thông tin giữa các bộ phận, giúp Nokia đưa ra quyết định nhanh hơn và hiệu quả hơn.
  • Decathlon: Sử dụng Agentspace để hỗ trợ các nhà thiết kế sản phẩm, nhà tiếp thị và nhà nghiên cứu đưa ra quyết định nhanh chóng và sáng tạo hơn. Nhờ đó, Decathlon có thể rút ngắn thời gian phát triển sản phẩm và đáp ứng nhu cầu của khách hàng tốt hơn.
  • Banco BV: Sử dụng Google Agentspace để tìm kiếm, hỗ trợ, thực hiện các tác vụ trên hệ thống một cách an toàn.
  • Onix: Đang giúp các khách hàng của mình triển khai Google Agentspace.
  • Quantiphi: Đang hợp tác với Google Cloud để mang Google Agentspace đến với khách hàng.
  • FairPrice: Đang xây dựng một nền tảng nghiên cứu và hỗ trợ trên toàn tổ chức với Google Agentspace.

Ngoài ra, các công ty trong lĩnh vực *chăm sóc sức khỏe* có thể sử dụng Agentspace để cải thiện chẩn đoán và điều trị bệnh, *sản xuất* có thể tối ưu hóa quy trình sản xuất và quản lý chuỗi cung ứng, *bán lẻ* có thể cá nhân hóa trải nghiệm khách hàng và *giáo dục* có thể tạo ra các công cụ học tập tương tác.

Bảo mật và quyền riêng tư

Google Agentspace được xây dựng trên nền tảng Google Cloud, đảm bảo tính bảo mật và tuân thủ các quy định về quyền riêng tư dữ liệu. Nó cung cấp các tính năng kiểm soát truy cập chi tiết, tích hợp với các hệ thống quản lý danh tính và truy cập (IAM) hiện có. Google Cloud’s secure by design infrastructure, VPC service controls, and IAM integration đảm bảo dữ liệu của doanh nghiệp luôn được bảo vệ.

Cách truy cập và sử dụng Google Agentspace

Hiện tại, Google Agentspace đang trong giai đoạn thử nghiệm sớm (early access). Các doanh nghiệp quan tâm có thể đăng ký tham gia chương trình thử nghiệm trên trang web của Google Cloud. Để đăng ký, doanh nghiệp cần cung cấp thông tin liên hệ và mô tả về nhu cầu sử dụng Agentspace. Sau khi đăng ký, Google Cloud sẽ liên hệ với doanh nghiệp để cung cấp thêm thông tin và hướng dẫn.

Tương lai của Google Agentspace

Google có kế hoạch tiếp tục phát triển và mở rộng Agentspace trong tương lai. Một trong những tính năng được mong đợi là khả năng cho phép nhân viên tự tạo và tùy chỉnh các AI agents bằng một công cụ trực quan, ít code (low-code). Điều này sẽ giúp các doanh nghiệp dễ dàng tạo ra các giải pháp AI phù hợp với nhu cầu cụ thể của họ. Google cũng có kế hoạch mở rộng hỗ trợ cho nhiều loại tệp và tích hợp sâu hơn với các nhà cung cấp lưu trữ đám mây, cũng như các nền tảng cộng tác và quản lý công việc khác.

Posted in AI