Agentic RAG - Scuti

Ask Questions about Your PDFs with Cohere Embeddings + Gemini LLM

Posted on May 14, 2025May 23, 2025 by hello@scuti

🔍 Experimenting with Image Embedding Using Large AI Models

Recently, I experimented with embedding images using major AI models to build a multimodal semantic search system, where users can search images with text (and vice versa).

🧐 A Surprising Discovery

I was surprised to find that as of 2025, Cohere is the only provider that supports direct image embedding via API.
Other major models like OpenAI and Gemini (by Google) do support image input in general, but do not clearly provide a direct embedding API for images.

Reason for Choosing Cohere

I chose to try Cohere’s embed-v4.0 because:

It supports embedding text, images, and even PDF documents (converted to images) into the same vector space.
You can choose the embedding size (I used the default, 1536).
It returns normalized embeddings that are ready to use for search and classification tasks.

⚙️ How I Built the System

I used Python for implementation. The system has two main flows:

1️⃣ Document Preparation Flow

Load documents, images, or text data that I want to store.
Use the Cohere API to embed them into vector representations.
Save these vectors in a database or vector store for future search queries.

2️⃣ User Query Flow

When a user asks a question or types a query:
- Use Cohere to embed the query into a vector.
- Search for the most similar documents in the vector space.
- Return results to the user using a LLM (Large Language Model) like Gemini by Google.

🔑 How to Get API Keys

To use Cohere, go to: https://cohere.com, sign up, and get your API key.
(Cohere currently offers a free tier – see details here: docs.cohere.com/docs/rate-limits)
To use Gemini (Google), go to: https://aistudio.google.com, sign up, and get your API key.
(Gemini also has a free tier – see details here: ai.google.dev/gemini-api/docs/rate-limits)

🔧 Flow 1: Setting Up Cohere and Gemini in Python

✅ Step 1: Install and Set Up Cohere

Run the following command in your terminal to install the Cohere Python SDK:

Then, initialize the Cohere client in your Python script:

✅ Step 2: Install and Set Up Gemini (Google Generative AI)

Install the Gemini client library with:

Then, initialize the Gemini client in your Python script:

from google import genai

# Replace <<YOUR_GEMINI_KEY>> with your actual Gemini API key
gemini_api_key = “<<YOUR_GEMINI_KEY>>”
client = genai.Client(api_key=gemini_api_key)

📌 Flow 1: Document Preparation and Embedding

Chúng ta sẽ thực hiện các bước để chuyển PDF thành dữ liệu embedding bằng Cohere.

📥 Step 1: Download the PDF

We start by downloading the PDF from a given URL.

🖼️ Step 2: Convert PDF Pages to Text + Image

We extract both text and image for each page using PyMuPDF.

python

import fitz # PyMuPDF
import base64
from PIL import Image
import io

def extract_page_data(pdf_path):
doc = fitz.open(pdf_path)
pages_data = []
img_paths = []

for i, page in enumerate(doc):
text = page.get_text()

pix = page.get_pixmap()
image = Image.open(io.BytesIO(pix.tobytes(“png”)))

buffered = io.BytesIO()
image.save(buffered, format=”PNG”)
encoded_img = base64.b64encode(buffered.getvalue()).decode(“utf-8″)
data_url = f”data:image/png;base64,{encoded_img}”

content = [
{“type”: “text”, “text”: text},
{“type”: “image_url”, “image_url”: {“url”: data_url}},
]

pages_data.append({“content”: content})
img_paths.append({“data_url”: data_url})

return pages_data, img_paths

# Example usage
pages, img_paths = extract_page_data(local_pdf_path)

📤 Step 3: Embed Using Cohere

Now, send the fused text + image inputs to Cohere’s embed-v4.0 model.

✅ Flow 1 complete: You now have the embedded vector representations of your PDF pages.

👉 Proceed to Flow 2 (e.g., storing, indexing, or querying the embeddings).

🔍 Flow 2: Ask a Question and Retrieve the Answer Using Image + LLM

This flow allows the user to ask a natural language question, find the most relevant image using Cohere Embed v4, and then answer the question using Gemini 2.5 Vision LLM.

💬 Step 1: Ask the Question

We define the user query in plain English.

🧠 Step 2: Convert the Question to Embedding & Find Relevant Image

We use embed-v4.0 with input type search_query, then calculate cosine similarity between the question embedding and previously embedded document images.

python

def search(question, max_img_size=800):
# Get embedding for the query
api_response = co.embed(
model=”embed-v4.0″,
input_type=”search_query”,
embedding_types=[“float”],
texts=[question],
output_dimension=1024,
)

query_emb = np.asarray(api_response.embeddings.float[0])

# Compute cosine similarity with all document embeddings
cos_sim_scores = np.dot(embeddings, query_emb)
top_idx = np.argmax(cos_sim_scores) # Most relevant image

hit_img_path = img_paths[top_idx]
base64url = hit_img_path[“data_url”]

print(“Question:”, question)
print(“Most relevant image:”, hit_img_path)

# Display the matched image
if base64url.startswith(“data:image”):
base64_str = base64url.split(“,”)[1]
else:
base64_str = base64url

image_data = base64.b64decode(base64_str)
image = Image.open(io.BytesIO(image_data))

image.thumbnail((max_img_size, max_img_size))
display(image)

return base64url

🤖 Step 3: Use Vision-LLM (Gemini 2.5) to Answer

We use Gemini 2.5 Flash to answer the question based on the most relevant image.

python

def answer(question, base64_img_str):
if base64_img_str.startswith(“data:image”):
base64_img_str = base64_img_str.split(“,”)[1]

image_bytes = base64.b64decode(base64_img_str)
image = Image.open(io.BytesIO(image_bytes))

prompt = [
f”””Answer the question based on the following image.
Don’t use markdown.
Please provide enough context for your answer.

Question: {question}”””,
image
]

response = client.models.generate_content(
model=”gemini-2.5-flash-preview-04-17″,
contents=prompt
)

answer = response.text
print(“LLM Answer:”, answer)

▶️ Step 4: Run the Full Flow

🧪 Example Usage:

question = “What was the total number of wildfires in the United States from 2007 to 2015?”

# Step 1: Find the best-matching image
top_image_path = search(question)

# Step 2: Use the image to answer the question
answer(question, top_image_path)

🧾 Output:

Question: What was the total number of wildfires in the United States from 2007 to 2015?

Most relevant image:

LLM Answer: Based on the provided image, to find the total number of wildfires in the United States from 2007 to 2015, we need to sum the number of wildfires for each year in this period. Figure 1 shows the annual number of fires in thousands from 1993 to 2022, which covers the requested period. Figure 2 provides the specific number of fires for 2007 and 2015 among other years. Using the specific values from Figure 2 for 2007 and 2015, and estimating the number of fires for the years from 2008 to 2014 from Figure 1, we can calculate the total.

The number of wildfires in 2007 was 67.8 thousand (from Figure 2).

Estimating from Figure 1:

2008 was approximately 75 thousand fires.

2009 was approximately 75 thousand fires.

2010 was approximately 67 thousand fires.

2011 was approximately 74 thousand fires.

2012 was approximately 68 thousand fires.

2013 was approximately 47 thousand fires.

2014 was approximately 64 thousand fires.

The number of wildfires in 2015 was 68.2 thousand (from Figure 2).

Summing these values:

Total = 67.8 + 75 + 75 + 67 + 74 + 68 + 47 + 64 + 68.2 = 606 thousand fires.

Therefore, the total number of wildfires in the United States from 2007 to 2015 was approximately 606,000. This number is based on the sum of the annual number of fires obtained from Figure 2 for 2007 and 2015, and estimates from Figure 1 for the years 2008 through 2014.

Try this full pipeline on Google Colab: https://colab.research.google.com/drive/1kdIO-Xi0MnB1c8JrtF26Do3T54dij8Sf

🧩 Final Thoughts

This simple yet powerful two-step pipeline demonstrates how you can combine Cohere’s Embed v4 with Gemini’s Vision-Language capabilities to build a system that understands both text and images. By embedding documents (including large images) and using semantic similarity to retrieve relevant content, we can create a more intuitive, multimodal question-answering experience.

This approach is especially useful in scenarios where information is stored in visual formats like financial reports, dashboards, or charts — allowing LLMs to not just “see” the image but reason over it in context.

Multimodal retrieval-augmented generation (RAG) is no longer just theoretical — it’s practical, fast, and deployable today.

Agentic RAG: Giải pháp thông minh cho truy xuất dữ liệu

Posted on February 14, 2025February 28, 2025 by Quynh Nga

Bạn có bao giờ cảm thấy lạc lõng giữa biển thông tin? Trong thế giới bão hòa thông tin ngày nay, việc truy xuất đúng dữ liệu khi bạn cần là một kỳ công không hề nhỏ. Retrieval Augmented Generation (RAG) đã có những bước tiến đáng kể trong việc giải quyết thách thức này, đóng vai trò là một công cụ đáng tin cậy để sàng lọc qua vô số thông tin.

Tuy nhiên, khi nhu cầu của chúng ta về dữ liệu sắc thái và nhận biết ngữ cảnh hơn tăng lên, RAG một mình không phải lúc nào cũng đủ. Đó là nơi Agentic RAG xuất hiện — nâng cao RAG truyền thống với các khả năng nâng cao để không chỉ định vị thông tin mà còn hiểu sâu sắc và ưu tiên nó một cách thông minh. Về bản chất — Agentic RAG đánh dấu một sự thay đổi từ việc chỉ tìm kiếm dữ liệu sang tích cực tham gia vào nó theo những cách có ý nghĩa. Trong bài viết này, chúng ta sẽ cùng nhau khám phá Agentic RAG, từ khái niệm cơ bản đến ứng dụng thực tế, để bạn có thể hiểu rõ hơn về công nghệ đầy tiềm năng này.

Agentic RAG là gì? Tổng quan cho người mới

Agentic RAG: Hơn cả một công cụ tìm kiếm

Agentic RAG mô tả việc triển khai RAG dựa trên AI Agent. Cụ thể, nó kết hợp các AI Agent vào quy trình RAG để điều phối các thành phần của nó và thực hiện các hành động bổ sung vượt ra ngoài việc truy xuất và tạo thông tin đơn giản để khắc phục những hạn chế của quy trình không phải agentic.

Agentic RAG khác biệt như thế nào?

Điểm khác biệt lớn nhất của Agentic RAG so với RAG truyền thống là việc sử dụng các AI Agent thông minh. Các Agent này có khả năng phân tích dữ liệu một cách tự động, đưa ra quyết định chiến lược và thực hiện các quy trình suy luận đa bước. Điều này cho phép Agentic RAG xử lý các tác vụ phức tạp trên nhiều bộ dữ liệu lớn và đa dạng.

Agentic RAG giải quyết vấn đề gì?

Agentic RAG giải quyết những hạn chế của RAG truyền thống, bao gồm:

Khó khăn trong việc ưu tiên thông tin từ các tập dữ liệu lớn.
Bỏ qua kiến thức chuyên môn, chất lượng cao.
Thiếu khả năng hiểu ngữ cảnh và mức độ liên quan của dữ liệu.

Nền tảng của Agentic RAG: RAG và AI Agent

RAG là gì?

Retrieval Augmented Generation (RAG) là một kỹ thuật xây dựng các ứng dụng được hỗ trợ bởi LLM. Nó tận dụng một nguồn kiến thức bên ngoài để cung cấp cho LLM ngữ cảnh phù hợp và giảm ảo giác. Một quy trình RAG đơn giản bao gồm một thành phần truy xuất (thường bao gồm một mô hình nhúng và cơ sở dữ liệu vector) và một thành phần tạo (LLM).

AI Agent là gì?

Với sự phổ biến của LLM, các mô hình mới của AI Agent và hệ thống đa Agent đã nổi lên. AI Agent là LLM có vai trò và nhiệm vụ, có quyền truy cập vào bộ nhớ và các công cụ bên ngoài. Khả năng lý luận của LLM giúp Agent lập kế hoạch các bước cần thiết và hành động để hoàn thành nhiệm vụ. Các thành phần cốt lõi của một AI Agent bao gồm: LLM (với vai trò và nhiệm vụ), bộ nhớ (ngắn hạn và dài hạn), lập kế hoạch (ví dụ: phản ánh, tự phê bình, định tuyến truy vấn, v.v.) và các công cụ (ví dụ: máy tính, tìm kiếm trên web, v.v.).

Agentic RAG: Triển khai RAG dựa trên AI Agent

Agentic RAG so với RAG (Vanilla): So sánh chi tiết

Sức mạnh của Agentic RAG: Sử dụng công cụ tổng quát hóa

Mặc dù khái niệm cơ bản của RAG (gửi truy vấn, truy xuất thông tin và tạo phản hồi) vẫn giữ nguyên, nhưng việc sử dụng công cụ tổng quát hóa nó, làm cho nó linh hoạt và mạnh mẽ hơn.

Ví dụ minh họa sự khác biệt

Hãy nghĩ về nó theo cách này: RAG thông thường (vanilla) giống như ở thư viện (trước khi điện thoại thông minh tồn tại) để trả lời một câu hỏi cụ thể. Mặt khác, Agentic RAG giống như có một chiếc điện thoại thông minh trong tay với trình duyệt web, máy tính, email, v.v.

Bảng so sánh Agentic RAG và Vanilla RAG

	Vanilla RAG	Agentic RAG
Truy cập vào các công cụ bên ngoài	Không	Có
Xử lý trước truy vấn	Không	Có
Truy xuất nhiều bước	Không	Có
Xác thực thông tin đã truy xuất	Không	Có

Kiến trúc Agentic RAG: Đơn Agent và Đa Agent

Kiến trúc Agentic RAG: Agent là trung tâm

Ngược lại với kiến trúc RAG tuần tự, cốt lõi của kiến trúc Agentic RAG là Agent. Kiến trúc Agentic RAG có thể có nhiều mức độ phức tạp khác nhau. Ở dạng đơn giản nhất, kiến trúc RAG đơn Agent là một bộ định tuyến đơn giản. Tuy nhiên, bạn cũng có thể thêm nhiều Agent vào kiến trúc RAG đa Agent.

RAG đơn Agent (Bộ định tuyến)

Ở dạng đơn giản nhất, Agentic RAG là một bộ định tuyến. Điều này có nghĩa là bạn có ít nhất hai nguồn kiến thức bên ngoài và Agent quyết định nguồn nào sẽ truy xuất thêm ngữ cảnh. Tuy nhiên, các nguồn kiến thức bên ngoài không bị giới hạn ở cơ sở dữ liệu (vector). Bạn cũng có thể truy xuất thêm thông tin từ các công cụ. Ví dụ: bạn có thể thực hiện tìm kiếm trên web hoặc bạn có thể sử dụng API để truy xuất thêm thông tin từ các kênh Slack hoặc tài khoản email của bạn.

Hệ thống RAG đa Agent

Như bạn có thể đoán, hệ thống đơn Agent cũng có những hạn chế của nó vì nó chỉ giới hạn ở một Agent duy nhất với lý luận, truy xuất và tạo câu trả lời trong một. Do đó, việc xâu chuỗi nhiều Agent vào một ứng dụng RAG đa Agent sẽ có lợi.

Ví dụ: bạn có thể có một Agent chính điều phối việc truy xuất thông tin giữa nhiều Agent truy xuất chuyên dụng. Ví dụ: một Agent có thể truy xuất thông tin từ các nguồn dữ liệu nội bộ độc quyền. Một Agent khác có thể chuyên về truy xuất thông tin từ tài khoản cá nhân của bạn, chẳng hạn như email hoặc trò chuyện. Một Agent khác cũng có thể chuyên về truy xuất thông tin công khai từ tìm kiếm trên web.

Các Agent chính trong quy trình RAG: Phân loại và chức năng

Các loại Agent trong quy trình RAG

Quy trình RAG sử dụng một số loại Agent, mỗi loại có một vai trò riêng trong quá trình truy xuất và tạo thông tin:

Agent định tuyến: Định hướng các truy vấn đến các nguồn liên quan nhất.
Agent lập kế hoạch truy vấn: Xử lý các truy vấn phức tạp bằng cách chia chúng thành các phần nhỏ hơn.
Agent Re-Act (Lý luận và Hành động): Cung cấp các phản hồi thích ứng bằng cách sử dụng dữ liệu thời gian thực và tương tác của người dùng.

Agent lập kế hoạch và thực thi động

Chức năng: Thích ứng và tối ưu hóa trong thời gian thực với dữ liệu và các yêu cầu đang phát triển.
Các lĩnh vực trọng tâm chính:
- Lập kế hoạch dài hạn
- Thông tin chi tiết về thực hiện
- Hiệu quả hoạt động
- Giảm thiểu sự chậm trễ
Phương pháp:
- Tách biệt lập kế hoạch cấp cao khỏi các hành động ngắn hạn.
- Tạo đồ thị tính toán toàn diện cho các kế hoạch truy vấn.
- Sử dụng cả người lập kế hoạch (để tạo chiến lược) và người thực thi (để triển khai từng bước).

Công cụ hỗ trợ Agent trong RAG

Các công cụ là các thành phần thiết yếu hỗ trợ các Agent trong khuôn khổ RAG, cung cấp các tài nguyên và chức năng quan trọng:

Chức năng cốt lõi: Nhận dạng thực thể, phân tích tình cảm, tiền xử lý dữ liệu.
Khả năng bổ sung: Tóm tắt, dịch, tạo mã.
Vai trò: Nâng cao hiệu quả và tính linh hoạt của hệ thống RAG bằng cách cho phép các Agent thực hiện các tác vụ chuyên biệt.

Ứng dụng thực tế của Agentic RAG: Các trường hợp sử dụng cho doanh nghiệp

Ứng dụng Agentic RAG trong doanh nghiệp

Các tổ chức phải đối mặt với những thách thức đáng kể trong việc quản lý và tận dụng các nguồn dữ liệu rộng lớn của họ. Agentic RAG cung cấp các giải pháp sáng tạo cho những thách thức này, chuyển đổi các khía cạnh khác nhau của hoạt động kinh doanh, bao gồm nhưng không giới hạn ở:

Phản hồi truy vấn thích ứng theo thời gian thực: Đảm bảo nhân viên và khách hàng nhận được thông tin chính xác kịp thời.
Hỗ trợ tự động cho nhân viên và khách hàng: Cung cấp câu trả lời nhanh chóng và chính xác cho các câu hỏi của khách hàng.
Quản lý kiến thức nội bộ: Hợp lý hóa quyền truy cập vào thông tin quan trọng.
Hỗ trợ nghiên cứu và đổi mới: Giúp tổng hợp và trình bày dữ liệu liên quan.

Moveworks AI Assistant: Triển khai Agentic RAG

Moveworks đã phát triển một giải pháp AI Agentic sáng tạo giúp chuyển đổi cách các doanh nghiệp xử lý việc truy xuất thông tin và tự động hóa tác vụ. Bằng cách khai thác sức mạnh của Agentic RAG, hệ thống này cung cấp một phương pháp tinh vi để giải quyết các nhu cầu phức tạp của doanh nghiệp.

Việc triển khai RAG của Moveworks kết hợp hai yếu tố quan trọng:

Khả năng LLM: Sử dụng khả năng tạo ngôn ngữ của LLM để tạo ra các phản hồi văn bản trôi chảy và phù hợp.
Tích hợp kiến thức cụ thể: Kết hợp thông tin từ các nguồn kiến thức được tuyển chọn để đảm bảo các câu trả lời chính xác, theo miền cụ thể.

Phương pháp Agentic RAG này giải quyết những hạn chế của LLM truyền thống, có thể tạo ra các phản hồi hợp lý nhưng không chính xác do chỉ dựa vào dữ liệu đào tạo. Bằng cách tích hợp nội dung liên quan, cập nhật vào các phản hồi của LLM, Moveworks AI Assistant nhằm mục đích cung cấp các câu trả lời chính xác phù hợp với bối cảnh kinh doanh cụ thể.

Triển khai Agentic RAG: Các bước và công cụ

Các bước triển khai Agentic RAG

Việc áp dụng một khuôn khổ Agentic RAG có thể tăng cường đáng kể khả năng truy xuất và tạo dữ liệu của một tổ chức, cải thiện các quy trình ra quyết định và tự động hóa các quy trình làm việc phức tạp. Tuy nhiên, việc triển khai đòi hỏi một cách tiếp cận chiến lược và xem xét cẩn thận các yếu tố khác nhau.

Đánh giá và lập kế hoạch ban đầu
- Đánh giá các hệ thống hiện có.
- Xác định các nguồn dữ liệu và công cụ cần thiết.
Phân bổ nguồn lực và thiết lập nhóm
- Tập hợp một đội ngũ lành nghề để phát triển và triển khai.
- Đảm bảo đủ nguồn lực cho phát triển, thử nghiệm và triển khai.
Tích hợp với các hệ thống hiện có
- Tạo một kế hoạch để tích hợp trơn tru với cơ sở hạ tầng CNTT hiện tại.
- Xác định các vấn đề tương thích tiềm ẩn.
- Hiểu các nguồn dữ liệu, định dạng và điểm tích hợp.

Các thách thức tiềm ẩn khi triển khai Agentic RAG

Khi áp dụng một khuôn khổ Agentic RAG, một số thách thức triển khai phải được xem xét:

Chất lượng và tuyển chọn dữ liệu: Hiệu quả của các Agentic RAG phụ thuộc vào tính chính xác, đầy đủ và phù hợp của dữ liệu mà chúng sử dụng.
Khả năng diễn giải và giải thích: Các quy trình ra quyết định của Agent phải minh bạch và dễ hiểu.
Mối quan tâm về quyền riêng tư và bảo mật: Thực hiện các biện pháp bảo vệ dữ liệu nghiêm ngặt, kiểm soát truy cập và các giao thức liên lạc an toàn là rất quan trọng để bảo vệ quyền riêng tư của người dùng và ngăn chặn vi phạm dữ liệu.

Công cụ hỗ trợ triển khai Agentic RAG

LlamaIndex: LlamaIndex cung cấp một nền tảng vững chắc để xây dựng các hệ thống Agentic với khả năng lập chỉ mục và truy vấn dữ liệu hiệu quả.
LangChain: LangChain tăng cường xử lý chuỗi suy nghĩ và cung cấp một khuôn khổ linh hoạt để phát triển các ứng dụng với các mô hình ngôn ngữ lớn.

Tương lai của Agentic RAG: Xu hướng và công nghệ mới nổi

Xu hướng chính định hình tương lai của Agentic RAG

Khi chúng ta nhìn về phía trước, bối cảnh của Agentic RAG đang phát triển nhanh chóng, được thúc đẩy bởi các công nghệ sáng tạo và các trường hợp sử dụng mở rộng. Hãy khám phá một số xu hướng chính định hình tương lai của nó:

Truy xuất đa phương thức: Các hệ thống trong tương lai sẽ tích hợp liền mạch văn bản, hình ảnh và âm thanh, cung cấp các phản hồi toàn diện và phong phú về ngữ cảnh hơn.
Khả năng đa ngôn ngữ: Phá vỡ các rào cản ngôn ngữ, Agentic RAG sẽ hoạt động trên nhiều ngôn ngữ, mở rộng khả năng ứng dụng toàn cầu của nó.
Xử lý ngôn ngữ tự nhiên nâng cao: Những cải tiến trong NLP sẽ cho phép hiểu truy vấn sắc thái hơn và tạo ra phản hồi giống con người hơn.
Hội tụ công nghệ AI: Tích hợp với thị giác máy tính và nhận dạng giọng nói sẽ mở ra những tiềm năng mới, tạo ra các công cụ linh hoạt hơn.
Khả năng giải thích và minh bạch: Khi các hệ thống này ngày càng phức tạp, sẽ có một sự tập trung ngày càng tăng vào việc làm cho các quy trình ra quyết định của chúng dễ hiểu hơn đối với người dùng.

Các ứng dụng và lợi ích trong tương lai

Các ứng dụng tiềm năng của Agentic RAG trải rộng trên nhiều ngành và chức năng:

Dịch vụ khách hàng và nhân viên: Xử lý các yêu cầu phức tạp với các phản hồi chính xác, được cá nhân hóa.
Trợ lý thông minh: Cung cấp các tương tác tự nhiên, nhận biết ngữ cảnh hơn.
Nghiên cứu khoa học: Tổng hợp lượng lớn dữ liệu để tạo ra các giả thuyết và hiểu biết mới.
Sáng tạo nội dung: Hỗ trợ các nhà văn và nhà tiếp thị trong việc tạo ra nội dung liên quan, chất lượng cao.
Giáo dục: Điều chỉnh trải nghiệm học tập theo nhu cầu của từng học sinh.
Chăm sóc sức khỏe: Hỗ trợ các chuyên gia y tế với thông tin cập nhật đồng thời duy trì quyền riêng tư của bệnh nhân.
Dịch vụ pháp lý: Hỗ trợ trong nghiên cứu pháp lý, chuẩn bị hồ sơ và giám sát tuân thủ.

Nắm bắt Agentic RAG: Mở ra tiềm năng dữ liệu

Agentic RAG đánh dấu một sự thay đổi mô hình trong truy xuất và tạo thông tin. Bằng cách giới thiệu các Agent thông minh có thể lý luận, lập kế hoạch và thực hiện các tác vụ phức tạp, nó vượt qua những hạn chế của các hệ thống RAG truyền thống.

Công nghệ chuyển đổi này trao quyền cho các tổ chức khai thác toàn bộ tiềm năng dữ liệu của họ, thúc đẩy sự đổi mới, cải thiện quá trình ra quyết định và nâng cao trải nghiệm của khách hàng.

🔍 Experimenting with Image Embedding Using Large AI Models

🧐 A Surprising Discovery

Reason for Choosing Cohere

⚙️ How I Built the System

1️⃣ Document Preparation Flow

2️⃣ User Query Flow

🔑 How to Get API Keys

🔧 Flow 1: Setting Up Cohere and Gemini in Python

✅ Step 1: Install and Set Up Cohere

✅ Step 2: Install and Set Up Gemini (Google Generative AI)

📌 Flow 1: Document Preparation and Embedding

📥 Step 1: Download the PDF

🖼️ Step 2: Convert PDF Pages to Text + Image

📤 Step 3: Embed Using Cohere

🔍 Flow 2: Ask a Question and Retrieve the Answer Using Image + LLM

💬 Step 1: Ask the Question

🧠 Step 2: Convert the Question to Embedding & Find Relevant Image

🤖 Step 3: Use Vision-LLM (Gemini 2.5) to Answer

▶️ Step 4: Run the Full Flow

🧪 Example Usage:

🧾 Output:

🧩 Final Thoughts

Agentic RAG là gì? Tổng quan cho người mới

Agentic RAG: Hơn cả một công cụ tìm kiếm

Agentic RAG khác biệt như thế nào?

Agentic RAG giải quyết vấn đề gì?

Nền tảng của Agentic RAG: RAG và AI Agent

RAG là gì?

AI Agent là gì?

Agentic RAG: Triển khai RAG dựa trên AI Agent

Agentic RAG so với RAG (Vanilla): So sánh chi tiết

Sức mạnh của Agentic RAG: Sử dụng công cụ tổng quát hóa

Ví dụ minh họa sự khác biệt

Bảng so sánh Agentic RAG và Vanilla RAG

Kiến trúc Agentic RAG: Đơn Agent và Đa Agent

Kiến trúc Agentic RAG: Agent là trung tâm

RAG đơn Agent (Bộ định tuyến)

Hệ thống RAG đa Agent

Các Agent chính trong quy trình RAG: Phân loại và chức năng

Các loại Agent trong quy trình RAG

Agent lập kế hoạch và thực thi động

Công cụ hỗ trợ Agent trong RAG

Ứng dụng thực tế của Agentic RAG: Các trường hợp sử dụng cho doanh nghiệp

Ứng dụng Agentic RAG trong doanh nghiệp

Moveworks AI Assistant: Triển khai Agentic RAG

Triển khai Agentic RAG: Các bước và công cụ

Các bước triển khai Agentic RAG

Các thách thức tiềm ẩn khi triển khai Agentic RAG

Công cụ hỗ trợ triển khai Agentic RAG

Tương lai của Agentic RAG: Xu hướng và công nghệ mới nổi

Xu hướng chính định hình tương lai của Agentic RAG

Các ứng dụng và lợi ích trong tương lai

Nắm bắt Agentic RAG: Mở ra tiềm năng dữ liệu

© 2015 - 2025 Scuti. All rights reserved.