Dify vừa phát hành phiên bản 1.11.0 với một tính năng đáng chú ý: Multimodal Knowledge Base. Đây là bước tiến đáng kể trong cách hệ thống RAG xử lý và truy xuất thông tin từ tài liệu.
Vấn đề với Knowledge Base truyền thống
Các hệ thống RAG (Retrieval-Augmented Generation) hiện tại chủ yếu dựa vào embeddings của văn bản. Điều này tạo ra một khoảng trống lớn: tài liệu thực tế không chỉ có text. Biểu đồ, sơ đồ kiến trúc, ảnh chụp màn hình, infographic – tất cả những thông tin này thường bị bỏ qua trong quá trình lập chỉ mục và truy xuất.
Kết quả? Khi người dùng hỏi về một biểu đồ hoặc sơ đồ trong tài liệu, AI chỉ có thể dựa vào văn bản xung quanh để trả lời, dẫn đến câu trả lời thiếu chính xác hoặc không đầy đủ.
Multimodal Knowledge Base hoạt động như thế nào?
Thay vì chỉ xử lý văn bản, phiên bản 1.11.0 của Dify giờ đây có khả năng phân tích đồng thời cả nội dung text và visual trong tài liệu. Cụ thể:
Xử lý đa phương thức: Hệ thống trích xuất và phân tích cả văn bản lẫn hình ảnh (biểu đồ, sơ đồ, ảnh minh họa) từ tài liệu.
Embeddings kép: Tạo vector embeddings cho cả hai loại nội dung, cho phép tìm kiếm dựa trên cả ngữ nghĩa văn bản và nội dung hình ảnh.
Truy xuất thông minh: Khi có câu hỏi, hệ thống có thể tìm kiếm và lấy ra cả văn bản và hình ảnh có liên quan, cung cấp ngữ cảnh đầy đủ hơn cho AI model.
Lợi ích thực tế
Độ chính xác được cải thiện đáng kể
Với khả năng “nhìn thấy” biểu đồ và sơ đồ, AI có thể trích xuất thông tin trực tiếp từ visual elements, kết hợp với ngữ cảnh văn bản để đưa ra câu trả lời chính xác hơn. Đặc biệt hữu ích với các tài liệu kỹ thuật có nhiều sơ đồ kiến trúc hoặc flowchart.
Giảm công việc thủ công
Không cần phải chuyển đổi hình ảnh thành văn bản, không cần mô tả chi tiết từng biểu đồ, không cần tạo metadata cho hình ảnh. Hệ thống tự động xử lý tất cả trong quá trình upload tài liệu.
Trải nghiệm người dùng tốt hơn
Người dùng nhận được câu trả lời toàn diện hơn, đặc biệt khi câu hỏi liên quan đến các yếu tố trực quan trong tài liệu. AI có đủ ngữ cảnh để hiểu và giải thích cả văn bản lẫn hình ảnh.
Một số use case phù hợp
Tài liệu kỹ thuật và API documentation
Tài liệu có nhiều sơ đồ kiến trúc hệ thống, sequence diagram, hoặc hướng dẫn với screenshots sẽ được xử lý hiệu quả. Người dùng có thể hỏi về các luồng xử lý hoặc kiến trúc và nhận được câu trả lời dựa trên cả mô tả văn bản và sơ đồ.
Báo cáo phân tích và dashboard
Các báo cáo tài chính, phân tích dữ liệu với biểu đồ và infographic có thể được truy vấn trực tiếp. Ví dụ: “Doanh thu Q3 tăng bao nhiêu so với Q2?” – AI có thể đọc trực tiếp từ biểu đồ trong báo cáo.
Tài liệu đào tạo và learning materials
Slide bài giảng, sách kỹ thuật, hoặc tài liệu học tập có nhiều hình ảnh minh họa sẽ trở nên “searchable” và có thể được chatbot sử dụng để hỗ trợ học viên hiệu quả hơn.
Cách bắt đầu sử dụng
Để thử nghiệm tính năng Multimodal Knowledge Base:
- Cập nhật Dify lên phiên bản 1.11.0
- Đảm bảo sử dụng AI model hỗ trợ multimodal
- Upload tài liệu vào Knowledge Base – hỗ trợ PDF, DOCX và các định dạng phổ biến
- Cấu hình embedding model phù hợp trong settings
Hệ thống sẽ tự động phân tích và lập chỉ mục cả văn bản lẫn hình ảnh trong tài liệu.
Đánh giá
Multimodal Knowledge Base là một bước tiến có ý nghĩa với các hệ thống RAG. Thay vì chỉ dựa vào văn bản, giờ đây AI có thể tận dụng toàn bộ nội dung tài liệu – cả text lẫn visual elements. Điều này đặc biệt quan trọng với tài liệu kỹ thuật, báo cáo phân tích, hoặc bất kỳ loại tài liệu nào có nhiều biểu đồ và hình ảnh.
Tính năng này giải quyết một pain point thực tế: làm sao để AI “hiểu” được những gì con người nhìn thấy trong tài liệu. Với Dify 1.11.0, khoảng cách đó đã được thu hẹp đáng kể.
Tài liệu tham khảo: