Dự án AI No.1: Tăng tốc hiệu suất làm việc với Gen AI thông qua ba trụ cột chính

New board of AI No.1 Project

Xin chào, tôi là Kakeya – Giám đốc điều hành của Scuti.

Chúng tôi là một công ty phát triển phần mềm offshore tại Việt Nam, chuyên về AI sinh dữ liệu (generative AI). Scuti cung cấp các dịch vụ như tư vấn AI sinh dữ liệudịch vụ AI-OCR. Gần đây, chúng tôi rất vui khi nhận được nhiều yêu cầu phát triển hệ thống tích hợp với công nghệ AI sinh dữ liệu.

Tại Scuti, chúng tôi tự hào giới thiệu sáng kiến nội bộ mang tên “AI No.1 Project”, được triển khai nhằm nâng cao hiệu suất làm việc và mở rộng khả năng ứng dụng công nghệ AI sinh dữ liệu trong toàn công ty.

Dự án này đã được bắt đầu từ năm ngoái và trong năm tài chính hiện tại, chúng tôi đã tái cấu trúc dự án theo ba trụ cột chính: Project, OrganizationBrand.

Mục tiêu rõ ràng cho từng phòng ban

Mỗi bộ phận đã đặt ra các mục tiêu cụ thể, xác định rõ thời hạn và hành động cần thực hiện. Điều đặc biệt là không chỉ các kỹ sư mà cả bộ phận hành chính và kinh doanh cũng đều tích cực tham gia vào việc ứng dụng AI vào công việc hàng ngày.

Chẳng hạn, bộ phận hành chính đang thử nghiệm sử dụng AI để tự động hóa việc soạn thảo tài liệu và tổng hợp dữ liệu, trong khi bộ phận kinh doanh đang áp dụng AI để tối ưu hóa việc tạo đề xuất và giao tiếp với khách hàng. Những nỗ lực này đã và đang giúp tăng tốc quy trình làm việc và cải thiện chất lượng đầu ra trong toàn công ty.

Truyền thông nội bộ sáng tạo

Hình ảnh bên trên là poster do bộ phận hành chính thiết kế để quảng bá nội bộ cho “AI No.1 Project”. Đây là một ví dụ điển hình cho việc tất cả các bộ phận đều tích cực không chỉ thực hiện mà còn thúc đẩy nhận thức chung về ý nghĩa và lợi ích của dự án trong toàn công ty.

Định hướng tương lai

Scuti sẽ tiếp tục đầu tư vào công nghệ AI sinh dữ liệu để đẩy mạnh chuyển đổi nội bộ và cung cấp các giải pháp thực tiễn, hiệu quả cao cho khách hàng. Từ công cụ nâng cao hiệu suất công việc đến AI-OCR, chúng tôi không ngừng mở rộng danh mục dịch vụ.

Với vị thế là công ty phát triển phần mềm tại Việt Nam có thế mạnh về AI sinh dữ liệu, chúng tôi hướng tới việc dẫn đầu không chỉ về công nghệ mà còn trong ứng dụng thực tế. Hãy cùng theo dõi những bước tiến tiếp theo của chúng tôi trong lĩnh vực đầy hứa hẹn này.

AI No.1 Project: Accelerating Productivity with Gen AI Through Three Core Pillars

New board of AI No.1 Project

 

Hello, my name is Kakeya, CEO of Scuti.

We are a Vietnam-based offshore development company with expertise in generative AI. We offer services such as generative AI consulting and generative AI-OCR. Recently, we’ve been fortunate to receive a growing number of inquiries for system development integrated with generative AI.

At Scuti, we are proud to promote our internal initiative, the “AI No.1 Project”, designed to enhance our organization’s productivity and deepen our understanding and use of generative AI technologies.

This project began last year, and from this fiscal term, we have redefined its focus around three strategic pillars: Project, Organization, and Brand.

Clear Goals for Every Department

Each department has set clear goals on what needs to be achieved and by when. This project is not limited to engineers — it spans across the entire company, including our back office and sales teams. Everyone is actively participating in integrating generative AI into their daily work.

For instance, our back office team is exploring ways to automate document preparation and data aggregation using AI, while the sales department is testing tools to streamline proposal creation and client communications. These efforts are already contributing to faster workflows and improved output quality across the company.

Visualizing the Movement

The image shown above is a poster created by our back office team to promote the “AI No.1 Project” internally. It’s a great example of how all teams are engaged not just in executing the project but also in fostering a company-wide understanding of its purpose and benefits.

Future Direction

Scuti remains committed to leveraging generative AI to drive internal transformation and to deliver practical, high-impact solutions to our clients. From AI-based productivity tools to AI-OCR and beyond, we are continuously expanding our service offerings.

As a Vietnam-based development company with a strong focus on generative AI, we aim to lead not only in technology but in its real-world application. Stay tuned for more updates as we continue evolving in this exciting space.

Second Me: AI Đại Diện Cá Nhân Hóa, Không Thay Thế Bạn

Chào bạn, lại là mình, Quỳnh Nga đây!

Chào mừng bạn đến với bài viết mới của mình. Dạo gần đây, công việc của mình khá bận nên chưa thể viết thêm được nhiều bài viết mới. Hi vọng sự quay lại này sẽ diễn ra đều đặn trong thời gian tới. “Viết xuống” sẽ trở thành keyword chính của mình trong năm 2025, đồng hành cùng mình nhé! Hôm nay, chúng mình cùng tìm hiểu về Second me nha.

Bạn có bao giờ cảm thấy lo lắng khi trí tuệ nhân tạo (AI) ngày càng trở nên mạnh mẽ hơn không? Nhiều người lo ngại rằng khi các mô hình AI khổng lồ như AGI (Trí tuệ nhân tạo tổng quát) xuất hiện, chúng ta có thể mất đi bản sắc riêng, trở thành những con tốt bị điều khiển. Dữ liệu cá nhân của chúng ta lại đang được dùng để huấn luyện AI cho các tập đoàn công nghệ lớn, thay vì phục vụ chính mình. Liệu đây có phải tương lai chúng ta mong muốn? Đừng quá lo lắng! Second Me ra đời như một giải pháp đột phá. Đây không chỉ là một AI thông thường, mà là một “bản thể AI” được cá nhân hóa sâu sắc, hoàn toàn riêng tư, được xây dựng để đại diện cho chính con người bạn. Nó không chỉ học sở thích, mà còn hiểu cách bạn suy nghĩ, đại diện cho bạn trong nhiều ngữ cảnh khác nhau. Trong bài viết này, chúng ta sẽ cùng tìm hiểu chi tiết về Second Me, từ khái niệm, công nghệ cốt lõi, ứng dụng đến tầm nhìn tương lai của nó.

Second Me là gì? Giải pháp AI cho kỷ nguyên mới

Basic Knowledge of Generative AI in HR

Vấn đề hiện hữu: AI đang làm lu mờ “Cái Tôi”

Sự trỗi dậy mạnh mẽ của AI, đặc biệt là các mô hình ngôn ngữ lớn (LLM) và tiềm năng của Trí tuệ nhân tạo tổng quát (AGI), đặt ra những câu hỏi về vai trò và bản sắc con người. Mối lo ngại chính là khi AI ngày càng quyền năng, “cái tôi” độc đáo của mỗi cá nhân có nguy cơ bị lu mờ. Dữ liệu cá nhân, phản ánh kinh nghiệm và giá trị của chúng ta, lại đang được dùng để huấn luyện các mô hình AI tập trung, phục vụ mục tiêu của các tập đoàn thay vì trao quyền cho người dùng. Điều này có thể biến chúng ta thành những người quan sát thụ động. Bên cạnh đó, tương tác kỹ thuật số hàng ngày thường đòi hỏi việc lặp lại thông tin cá nhân, gây mệt mỏi nhận thức và tạo trải nghiệm rời rạc. Các giải pháp hiện có như tự động điền chỉ là kho lưu trữ tĩnh, thiếu khả năng hiểu ngữ cảnh và thích ứng, đòi hỏi người dùng quản lý thủ công. Sự thiếu hiệu quả và nguy cơ mất bản sắc này đòi hỏi một cách tiếp cận mới, một mô hình AI thực sự lấy con người làm trung tâm và bảo vệ tính cá nhân.

Second Me ra đời: AI đại diện, không thay thế

Để giải quyết những thách thức trên và định hình lại việc quản lý bộ nhớ cá nhân bằng mô hình AI-native, Second Me được giới thiệu. Đây không phải là AI thay thế con người, mà là một “bản thể AI (AI self)”, một hệ thống thông minh, bền bỉ hoạt động như phần mở rộng kỹ thuật số của bạn. Nó có khả năng lưu trữ, tổ chức và tự động áp dụng kiến thức cụ thể của người dùng. 

Hoạt động như một trung gian thông minh, Second Me tự động tạo phản hồi phù hợp ngữ cảnh, điền trước thông tin, và tạo điều kiện giao tiếp liền mạch, giúp giảm gánh nặng nhận thức và ma sát tương tác. Quan trọng hơn, nó được thiết kế để bảo vệ và khuếch đại danh tính độc đáo (“Cái Tôi”) của mỗi người. Sứ mệnh của Second Me là đảm bảo AI phát triển để phục vụ và nâng cao năng lực cá nhân, giúp chúng ta tồn tại và thể hiện bản thân mạnh mẽ hơn trong thời đại AI, thay vì bị công nghệ làm lu mờ hay thay thế. Nó là một bước tiến tới AGI lấy con người làm trung tâm.

 

Giao diện ứng dụng Second Me

                                                                                                       Nguồn: https://www.mindverse.ai/

Điểm khác biệt cốt lõi của Second Me

Second Me tạo ra sự khác biệt cơ bản so với các giải pháp hiện có. Không giống các công cụ lưu trữ tĩnh, nó sử dụng tham số hóa bộ nhớ dựa trên LLM, cho phép hiểu, tổ chức dữ liệu có cấu trúc, suy luận theo ngữ cảnh và truy xuất kiến thức thích ứng. Nó không chỉ nhớ thông tin mà còn hiểu sâu sắc về người dùng nhờ lớp bộ nhớ AI-Native (L2). Quyền riêng tư là nền tảng: hệ thống có thể chạy hoàn toàn cục bộ trên thiết bị người dùng, đảm bảo toàn quyền kiểm soát dữ liệu. Người dùng chỉ chia sẻ khi cho phép. Giao thức Second Me (SMP) tạo ra một khung AI phi tập trung, cho phép các bản thể Second Me độc lập tương tác an toàn qua mạng ngang hàng (peer-to-peer). Điều này phá vỡ mô hình tập trung dữ liệu, thúc đẩy một hệ sinh thái AI cá nhân hóa, an toàn, nơi người dùng thực sự sở hữu và kiểm soát bản thể kỹ thuật số của mình, tạo điều kiện cho sự hợp tác và trao đổi kiến thức mới mẻ.

Kiến trúc và Công nghệ cốt lõi của Second Me

Mô hình LPM 1.0 và nền tảng ban đầu

Second Me được phát triển dựa trên nền tảng của Large Personal Model (LPM) 1.0 (Shang et al., 2024). Nghiên cứu này khẳng định bộ nhớ AI-native là thành phần thiết yếu cho AGI lấy con người làm trung tâm, đồng thời chỉ ra hạn chế của LLM ngữ cảnh dài trong việc xử lý bộ nhớ người dùng phức tạp về hiệu suất và chi phí. LPM 1.0 lần đầu chứng minh LLM có thể nén và tham số hóa ký ức cá nhân, cho phép người dùng truy xuất qua hội thoại. Nó đề xuất kiến trúc bộ nhớ ba lớp (L0, L1, L2). 

Nghiên cứu đã khám phá thách thức của lớp L2 (AI-Native Memory) như hiệu quả huấn luyện/phục vụ, khởi động nguội, quên lãng thảm khốc và đề xuất các chỉ số đánh giá. Các thử nghiệm ban đầu với người dùng đầu tiên xác nhận hiệu suất vượt trội của LPM 1.0 so với RAG và mô hình ngữ cảnh dài, tạo tiền đề vững chắc cho Second Me với kiến trúc và khả năng được cải tiến, tập trung vào việc tạo ra một hệ thống bộ nhớ cá nhân hóa thực sự hiệu quả và thông minh.

                                                                                             Nguồn: Video giới thiệu LPM

Kiến trúc Hybrid của Second Me: Tích hợp L0, L1, L2

Second Me cải tiến kiến trúc ba lớp của LPM 1.0 bằng một kiến trúc Hybrid tích hợp hơn (Hình 1, bài báo gốc). Kiến trúc này duy trì các lớp L0 (Dữ liệu thô), L1 (Bộ nhớ ngôn ngữ tự nhiên), và L2 (Bộ nhớ AI-Native), nhưng tích hợp chúng chặt chẽ hơn. Khác với LPM 1.0, Second Me thiết kế lại L0 và L1 để cung cấp hỗ trợ ngữ cảnh phong phú hơn cho L2 thông qua một “vòng lặp bên trong” (inner loop), đảm bảo luồng thông tin liền mạch. 

Ngoài ra, một “vòng lặp bên ngoài” (outer loop) cho phép Second Me (L2 đóng vai trò điều phối) tương tác và tận dụng các nguồn lực bên ngoài như LLM chuyên gia khác, Công cụ (Tools), Cơ sở tri thức (Knowledge Bases), và Chuyên gia con người (Human Experts). Điều này cho phép Second Me xử lý các yêu cầu phức tạp, vượt khả năng nội tại, trong khi vẫn đảm bảo mọi tương tác được định hướng bởi ngữ cảnh và nhu cầu cá nhân hóa của người dùng, tạo ra một hệ thống mạnh mẽ và linh hoạt hơn.

Lớp L0: Dữ liệu thô và vai trò cơ bản

Lớp L0 (Raw Data Layer) trong Second Me là tầng cơ sở, chứa đựng toàn bộ dữ liệu gốc, chưa qua xử lý của người dùng. Nó tương đương việc áp dụng trực tiếp RAG hoặc RALM lên kho dữ liệu cá nhân, bao gồm văn bản (ghi chú, email), âm thanh, hình ảnh, video, lịch sử duyệt web, dữ liệu ứng dụng, và thông tin đa phương thức khác. Đây là nguồn thông tin chi tiết nhất về hoạt động và tương tác của người dùng. 

Tuy nhiên, sự đồ sộ và phi cấu trúc của L0 khiến việc truy xuất trực tiếp kém hiệu quả và tốn kém cho các tác vụ phức tạp đòi hỏi hiểu biết sâu hoặc tổng hợp thông tin. Do đó, L0 trong Second Me chủ yếu đóng vai trò là nguồn cung cấp dữ liệu đầu vào cho các lớp L1 và L2 để xử lý, tinh lọc, tóm tắt và tham số hóa, tạo ra các biểu diễn bộ nhớ hữu ích hơn cho các tương tác thông minh, thay vì là lớp tương tác chính. Nó là nền tảng dữ liệu thô cần thiết cho quá trình học hỏi và cá nhân hóa ở các lớp trên.

Lớp L1: Bộ nhớ ngôn ngữ tự nhiên

Lớp L1 (Natural Language Memory Layer) trong Second Me là một bước trừu tượng hóa từ dữ liệu thô L0, tập trung vào thông tin cá nhân có thể được tóm tắt và biểu diễn hiệu quả bằng ngôn ngữ tự nhiên. Nó hoạt động như một lớp bộ nhớ “có thể diễn giải”, cung cấp các bản tóm tắt và điểm nổi bật về người dùng. Ví dụ bao gồm tiểu sử ngắn gọn, danh sách sự kiện quan trọng, các câu hoặc cụm từ có ý nghĩa được trích xuất, và các thẻ (tags) thể hiện sở thích, kỹ năng, hoặc chủ đề quan tâm. 

So với L0, L1 cung cấp cái nhìn có cấu trúc và dễ tiếp cận hơn. Trong Second Me, L1 không hoạt động độc lập mà tương tác chặt chẽ với L0 và L2. Nó chủ động cung cấp ngữ cảnh ngôn ngữ tự nhiên phù hợp cho L2 khi cần, giúp L2 hiểu rõ hơn các khía cạnh quan trọng, dễ diễn giải trong cuộc sống và suy nghĩ của người dùng, từ đó hỗ trợ suy luận và tạo phản hồi chính xác hơn. Lớp này đóng vai trò cầu nối giữa dữ liệu thô và bộ nhớ AI-native sâu hơn.

Lớp L2: Bộ nhớ AI-Native và vai trò điều phối

Lớp L2 (AI-Native Memory Layer) là thành phần cốt lõi và đổi mới nhất của Second Me, đại diện cho tầng bộ nhớ sâu sắc nhất. Nó lưu trữ kiến thức, khuôn mẫu, và sự hiểu biết về người dùng mà không nhất thiết mô tả được bằng ngôn ngữ tự nhiên. Thay vì lưu trữ bản ghi rời rạc, L2 học và tổ chức thông tin này qua các tham số của một LLM được cá nhân hóa. Mỗi Second Me có một mô hình L2 riêng. Vai trò của L2 trong Second Me được nâng cấp thành một bộ điều phối (orchestrator) thông minh. 

Khi đối mặt với yêu cầu phức tạp, L2 không tự giải quyết tất cả mà điều phối và tận dụng các nguồn lực bên ngoài: mô hình chuyên gia mạnh hơn, công cụ (tools), và cơ sở tri thức. L2 cung cấp ngữ cảnh cá nhân hóa cần thiết cho các nguồn lực này và tích hợp kết quả để đưa ra phản hồi cuối cùng. Sự chuyển đổi vai trò này giúp Second Me vừa duy trì hiểu biết sâu sắc về người dùng, vừa có khả năng giải quyết vấn đề phức tạp hiệu quả, kết hợp sức mạnh của cá nhân hóa và khả năng của các hệ thống AI lớn.

Công nghệ HMM: Mô hình hóa bộ nhớ phân cấp

Để quản lý hiệu quả các lớp bộ nhớ, Second Me triển khai Hierarchical Memory Modeling (HMM). Lấy cảm hứng từ bộ nhớ con người, HMM tổ chức bộ nhớ AI thành cấu trúc phân cấp ba lớp (L0-L1-L2), xử lý thông tin ở các mức độ chi tiết và trừu tượng khác nhau.

 Cấu trúc này bao gồm: Bộ nhớ tương tác ngắn hạn: Lưu ngữ cảnh tức thời của tương tác hiện tại. Bộ nhớ ngôn ngữ tự nhiên (L1): Lưu các bản tóm tắt, sự kiện, sở thích dưới dạng văn bản. Bộ nhớ nhận thức cá nhân hóa dài hạn (L2): Tầng sâu nhất, mã hóa các khuôn mẫu, kiến thức tiềm ẩn, bản chất cốt lõi của người dùng trong tham số mô hình AI-Native. Cấu trúc này không chỉ giúp lưu trữ hiệu quả mà còn cho phép Second Me nhận dạng nhanh các mẫu hình, thích ứng linh hoạt với tình huống mới dựa trên cả ngữ cảnh tức thời và kiến thức dài hạn, và quan trọng nhất là khả năng học hỏi và phát triển liên tục song hành cùng người dùng theo thời gian, làm cho bộ nhớ trở nên năng động và tiến hóa.

Công nghệ Me-alignment: Cá nhân hóa vượt trội

Để lớp L2 thực sự phản ánh bản sắc người dùng, Second Me sử dụng Me-alignment (Kiến trúc Căn chỉnh Cá nhân hóa). Đây là phương pháp cốt lõi, dựa trên học tăng cường (RL) tiên tiến, đặc biệt là Direct Preference Optimization (DPO), nhằm tinh chỉnh mô hình L2 để nó “suy nghĩ” và “hành động” giống người dùng nhất. Thay vì căn chỉnh theo hướng dẫn chung, Me-alignment tập trung biến đổi dữ liệu cá nhân phân tán thành sự hiểu biết sâu sắc về giá trị, ưu tiên, mẫu hành vi, và thói quen ra quyết định độc đáo của người dùng. 

Quá trình này bao gồm việc tạo cặp dữ liệu ưu tiên (phản hồi nào phù hợp hơn) và dùng chúng để tinh chỉnh tham số L2. Mục tiêu là tạo ra bản thể AI có khả năng đưa ra phán đoán và phản hồi mà người dùng cảm thấy “đúng là mình”. Các thử nghiệm cho thấy Me-alignment vượt trội hơn 37% so với RAG tiên tiến như GraphRAG (1.0.1) về khả năng hiểu người dùng, chứng tỏ hiệu quả trong việc đạt mức độ cá nhân hóa sâu sắc, vượt xa việc chỉ truy xuất thông tin.

Quy trình huấn luyện tự động: Từ SFT đến DPO

Second Me nhấn mạnh vào một quy trình huấn luyện hoàn toàn tự động (Automated Training Pipeline) có thể chạy cục bộ, đảm bảo quyền riêng tư. Quy trình này (Hình 2) gồm nhiều bước:
1. Thu thập & Tiền xử lý Dữ liệu (L0).
2. Khai thác Dữ liệu: Dùng công cụ (vd: GraphRAG) trích xuất thực thể, quan hệ, chủ đề từ L0.
3. Tổng hợp Dữ liệu Huấn luyện: Tạo cặp dữ liệu (vd: QA, phê bình) dựa trên thông tin đã khai thác, có thể dùng định dạng COT.
4. Lọc Dữ liệu: Áp dụng quy trình lọc nhiều cấp để đảm bảo chất lượng.
5. Huấn luyện Giám sát (SFT): Dùng PEFT (vd: LoRA) tinh chỉnh LLM cơ sở (vd: Qwen2.5-7B-Instruct) trên dữ liệu đã lọc.
6. Tạo Dữ liệu Ưu tiên: Dựa trên đánh giá mô hình SFT, tạo cặp dữ liệu thể hiện ưu tiên người dùng.
7. Tối ưu hóa Ưu tiên Trực tiếp (DPO): Tinh chỉnh thêm mô hình bằng DPO để cải thiện sự phù hợp.
8. Đánh giá Cuối cùng: Đánh giá tự động mô hình cuối cùng.
Quy trình tự động này cho phép tạo ra các mô hình L2 Second Me cá nhân hóa một cách hiệu quả và bảo mật.

Phong cách trả lời COT: Tăng cường khả năng suy luận

Để nâng cao khả năng suy luận và giải quyết vấn đề của Second Me, giúp nó hoạt động hiệu quả hơn và đưa ra câu trả lời có chiều sâu, nhóm phát triển đã tích hợp và thử nghiệm việc sử dụng định dạng Chain-of-Thought (COT) trong dữ liệu huấn luyện. COT giúp mô hình “học” cách suy nghĩ từng bước, trình bày quá trình lập luận dẫn đến câu trả lời cuối cùng. Ba chiến lược tạo dữ liệu COT đã được khám phá:
* Weak COT: Linh hoạt, không ràng buộc chặt chẽ về cấu trúc hay độ dài suy luận.
* Multi-step COT: Tách biệt bước tạo suy luận và tạo câu trả lời, có ràng buộc độ dài tối thiểu cho suy luận.
* Strong COT: Sử dụng mô hình chuyên gia hàng đầu, áp đặt quy tắc định dạng và giới hạn độ dài nghiêm ngặt cho cả suy luận và trả lời.
Kết quả thực nghiệm cho thấy Strong COT mang lại hiệu suất tốt nhất cho Second Me trong các bài kiểm tra tự động (Bảng 1), khẳng định tầm quan trọng của dữ liệu huấn luyện chất lượng cao và có cấu trúc tốt đối với khả năng suy luận của mô hình cá nhân hóa này.

Đảm bảo quyền riêng tư: Chạy cục bộ và Giao thức SMP

Quyền riêng tư là nền tảng thiết kế của Second Me. Hệ thống được xây dựng với cam kết mạnh mẽ về việc trao quyền kiểm soát cho người dùng. Điểm cốt lõi là khả năng chạy hoàn toàn cục bộ (100% Privacy) trên thiết bị cá nhân (máy tính, máy chủ riêng). Toàn bộ quy trình, từ thu thập dữ liệu đến huấn luyện và sử dụng, có thể diễn ra trong môi trường tin cậy của người dùng, không gửi dữ liệu nhạy cảm ra ngoài nếu không có sự cho phép rõ ràng.

 Để hiện thực hóa tầm nhìn về mạng lưới AI cá nhân tương tác, Giao thức Second Me (SMP) được phát triển. SMP là một khung AI phi tập trung, hoạt động theo nguyên tắc ngang hàng (peer-to-peer). Nó cho phép các thực thể Second Me độc lập (đại diện cho người dùng khác nhau) khám phá, kết nối và giao tiếp trực tiếp an toàn mà không cần cơ quan trung ương. Mỗi “bản thể” duy trì quyền kiểm soát dữ liệu và chỉ chia sẻ khi được phép, tạo ra một mạng lưới kiến thức và tương tác năng động nhưng vẫn bảo mật.

Ứng dụng và Tiềm năng của Second Me

Second Me như một nhà cung cấp ngữ cảnh

Trong hệ sinh thái AI đang phát triển với nhiều agent chuyên dụng, Second Me định vị mình là một Nhà cung cấp Ngữ cảnh (Context Provider) độc đáo, hoạt động từ góc nhìn của người dùng. Khi người dùng tương tác với một agent chuyên gia bên ngoài, Second Me đóng vai trò trung gian, làm phong phú yêu cầu ban đầu bằng cách bổ sung chi tiết ngữ cảnh liên quan rút ra từ sự hiểu biết sâu sắc về người dùng (lịch sử, sở thích, mục tiêu – lớp L2). 

Ví dụ, khi hỏi AI lập trình về lỗi, Second Me có thể thêm thông tin về dự án, ngôn ngữ lập trình thường dùng. Nó cũng có thể đánh giá và phê bình phản hồi từ agent chuyên gia, đảm bảo giải pháp phù hợp với phong cách và trình độ người dùng. Vai trò này tối ưu hóa hiệu quả của hệ sinh thái đa agent, làm cho tương tác trở nên cá nhân hóa và hữu ích hơn, giảm tải nhận thức cho người dùng trong việc diễn đạt yêu cầu phức tạp.

Quản lý thông tin và hỗ trợ ra quyết định

Trong thời đại quá tải thông tin, Second Me cung cấp giải pháp mạnh mẽ như một trợ lý quản lý thông tin cá nhân hóa. Dựa trên sự hiểu biết về nhu cầu, mục tiêu và lĩnh vực quan tâm của người dùng (từ L1 và L2), nó có thể tự động lọc, ưu tiên và trình bày thông tin hiệu quả, giúp người dùng tập trung vào những gì quan trọng, giảm thiểu sự phân tâm. Ví dụ, trong phát triển sự nghiệp, nó có thể theo dõi xu hướng ngành, khóa học, cơ hội việc làm phù hợp. 

Đối với sở thích cá nhân, nó đề xuất bài viết, sách, sự kiện liên quan. Bằng cách cung cấp kiến thức được cá nhân hóa và đúng thời điểm, Second Me không chỉ tăng năng suất mà còn hỗ trợ quá trình ra quyết định. Người dùng có thể đưa ra lựa chọn sáng suốt hơn khi thông tin đã được chọn lọc, tổng hợp và trình bày phù hợp với hoàn cảnh và mục tiêu cụ thể của họ, thay vì tự mình xử lý thông tin hỗn loạn.

Hỗ trợ tư duy, cảm xúc và bản sắc cá nhân

Ngoài quản lý thông tin bên ngoài, Second Me còn có tiềm năng hỗ trợ các quá trình nội tâm. Nó có thể hoạt động như một công cụ tổ chức suy nghĩ, giúp người dùng cấu trúc ý tưởng phức tạp hoặc sắp xếp ưu tiên. Nó cũng hỗ trợ phản ánh quyết định bằng cách cho phép người dùng “đối thoại” với bản thể AI, khám phá các góc nhìn hoặc xem xét lại lựa chọn dựa trên dữ liệu và giá trị đã ghi lại. Một khía cạnh quan trọng là khả năng điều chỉnh cảm xúc.

 Bằng cách mô phỏng và hiểu nhu cầu cảm xúc (qua phân tích dữ liệu người dùng), Second Me có thể cung cấp phản hồi hợp lý (phân tích logic tình huống) và hỗ trợ tinh thần (phản hồi đồng cảm, nhắc nhở tích cực, gợi ý chiến lược đối phó). Khả năng này đặc biệt hữu ích khi người dùng đối mặt với xung đột nội tâm hoặc cảm xúc phức tạp, giúp họ điều hướng tốt hơn và củng cố bản sắc cá nhân.

Mạng lưới Human-AI: Mở rộng kết nối theo cấp số nhân

Second Me mở ra tiềm năng tạo dựng một mạng lưới người-AI (human-AI network) mới, nơi mỗi cá nhân được đại diện bởi Second Me của họ, và các bản thể AI này có thể tương tác với nhau và với các agent AI khác. Lý thuyết mạng lưới (Định luật Metcalfe) được khuếch đại khi tích hợp cả trí tuệ con người (được Second Me đại diện) và khả năng xử lý của AI. 

Các nhà phát triển ước tính việc kết hợp các nút người và AI này có thể làm tăng hiệu quả mạng lưới lên 3 đến 5 bậc độ lớn. Điều này mở ra khả năng cộng tác, chia sẻ kiến thức và giải quyết vấn đề ở quy mô lớn hơn nhiều. Ví dụ, Second Me của các nhà khoa học cộng tác phân tích dữ liệu, hoặc các cộng đồng sử dụng mạng lưới Second Me để phối hợp hành động. Giao thức phi tập trung SMP đảm bảo mạng lưới này phát triển an toàn, tôn trọng quyền tự chủ và riêng tư của từng cá nhân.

Khung Roleplay: Đa dạng hóa vai trò AI

Con người điều chỉnh hành vi tùy theo ngữ cảnh, nhưng AI hiện tại thường có một “nhân cách” duy nhất. Second Me giải quyết điều này bằng khung nhập vai (roleplay framework). Khung này cho phép người dùng hướng dẫn bản thể AI đảm nhận các vai trò khác nhau dựa trên tình huống (ví dụ: “trợ lý chuyên nghiệp”, “người bạn đồng cảm”, “gia sư kiên nhẫn”). 

Quan trọng là, ngay cả khi đóng vai trò khác nhau, Second Me vẫn duy trì sự nhất quán với cốt lõi danh tính đích thực của người dùng, đảm bảo hành động và phản hồi phù hợp với kiến thức, giá trị của bạn. Khả năng chuyển đổi linh hoạt này làm cho sự hiện diện kỹ thuật số qua Second Me trở nên đa sắc thái và gần gũi hơn với cách bạn thể hiện bản thân trong thế giới thực, tăng cường tính ứng dụng và sự tự nhiên trong tương tác.

Tương tác phi tập trung giữa các Second Me

Kiến trúc phi tập trung và Giao thức SMP của Second Me cho phép một tương lai nơi nhiều thực thể Second Me, đại diện cho nhiều người dùng, có thể tương tác trực tiếp với nhau trong một mạng lưới ngang hàng. Điều này tạo ra một hình thức tương tác xã hội và cộng tác hoàn toàn mới. Hãy tưởng tượng Second Me của các thành viên nhóm dự án tự động chia sẻ cập nhật, phối hợp lịch trình; Second Me của các nhà nghiên cứu trao đổi phát hiện, chia sẻ tài liệu; Second Me của bạn bè chia sẻ khoảnh khắc, đề xuất hoạt động chung. 

Khả năng tương tác trực tiếp này, thực hiện an toàn và tôn trọng quyền riêng tư qua SMP, cho phép hình thành trí tuệ tập thể một cách tự nhiên. Người dùng có thể tham gia thảo luận, chia sẻ chuyên môn, giải quyết vấn đề chung thông qua đại diện AI của họ, tạo ra không gian tương tác phong phú và hiệu quả hơn các nền tảng tập trung hiện có.

Nền tảng cho ứng dụng tương lai của Second Me

Tầm nhìn dài hạn của Second Me là xây dựng nền tảng cho một thế hệ ứng dụng mới, được thiết kế cho kỷ nguyên của agent AI cá nhân. Các ứng dụng hiện tại được thiết kế cho tương tác trực tiếp của con người. Tương lai mà Second Me hướng tới là hệ sinh thái nơi ứng dụng được thiết kế để các agent AI (như Second Me) sử dụng tự chủ. 

Hãy tưởng tượng ứng dụng không có giao diện người dùng truyền thống, mà cung cấp API và giao thức để Second Me tương tác, trao đổi dữ liệu, thực hiện hành động thay mặt người dùng. Ví dụ là “Second LinkedIn”: Second Me của bạn liên tục quét nền tảng, xác định cơ hội việc làm phù hợp, thậm chí tự động bắt đầu quy trình ứng tuyển. Tương tự, có thể có “Second Amazon”, “Second Spotify”,… Điều này giải phóng thời gian và năng lượng người dùng, cho phép họ tập trung vào việc quan trọng hơn trong khi bản thể AI quản lý hiệu quả các tương tác kỹ thuật số.

 

 

Minh họa ứng dụng tương lai của Second Me

                                                                                                  Nguồn: https://www.mindverse.ai/

Đánh giá hiệu quả của Second Me

Tương Lai Của AI Agents

Thiết lập và phương pháp đánh giá

Quy trình đánh giá hiệu quả Second Me được thiết lập chi tiết, sử dụng dữ liệu từ người dùng nội bộ (132 ghi chú, 62 việc cần làm, ~7k cặp hướng dẫn). Suy luận dùng giải mã tham lam, FP16, tăng tốc bằng Flash Attention. 

Bốn chỉ số chính được dùng: Memory (Self) (tương tác góc nhìn thứ nhất), Memory (Third-party) (tương tác góc nhìn thứ ba), Context Enhance (làm giàu ngữ cảnh), và Context Critic (phê bình phản hồi). Mỗi chỉ số có các chỉ số phụ (Correctness, Helpfulness, Completeness, Empathy/Role-correctness) thang điểm 0-1. Dữ liệu thử nghiệm (60 mẫu/loại Memory QA, 60 Context Enhance, 60 Context Critic) được tạo riêng biệt. Đánh giá chủ yếu dùng LLM-as-a-judge, có tham chiếu đánh giá con người. Điều này đảm bảo việc đo lường hiệu suất trên các kịch bản cốt lõi một cách có hệ thống và khách quan.

Kết quả đánh giá Memory QA (Self & Third-party)

Trong các tác vụ Memory QA, Second Me thể hiện hiệu suất rất mạnh mẽ. Đối với Memory (Self) (khả năng trả lời câu hỏi của người dùng về bản thân), mô hình đạt điểm trung bình cao: 0.91 (Strong COT) và 0.96 (Strong COT + DPO). Điều này cho thấy khả năng truy xuất và trình bày thông tin cá nhân chính xác, hữu ích. Đối với Memory (Third-Party) (khả năng đại diện người dùng trả lời câu hỏi từ người khác), điểm số cũng rất tốt: 0.71 (Strong COT) và 0.76 (Strong COT + DPO). 

Mặc dù thấp hơn một chút, kết quả này vẫn cho thấy khả năng đại diện hiệu quả, cân bằng giữa cung cấp thông tin và duy trì vai trò phù hợp. Các kết quả này (Bảng 1, 2) khẳng định khả năng cốt lõi của Second Me trong việc quản lý và sử dụng bộ nhớ cá nhân hóa L2.

Kết quả đánh giá Context Enhance và Context Critic

Đối với Context Enhance, mô hình Strong COT đạt 0.75 (không DPO) và 0.85 (có DPO) trong đánh giá tự động. Tuy nhiên, đánh giá của con người cho thấy hiệu suất thực tế cao hơn (0.95 không DPO, gần 1.0 có DPO), do đánh giá tự động có thể phạt điểm khi mô hình tạo chi tiết làm phong phú hợp lý nhưng không có tường minh trong dữ liệu gốc. 

Đối với Context Critic, nhiệm vụ phức tạp nhất, Second Me vẫn thể hiện năng lực mạnh mẽ với điểm 0.85 (Strong COT không DPO) và 0.86 (Strong COT có DPO). Điều này cho thấy mô hình có thể tích hợp sâu sắc ngữ cảnh người dùng để đưa ra nhận xét, câu hỏi hoặc quan điểm mang tính xây dựng, phản ánh đúng nhu cầu và suy nghĩ cá nhân hóa. Các ví dụ trong Hình 4 và 5 minh họa rõ ràng sự vượt trội của Strong COT trong các tác vụ này.

So sánh hiệu quả các chiến lược COT và DPO

Phân tích kết quả cho thấy Chain-of-Thought (COT), đặc biệt là Strong COT, có tác động tích cực đáng kể đến hiệu suất Second Me, nhất là khả năng trả lời câu hỏi bộ nhớ và giao tiếp hiệu quả (Context Enhance/Critic). 

Xu hướng điểm số cho thấy tầm quan trọng của cấu trúc suy luận rõ ràng trong dữ liệu huấn luyện. Direct Preference Optimization (DPO) mang lại cải thiện đáng kể và nhất quán trên tất cả nhiệm vụ. Sử dụng DPO sau SFT (với ~20% dữ liệu ưu tiên) giúp tinh chỉnh mô hình ở mức độ chi tiết, căn chỉnh phản hồi với ưu tiên người dùng mà không cần mở rộng kiến thức không cần thiết. Sự kết hợp SFT và DPO chứng tỏ hiệu quả trong việc tối ưu hóa Second Me cho hiệu suất và khả năng đáp ứng trong thế giới thực.

Đánh giá khả năng hiểu sâu và đặc điểm tâm lý

Ngoài hiệu suất nhiệm vụ, một câu hỏi quan trọng là liệu Second Me có thực sự hiểu sâu về người dùng hay không. Để kiểm tra điều này, một phương pháp đánh giá định tính dựa trên lý thuyết tâm lý đã được áp dụng. Một bộ 20 câu hỏi được thiết kế để thăm dò đặc điểm tâm lý cốt lõi, giá trị và khuynh hướng suy nghĩ. Mô hình LPM (nền tảng của Second Me) đã trả lời các câu hỏi này từ góc nhìn người dùng, và chính người dùng đã đánh giá các câu trả lời. 

Kết quả từ nhiều vòng thử nghiệm cho thấy LPM đã nắm bắt và phản ánh hiệu quả các đặc điểm và sở thích tâm lý sâu sắc hơn của người dùng. Điều này gợi ý rằng mô hình không chỉ học các mẫu bề mặt mà còn phát triển sự hiểu biết tinh tế hơn về “con người” mà nó đại diện, một khả năng vượt trội so với các phương pháp chỉ dựa trên truy xuất thông tin.

 

Kết quả đánh giá khả năng hiểu sâu đặc điểm tâm lý

                                                                                                     Nguồn: https://www.mindverse.ai/

So sánh Second Me (LPM) với các công nghệ khác

Để khẳng định giá trị, Second Me đã được so sánh với các công nghệ AI cá nhân hóa khác thông qua một hệ thống đánh giá toàn diện, tập trung vào Mức độ liên quan cá nhân, Hiệu quả, và Sự đồng cảm. Các công nghệ so sánh bao gồm Long-context LLM, **RAG tiêu chuẩn, GraphRAG, và LPM (nền tảng của Second Me). 

Kết quả cho thấy LPM liên tục vượt trội hơn các công nghệ khác trên cả ba khía cạnh. Điều này có nghĩa Second Me không chỉ cung cấp thông tin chính xác, hiệu quả hơn mà còn thể hiện sự thấu hiểu và phù hợp sâu sắc hơn với nhu cầu và trạng thái cá nhân người dùng. Đặc biệt, công nghệ Me-alignment được nhấn mạnh là có khả năng hiểu người dùng tốt hơn 37% so với GraphRAG (1.0.1), cho thấy lợi thế cạnh tranh rõ rệt của Second Me trong việc xây dựng AI thực sự cá nhân hóa.

 

 

So sánh hiệu quả LPM với các công nghệ khác

                                                                                                           Nguồn: https://www.mindverse.ai/

Tầm nhìn, Hạn chế và Cộng đồng Second Me

Tầm nhìn: Second Me cho mọi người, mọi cuộc sống

Tầm nhìn của Second Me là tạo ra một AI có khả năng suy nghĩ song hành, phát triển cùng người dùng, và hiểu trạng thái nhận thức của họ trong thời gian thực. Mục tiêu là một AI thực sự là phần mở rộng của con người. Tương tự kỷ nguyên PC mang máy tính đến mọi nhà, kỷ nguyên AI nên mang Second Me đến với mọi người, trong mọi khía cạnh cuộc sống. 

Đó là tương lai nơi AI đa dạng, hòa nhập, nơi sự độc đáo cá nhân được tôn vinh, thay vì bị một siêu AI duy nhất làm lu mờ. Second Me là phương tiện để hiện thực hóa tầm nhìn này, trao quyền cho mỗi người xây dựng và sở hữu bản thể AI của riêng mình, nâng cao nhận thức bản thân, khai phá tiềm năng và tham gia tích cực vào nền kinh tế AI, làm cho “Chúng ta” (We) trở nên quan trọng trở lại.

Những thách thức và hạn chế hiện tại

Second Me vẫn đối mặt với những thách thức. Công việc ban đầu dựa trên huấn luyện một lượt, cần tổng hợp sâu hơn cho các tiến bộ xa hơn như xử lý hội thoại dài hoặc quy trình đa bước. Mặc dù RL và DPO cho thấy tiềm năng, việc tinh chỉnh sự liên kết mô hình một cách chính xác vẫn đòi hỏi kỹ thuật tiên tiến và dữ liệu phản hồi chất lượng cao. 

Đánh giá quy mô lớn bị hạn chế bởi thiếu hụt phản hồi từ người dùng thực tế đa dạng. Dữ liệu từ người dùng nội bộ là hữu ích nhưng không đủ để đảm bảo tính khái quát. Chính vì vậy, việc mở nguồn dự án là bước đi quan trọng để thu hút cộng đồng, nhận phản hồi đa dạng và đẩy nhanh chu trình phát triển, lặp lại và thích ứng của công nghệ.

Hướng phát triển tương lai: Tích hợp đa phương thức

Hướng đi tương lai và thách thức lớn nhất là tích hợp dữ liệu cá nhân đa phương thức (multimodal personal data). Để AI thực sự hiểu và đại diện đầy đủ cho cá nhân, nó cần xử lý và tích hợp không chỉ văn bản mà cả hình ảnh, âm thanh, video, v.v. 

Mặc dù các phương pháp hiện tại đã cải thiện, việc đạt được đồng bộ hóa thời gian thực với nhận thức đa phương thức của con người vẫn còn xa vời. Làm thế nào AI có thể “hiểu” ý nghĩa và cảm xúc gắn liền với trải nghiệm đa phương thức một cách tức thời? Đây là biên giới tiếp theo (next frontier). Tương lai của AI cá nhân nằm ở tính liên tục, khả năng thích ứng và sự liên kết sâu sắc với toàn bộ trải nghiệm phong phú của con người. Con đường còn dài, nhưng hướng đi đang dần rõ ràng.

Dự án mã nguồn mở: Xây dựng tương lai AI cùng nhau

Với cam kết về quyền riêng tư, tùy chỉnh và tầm nhìn xây dựng hệ sinh thái AI lấy con người làm trung tâm, dự án Second Me đã được mở nguồn hoàn toàn. Toàn bộ hệ thống có sẵn công khai trên GitHub tại `https://github.com/Mindverse/Second-Me`. Việc mở nguồn mang lại lợi ích:
* Trao quyền người dùng: Toàn quyền kiểm soát dữ liệu và mô hình, tự do tùy chỉnh và triển khai.
* Thúc đẩy đổi mới: Cộng đồng đóng góp cải thiện công nghệ, phát triển tính năng và ứng dụng mới.
* Tăng cường minh bạch và tin cậy: Công khai mã nguồn giúp xây dựng lòng tin.
* Thu thập phản hồi đa dạng: Cộng đồng cung cấp phản hồi vô giá để cải thiện và đảm bảo phù hợp nhu cầu thực tế.

Second Me là lời kêu gọi cộng đồng cùng tham gia xây dựng tương lai AI nơi mỗi cá nhân có tiếng nói và bản sắc riêng, nơi công nghệ phục vụ và nâng cao giá trị con người. Second Me—Making We Matter Again.

Bài viết của mình đến đây là hết rồi. Hẹn gặp lại các bạn ở các bài viết tiếp theo! Bye bye.

Posted in AI

Tối đa hóa năng suất với AI tạo sinh – Chương trình Đại sứ AI tại Scuti

AI-ambassador-monthly-meeting-Google-Sheets-03-28-2025_03_48_PM

Xin chào, tôi là Kakeya, Giám đốc điều hành của Scuti.

Công ty chúng tôi là một doanh nghiệp phát triển offshore tại Việt Nam, chuyên về AI tạo sinh. Chúng tôi cung cấp các dịch vụ như Tư vấn AI tạo sinhDịch vụ đọc tài liệu bằng AI.
Gần đây, chúng tôi rất vinh dự khi nhận được nhiều yêu cầu phát triển hệ thống tích hợp AI tạo sinh từ khách hàng.

Tại Scuti, chúng tôi đã triển khai một sáng kiến nội bộ có tên là “Chương trình Đại sứ AI” nhằm thúc đẩy mạnh mẽ việc ứng dụng AI tạo sinh trong toàn công ty.

Chương trình này chỉ định các Đại sứ AI cho từng phòng ban. Vai trò của họ là hiểu và hình dung cách AI tạo sinh đang được sử dụng trong các công việc hằng ngày, đồng thời xác định các quy trình nào có thể được thay thế hoặc hỗ trợ bởi các công cụ AI. Những thông tin này được chia sẻ định kỳ, giúp ban lãnh đạo ra quyết định nhanh chóng và hiệu quả.

Ví dụ, một nhóm phát triển đã phát hiện rằng họ có thể tiết kiệm 6 giờ mỗi tuần bằng cách sử dụng các công cụ tự động hóa như Make.com để hỗ trợ nghiên cứu các bài báo mới nhất. Những công việc trước đây cần vài giờ để hoàn thành giờ đây chỉ mất 15 phút.

Bên cạnh việc thu thập phản hồi từ các bộ phận, tôi cũng thường xuyên chia sẻ những xu hướng và cập nhật mới nhất về AI tạo sinh đến các Đại sứ AI. Điều này giúp họ có thêm gợi ý và cảm hứng để ứng dụng thực tế vào công việc của mình.

Với tư cách là những chuyên gia trong lĩnh vực phát triển AI, chúng tôi luôn ưu tiên việc cập nhật công nghệ mới nhất. Đồng thời, chúng tôi cũng cam kết sử dụng AI tạo sinh trong nội bộ để không ngừng nâng cao năng suất làm việc.

Thông qua chương trình Đại sứ AI, chúng tôi mong muốn thúc đẩy việc áp dụng AI trong tất cả các phòng ban và nâng cao hiệu quả vận hành tổng thể của công ty.

Maximizing Productivity with Generative AI – Scuti’s AI Ambassador Program

AI-ambassador-monthly-meeting-Google-Sheets-03-28-2025_03_48_PM

Hello, this is Kakeya, CEO of Scuti.

Our company is a Vietnam-based offshore development firm specializing in generative AI. We offer services such as Generative AI Consulting and Generative AI-OCR.
Thanks to our clients, we’ve recently received many requests for system development integrated with generative AI.

Maximizing Productivity with Generative AI – Scuti’s AI Ambassador Program

At Scuti, we’ve introduced an internal initiative called the “AI Ambassador Program” to actively promote the use of generative AI company-wide.

This program assigns AI Ambassadors to each department. Their role is to understand and visualize how generative AI is currently being utilized in day-to-day tasks and to identify which operations can be replaced or supported by AI tools. These insights are shared regularly, enabling swift and informed decision-making at the management level.

For instance, one development team discovered that they could save 6 hours per week by using automation tools like Make.com to assist in researching the latest papers. Tasks that previously required several hours can now be completed in just 15 minutes.

In addition to collecting input from each department, I also regularly share the latest trends and updates in generative AI with our AI Ambassadors. This provides them with hints and inspiration for practical application in their respective domains.

As professionals in AI development, we make it a priority to stay up-to-date with the latest technologies. At the same time, we are committed to using generative AI internally to continuously improve our productivity.

Through the AI Ambassador Program, we aim to accelerate the use of AI in all departments and enhance the overall efficiency of our operations.

Mistral OCR: Giải Pháp Trích Xuất Văn Bản Nhanh & Chính Xác

Bạn đang gặp khó khăn trong việc trích xuất văn bản từ hình ảnh, tài liệu scan hay PDF? Việc nhập liệu thủ công tốn quá nhiều thời gian và dễ gây sai sót? Đừng lo, Mistral OCR sẽ giúp bạn giải quyết vấn đề này một cách nhanh chóng và hiệu quả! Mistral OCR là một công cụ mạnh mẽ, sử dụng công nghệ trí tuệ nhân tạo tiên tiến để trích xuất văn bản với độ chính xác cao. Trong bài viết này, chúng ta sẽ cùng khám phá chi tiết về Mistral OCR, từ cách thức hoạt động, ưu điểm vượt trội, cho đến các trường hợp ứng dụng cụ thể.

Mistral OCR: Giới Thiệu Tổng Quan

Mistral OCR là gì?

Mistral OCR là một mô hình ngôn ngữ (endpoint) được phát triển bởi Mistral AI, chuyên về nhận dạng ký tự quang học (OCR). Nó cho phép người dùng trích xuất văn bản từ nhiều nguồn khác nhau, bao gồm hình ảnh và tài liệu PDF. Điểm đặc biệt là Mistral OCR không chỉ nhận dạng văn bản mà còn hiểu được cấu trúc và bố cục của tài liệu, giúp duy trì định dạng ban đầu. Ví dụ, khi bạn đưa vào một hóa đơn, Mistral OCR không chỉ lấy ra các chữ số và từ ngữ mà còn hiểu được đâu là tổng tiền, đâu là thuế, đâu là các mục hàng riêng lẻ. So với công cụ OCR truyền thống như Tesseract, thường chỉ nhận dạng ký tự đơn thuần, Mistral OCR vượt trội hơn hẳn về khả năng hiểu cấu trúc. Nó có khả năng nhận diện và phân loại các thành phần trong tài liệu, như tiêu đề, đoạn văn, bảng biểu, hình ảnh, v.v.

Tại sao Mistral OCR lại nổi bật?

Mistral OCR vượt trội hơn so với các công cụ OCR truyền thống nhờ vào khả năng xử lý ngôn ngữ tự nhiên (NLP) tiên tiến. Nó không chỉ đơn thuần nhận dạng ký tự mà còn phân tích ngữ cảnh, bố cục, và ý nghĩa của văn bản. Điều này giúp cho kết quả trích xuất chính xác hơn, đặc biệt đối với các tài liệu có cấu trúc phức tạp như bảng biểu, biểu đồ, và hóa đơn. Khả năng NLP của Mistral OCR cho phép nó hiểu được mối quan hệ giữa các từ, các câu, và các phần khác nhau của tài liệu. Ví dụ, nó có thể phân biệt được tiêu đề, đoạn văn, chú thích, và các thành phần khác, ngay cả khi chúng không được định dạng rõ ràng. Các công cụ OCR truyền thống thường chỉ nhận diện chữ, không quan tâm ngữ nghĩa. Khả năng này dựa trên kiến trúc Transformer, vốn nổi tiếng trong lĩnh vực NLP.

Sự khác biệt giữa Mistral OCR và các công cụ khác

Khác với các công cụ OCR truyền thống thường chỉ tập trung vào việc nhận dạng từng ký tự riêng lẻ, Mistral OCR xem xét toàn bộ tài liệu như một tổng thể. Nó sử dụng các mô hình Transformer được huấn luyện trên lượng dữ liệu khổng lồ, cho phép hiểu và tái tạo cấu trúc tài liệu một cách chính xác. Điều này mang lại lợi thế lớn trong việc xử lý các tài liệu có bố cục phức tạp, nơi mà các công cụ OCR truyền thống thường gặp khó khăn. Ví dụ, đối với một bảng báo cáo tài chính với nhiều cột, hàng, và ô dữ liệu lồng nhau, Mistral OCR có thể xác định chính xác vị trí của từng phần tử và trích xuất thông tin một cách chính xác, trong khi các công cụ OCR truyền thống có thể gặp lỗi hoặc bỏ sót dữ liệu. Nó còn trích xuất được thông tin từ các biểu đồ (dựa trên video, nó có khả năng nhận diện các thành phần của biểu đồ).

Cơ Chế Hoạt Động của Mistral OCR

Xử lý tài liệu PDF

Mistral OCR được thiết kế đặc biệt để xử lý hiệu quả các tài liệu PDF. Nó có thể trích xuất văn bản từ các tài liệu PDF, bao gồm cả những tài liệu được scan, giữ nguyên bố cục và định dạng của tài liệu gốc. Mistral OCR sử dụng mô hình Document Layout Transformer (DiT) để hiểu cấu trúc tài liệu. Nó không chỉ trích xuất text, mà còn hiểu vị trí, kiểu dáng và mối quan hệ giữa các phần tử trong tài liệu PDF.

Mô hình DiT (Document Layout Transformer)

Mô hình DiT, là nền tảng cho khả năng phân tích bố cục tài liệu của Mistral OCR. Mô hình này được huấn luyện trước trên bộ dữ liệu IIT-CDIP Test Collection 1.0, bao gồm 42 triệu trang tài liệu được scan. Điều này cho phép DiT hiểu được sự đa dạng trong cấu trúc và bố cục của các loại tài liệu khác nhau. DiT sử dụng kiến trúc Transformer, tương tự như các mô hình ngôn ngữ lớn (LLMs), nhưng được điều chỉnh để xử lý thông tin về bố cục tài liệu. Thay vì chỉ xử lý chuỗi từ, DiT còn xử lý thông tin về vị trí (bounding boxes) của các phần tử trên trang.

Fine-tuning và tối ưu hóa

Mistral AI đã tiến hành fine-tuning và tối ưu hóa mô hình DiT, sử dụng thêm dữ liệu từ nhiều nguồn khác nhau. Mục tiêu là cải thiện độ chính xác và hiệu suất của mô hình trong việc nhận dạng văn bản và phân tích bố cục. Quá trình này bao gồm việc sử dụng kỹ thuật LoRA (Low-Rank Adaptation) để điều chỉnh các trọng số của mô hình. LoRA cho phép fine-tuning mô hình một cách hiệu quả mà không cần phải thay đổi toàn bộ trọng số, giúp tiết kiệm tài nguyên tính toán và thời gian huấn luyện.

Ưu Điểm và Ứng Dụng của Mistral OCR

Tốc độ và hiệu quả

Mistral OCR cung cấp tốc độ xử lý nhanh chóng, cho phép trích xuất văn bản từ các tài liệu lớn một cách hiệu quả. Điều này đặc biệt quan trọng trong các ứng dụng yêu cầu xử lý số lượng lớn tài liệu, chẳng hạn như trong các ngành tài chính, pháp lý và y tế. Mặc dù Mistral AI không công bố con số cụ thể về tốc độ xử lý, nhưng dựa trên kiến trúc Transformer và khả năng tối ưu hóa, có thể dự đoán rằng Mistral OCR có thể xử lý hàng trăm trang tài liệu trong vài phút, tùy thuộc vào độ phức tạp của tài liệu và cấu hình phần cứng. So với các công cụ OCR truyền thống, tốc độ này được cải thiện đáng kể, đặc biệt là khi xử lý các tài liệu có cấu trúc phức tạp.

Khả năng mở rộng

Mistral OCR có thể được tích hợp vào nhiều hệ thống và ứng dụng khác nhau thông qua API. Điều này giúp các doanh nghiệp dễ dàng mở rộng quy mô và tự động hóa quy trình trích xuất văn bản. Ví dụ, một công ty thương mại điện tử có thể tích hợp Mistral OCR vào hệ thống quản lý đơn hàng để tự động trích xuất thông tin từ hóa đơn của nhà cung cấp. Một bệnh viện có thể sử dụng Mistral OCR để số hóa hồ sơ bệnh án của bệnh nhân. Mistral AI cung cấp tài liệu API chi tiết và các thư viện hỗ trợ (như Python) giúp cho việc tích hợp trở nên dễ dàng hơn. Các tùy chọn cấu hình cho phép tùy chỉnh theo nhu cầu của người dùng, bao gồm cả việc lựa chọn mô hình (endpoint) phù hợp với yêu cầu về tốc độ và độ chính xác.

Độ chính xác cao

Nhờ vào việc sử dụng mô hình Transformer và quá trình fine-tuning, Mistral OCR đạt được độ chính xác cao trong việc nhận dạng văn bản và phân tích bố cục. Điều này giúp giảm thiểu sai sót và cải thiện chất lượng dữ liệu đầu ra. Mặc dù không có số liệu chính xác được công bố, có thể hiểu rằng Mistral OCR, với kiến trúc hiện đại của mình, sẽ có độ chính xác cao hơn đáng kể so với các giải pháp OCR dựa trên các kỹ thuật cũ hơn. Việc fine-tuning trên các bộ dữ liệu lớn và đa dạng, cùng với việc sử dụng LoRA, giúp mô hình có khả năng xử lý tốt các loại tài liệu khác nhau, ngay cả với các phông chữ, kiểu chữ và ngôn ngữ khác nhau.

Các trường hợp sử dụng

Mistral OCR có thể được ứng dụng trong nhiều lĩnh vực khác nhau:
  • Tài chính – Ngân hàng: Trích xuất thông tin từ hóa đơn, báo cáo tài chính, hợp đồng. Ví dụ, quy trình tự động hóa trong ngành ngân hàng có thể sử dụng Mistral OCR để xử lý các hóa đơn: quét hóa đơn giấy, trích xuất các thông tin quan trọng như số tiền, ngày tháng, tên người bán, tên người mua, các mặt hàng, sau đó lưu trữ các thông tin này vào cơ sở dữ liệu. Nó còn giúp tự động hóa quy trình kiểm tra và đối chiếu thông tin.

  • Pháp lý: Xử lý tài liệu pháp lý, hợp đồng, hồ sơ vụ án. Tương tự, trong lĩnh vực pháp lý, Mistral OCR giúp trích xuất thông tin từ các hợp đồng dài và phức tạp, xác định các điều khoản quan trọng, các bên liên quan, và các nghĩa vụ pháp lý. Việc này giúp tăng tốc độ xử lý và giảm thiểu rủi ro sai sót.

  • Y tế: Trích xuất thông tin từ hồ sơ bệnh án, kết quả xét nghiệm. Trong ngành y tế, việc số hóa hồ sơ bệnh án bằng Mistral OCR giúp các bác sĩ và nhân viên y tế dễ dàng truy cập thông tin bệnh nhân, tìm kiếm tiền sử bệnh, và đưa ra chẩn đoán nhanh chóng hơn. Nó cũng giúp bảo mật thông tin bệnh nhân tốt hơn.

  • Thương mại điện tử: Xử lý thông tin sản phẩm, hóa đơn, đơn đặt hàng. Việc tự động hóa trích xuất dữ liệu giúp tăng hiệu quả quản lý và giảm chi phí.

  • Giáo dục: Số hóa tài liệu học tập, sách giáo khoa. Việc này tạo điều kiện thuận lợi cho việc học tập trực tuyến và chia sẻ tài liệu.

Kết luận

Mistral OCR là một công cụ mạnh mẽ và linh hoạt, mang lại giải pháp hiệu quả cho việc trích xuất văn bản từ nhiều nguồn khác nhau. Với khả năng xử lý ngôn ngữ tự nhiên tiên tiến và khả năng phân tích bố cục tài liệu, Mistral OCR giúp các doanh nghiệp tiết kiệm thời gian, giảm thiểu sai sót và tối ưu hóa quy trình làm việc. Hãy trải nghiệm Mistral OCR ngay hôm nay để khám phá sức mạnh của công nghệ OCR tiên tiến này! Bạn có thể bắt đầu bằng cách truy cập trang web của Mistral AI và đăng ký tài khoản để nhận API key. Sử dụng API key đó với các thư viện hỗ trợ (như Python) để bắt đầu tích hợp Mistral OCR vào các ứng dụng của bạn.

Mistral OCR: A Powerful Optical Character Recognition Solution

In today’s digital age, approximately 90% of organizational data worldwide is stored in documents—ranging from scientific reports and legal contracts to handwritten notes and historical books. However, much of this data exists as unstructured data, making it challenging to process and extract meaningful insights.

This is where Mistral OCR, a groundbreaking product from Mistral AI, steps in to transform the landscape. Mistral AI is a Paris-based artificial intelligence startup founded in 2023 by researchers previously affiliated with Google DeepMind and Meta, which specializes in developing both open-source and proprietary large language models (LLMs), aiming to provide efficient and customizable AI solutions across various industries.

Introduced as “the world’s best document understanding API” in an official announcement by Mistral AI, Mistral OCR goes beyond traditional optical character recognition (OCR) tools. It offers a comprehensive solution for converting complex documents into data that artificial intelligence (AI) can readily utilize. In this blog, we’ll dive deep into Mistral OCR, exploring its standout features, real-world applications, and how it’s shaping the future of document processing.

What is Mistral OCR?

Mistral OCR is an optical character recognition API developed by Mistral AI, a French AI startup renowned for its efficient and innovative large language models (LLMs). Launched on March 6, 2025, it transcends the limitations of conventional OCR by not only extracting text from images or PDFs but also understanding the context, structure, and multimodal elements within documents—such as text, tables, images, and even complex mathematical equations. As stated on Mistral AI’s official news page, it is designed to “understand every element in a document—from text, media, tables, to equations—with unprecedented accuracy.

mistral ocr
Unlike traditional OCR solutions that merely “read” text, Mistral OCR preserves document structure, including headings, paragraphs, lists, and tables, delivering output in structured formats like Markdown or JSON. This makes it an ideal tool for integration with modern AI systems, such as Retrieval-Augmented Generation (RAG) models, which require clean, organized data to function effectively.

Key Features of Mistral OCR

Mistral OCR stands out with capabilities that surpass its competitors. Here are its key highlights:

1. Superior Understanding of Complex Documents

Mistral AI emphasizes its ability to handle complex layouts like slides or PDFs seamlessly.

Mistral OCR excels in handling intricate elements such as interspersed images, mathematical expressions, tables, and LaTeX formatting. This capability enables a deeper comprehension of rich documents like scientific papers containing charts, equations, and images.

2. Multilingual and Multimedia Support

Mistral OCR has the ability to analyze, understand, and convert thousands of typefaces, fonts, and languages from around the world, achieving a 99.02% accuracy rate in multilingual tests, as reported by Mistral AI. This makes it an ideal choice for global businesses and multinational research organizations.

Mistral Ocr - Benchmarks by language

Benchmarks by language. Source: https://mistral.ai/en/news/mistral-ocr

3. Lightning-Fast Processing and Industry-Leading Performance

Mistral OCR is designed to deliver swift processing speeds, meeting the demands of applications requiring high performance.

Capable of processing up to 2,000 pages per minute on a single node, Mistral OCR outpaces many other OCR tools in speed, making it ideal for organizations handling large document volumes.

In various tests, Mistral OCR consistently outperforms other leading OCR models, achieving high accuracy across multiple aspects of document analysis.

Mistral Ocr - Top-tier benchmarks

Mistral Ocr – Top-tier benchmarks for ‘text-only’ tests. Source: https://mistral.ai/en/news/mistral-ocr

Mistral OCR excels in benchmarks, scoring 94.89% overall accuracy—outperforming Google Document AI (83.42%), Microsoft Azure OCR (89.52%), and others in categories like math equations and low-quality scans, per Mistral AI’s internal tests.

4. Document Input as Prompt, Structured Output

Mistral OCR allows the use of documents as prompts and provides structured outputs, facilitating easy integration into existing systems—such as reformatting a financial report’s table into JSON—empowering developers with unparalleled flexibility.

5. Available for Self-Hosting on a Selective Basis

For organizations prioritizing security, Mistral OCR offers on-premises deployment, ensuring sensitive data stays within internal infrastructure. Additionally, for those handling sensitive or classified information, Mistral OCR provides self-hosting options to guarantee both security and regulatory compliance.

6. Cost-Effective Pricing

Priced at 1,000 pages per dollar (doubling in batch mode), it delivers significant cost efficiency compared to offerings from giants like Google or Microsoft. It’s currently available on La Plateforme, with plans for deployment on AWS, Azure, and Google Cloud soon.

Real-World Applications

Mistral OCR unlocks value from vast document repositories. Here are some practical uses:

  1. Digitizing Scientific Research
    Leading research institutes are testing Mistral OCR to convert scientific papers and technical reports into AI-compatible formats, accelerating collaboration and analysis.
  2. Preserving Cultural Heritage
    Nonprofits and museums use it to digitize historical manuscripts and artifacts, preserving them digitally while enhancing public access.
  3. Enhancing Customer Service
    Customer service teams transform manuals and FAQs into searchable knowledge bases, reducing response times and improving user experience.
  4. Streamlining Design, Education, and Legal Work
    From technical drawings to lecture notes and legal records, Mistral OCR converts specialized documents into AI-ready formats, enabling automation and deeper analysis.

Conclusion

Mistral OCR is an advanced text recognition technology that offers numerous benefits in digitizing and managing documents. hailed as “the world’s best document understanding API,” redefines document processing with its technical prowess and visionary approach.

With high accuracy, multilingual support, and fast processing speed, Mistral OCR is becoming an indispensable tool in the digital age. In the future, with ongoing technological advancements, Mistral OCR promises to deliver even more applications and improvements, driving the development of industries and society.

Try it on Le Chat or via the API at ‘mistral-ocr-latest’ to experience the difference!

Dify v1.0.0: Bước Tiến Mới Trong Phát Triển Ứng Dụng AI

Bạn Đang Gặp Khó Khăn Trong Phát Triển Ứng Dụng AI?

Bạn cảm thấy việc tích hợp các mô hình và công cụ mới quá phức tạp và tốn thời gian? Dify v1.0.0 có thể là giải pháp bạn đang tìm kiếm! Dify là một nền tảng giúp đơn giản hóa và tăng tốc quá trình phát triển ứng dụng AI, cho phép bạn tập trung vào việc tạo ra những sản phẩm đột phá.

Trong bài viết này, chúng ta sẽ cùng khám phá những tính năng nổi bật của Dify v1.0.0 và cách nó thay đổi cuộc chơi trong lĩnh vực phát triển ứng dụng AI.

Dify v1.0.0: Nền Tảng AI Thế Hệ Mới

Dify v1.0.0 Là Gì?

Dify v1.0.0 là một nền tảng phát triển ứng dụng AI thế hệ mới, được thiết kế để giúp các nhà phát triển xây dựng các ứng dụng AI mạnh mẽ và linh hoạt một cách dễ dàng. Nó cung cấp một bộ công cụ toàn diện, bao gồm:

  • Tích hợp các mô hình ngôn ngữ lớn (LLMs) tiên tiến.
  • Quản lý bộ nhớ động và xử lý đa phương thức.
  • Hỗ trợ cả phiên bản Community và Cloud.

Với Dify, bạn có thể tạo ra các ứng dụng AI đa dạng như chatbot thông minh, công cụ phân tích dữ liệu tự động, hệ thống đề xuất cá nhân hóa và nhiều ứng dụng khác.

Tại Sao Dify v1.0.0 Đặc Biệt?

Dify v1.0.0 nổi bật nhờ vào kiến trúc plugin hoàn toàn mới. Thay vì tích hợp cứng nhắc các mô hình và công cụ vào nền tảng, Dify v1.0.0 cho phép chúng hoạt động độc lập như các plugin. Điều này mang lại nhiều lợi ích:

  • Cập nhật dễ dàng: Bạn chỉ cần cập nhật plugin liên quan thay vì toàn bộ nền tảng. Ví dụ, nếu có phiên bản mới của mô hình OpenAI, bạn chỉ cần cập nhật plugin OpenAI mà không ảnh hưởng đến các thành phần khác của ứng dụng.
  • Phát triển và chia sẻ công cụ mới dễ dàng: Các nhà phát triển có thể tạo và chia sẻ các công cụ mới một cách dễ dàng, đảm bảo tích hợp liền mạch.
  • Mở rộng linh hoạt: Dify v1.0.0 hỗ trợ mở rộng động và linh hoạt, đảm bảo hiệu suất tối ưu.

Sự khác biệt của Dify v1.0.0 so với các nền tảng khác

Không giống như các nền tảng khác có thể bị giới hạn trong việc đáp ứng tất cả các nhu cầu AI đa dạng, Dify v1.0.0 hướng tới việc xây dựng một hệ sinh thái mở, nơi các thành phần từ Dify, cộng đồng, doanh nghiệp và các nền tảng bên thứ ba có thể tích hợp liền mạch. Điều này thúc đẩy chia sẻ giá trị và tài nguyên, tăng tốc triển khai AI và thúc đẩy đổi mới.

So sánh với các nền tảng khác:

  • Nền tảng A: Tập trung vào một loại mô hình AI cụ thể, giới hạn khả năng tùy biến.
  • Nền tảng B: Yêu cầu kiến thức chuyên sâu về lập trình, gây khó khăn cho người mới bắt đầu.

Dify v1.0.0, ngược lại, cung cấp sự linh hoạt và khả năng mở rộng cao hơn, đồng thời dễ sử dụng hơn cho cả những người mới bắt đầu và các chuyên gia.

Kiến Trúc Plugin Đột Phá Của Dify v1.0.0

Giải Quyết Vấn Đề Tích Hợp Cứng Nhắc

Trước phiên bản 1.0.0, Dify gặp phải một thách thức lớn: các mô hình và công cụ được tích hợp chặt chẽ vào nền tảng lõi. Điều này có nghĩa là bất kỳ thay đổi hoặc bổ sung nào đều yêu cầu sửa đổi kho lưu trữ lõi, làm chậm quá trình phát triển và cản trở sự đổi mới.

Những hạn chế chính:

  • Khó khăn trong việc cập nhật: Mỗi khi có phiên bản mới của mô hình hoặc công cụ, toàn bộ nền tảng cần phải được cập nhật.
  • Hạn chế khả năng mở rộng: Việc thêm các tính năng mới trở nên phức tạp và tốn thời gian.
  • Khó khăn trong việc tùy biến: Các nhà phát triển không thể dễ dàng tùy chỉnh nền tảng.
  • Chậm trễ trong việc áp dụng công nghệ mới: Việc tích hợp các mô hình và công cụ mới mất nhiều thời gian.

Ưu điểm của kiến trúc plugin

Để giải quyết vấn đề này, Dify đã tái cấu trúc kiến trúc và giới thiệu hệ thống plugin với bốn ưu điểm chính:

  • Tính mô-đun: Các plugin được tách rời khỏi kiến trúc lõi của Dify, cho phép các mô hình và công cụ hoạt động độc lập.
  • Trải nghiệm thân thiện với nhà phát triển: Các plugin tuân theo các giao thức phát triển được tiêu chuẩn hóa.
  • Thiết kế có thể thay thế nóng (Hot-Swappable): Bạn có thể thay thế các plugin ngay cả khi ứng dụng đang chạy mà không gây gián đoạn.
  • Nhiều kênh phân phối:
    • Dify Marketplace: Nơi tổng hợp, phân phối và quản lý các plugin.
    • Chia sẻ cộng đồng: Các nhà phát triển có thể tự do chia sẻ plugin trên GitHub.
    • Triển khai cục bộ: Người dùng có thể cài đặt plugin từ các tệp gói cục bộ.

Quy Trình Làm Việc Thông Minh Với Dify v1.0.0

Nút Agent (Agent Node)

Các nhà phát triển có thể sử dụng các nút Workflow và Chatflow của Dify để điều phối các ứng dụng một cách linh hoạt và giải quyết các vấn đề phức tạp. Dify v1.0.0 giới thiệu nút Agent, được tăng cường với các chiến lược suy luậuan thông qua các plugin Agent Strategy, cho phép điều phối thông minh, tự động các quy trình công việc và chatflow.

Chiến lược Agent (Agent Strategies)

Logic ra quyết định được trừu tượng hóa thành các plugin với các chiến lược được thiết lập sẵn như ReAct và Function Calling, hỗ trợ các chiến lược suy luận như Chain-of-Thoughts và Tree-of-Thoughts.

ReAct: Kết hợp suy luận (reasoning) và hành động (acting) để giải quyết các nhiệm vụ phức tạp.

Function Calling: Cho phép mô hình gọi các hàm bên ngoài để thực hiện các tác vụ cụ thể.

Chain-of-Thoughts: Mô hình tạo ra một chuỗi các suy nghĩ trung gian để đi đến kết luậuan cuối cùng.

Tree-of-Thoughts: Mô hình khám phá nhiều khả năng suy luậuan khác nhau dưới dạng cây để tìm ra giải pháp tốt nhất.

Việc hỗ trợ nhiều chiến lược suy luận khác nhau giúp Dify v1.0.0 có thể giải quyết các bài toán phức tạp một cách hiệu quả hơn.

Hệ Sinh Thái Mở Của Dify v1.0.0

Kết nối hệ sinh thái

Dify v1.0.0 cung cấp các tiện ích mở rộng (Extensions) cho phép tích hợp liền mạch với các nền tảng bên ngoài (ví dụ: Slack), tạo điều kiện cho khả năng tương tác dữ liệu và chức năng. Plugin Endpoints cũng hỗ trợ các cuộc gọi ngược đến các khả năng cốt lõi của Dify, bao gồm các mô hình, công cụ và các nút quy trình làm việc. Dify không chỉ giới hạn trong việc kết nối với các nền tảng bên ngoài, mà còn cho phép các plugin gọi ngược lại các chức năng của Dify. Ví dụ, một plugin có thể sử dụng một mô hình ngôn ngữ lớn của Dify để xử lý văn bản hoặc gọi một nút quy trình làm việc khác để thực hiện một tác vụ cụ thể. Hiện tại, Dify đã có sẵn các plugin để kết nối với các nền tảng phổ biến như Slack, Discord, và nhiều nền tảng khác. Bạn có thể dễ dàng tìm thấy các plugin này trên Dify Marketplace.

Tương tác đa phương thức

Dify hỗ trợ các mô hình đa phương thức và các plugin công cụ để tạo hình ảnh, tương tác bằng giọng nói, v.v., mở rộng khả năng của các ứng dụng AI để xử lý các định dạng đầu vào và đầu ra đa dạng. Ví dụ, bạn có thể xây dựng một ứng dụng AI có thể nhận đầu vào bằng giọng nói, xử lý thông tin và tạo ra đầu ra bằng hình ảnh. Dify cung cấp các plugin để tích hợp với các mô hình tạo ảnh như Stability, ComfyUI, và các mô hình xử lý giọng nói khác. Khả năng xử lý đa phương thức mở ra nhiều cơ hội cho việc phát triển các ứng dụng AI sáng tạo và tương tác cao.

Nền tảng chia sẻ giá trị

Dify Marketplace đóng vai trò là cả nền tảng phân phối plugin và trung tâm trao đổi sáng tạo. Với 2,4 triệu lượt tải xuống Phiên bản Cộng đồng và Phiên bản Doanh nghiệp phục vụ nhiều công ty Fortune 500, Dify hướng đến việc giúp các doanh nghiệp tìm giải pháp đồng thời cho phép các nhà phát triển quảng bá những đổi mới và tạo doanh thu. Các nhà phát triển có thể xuất bản plugin của họ lên Dify Marketplace và đặt giá cho chúng. Khi người dùng mua plugin, nhà phát triển sẽ nhận được doanh thu. Điều này tạo ra một mô hình kinh doanh bền vững cho cả Dify và cộng đồng các nhà phát triển. Dify Marketplace không chỉ là nơi để mua bán plugin, mà còn là nơi để các nhà phát triển chia sẻ kinh nghiệm, học hỏi lẫn nhau và cùng nhau phát triển hệ sinh thái Dify.

Các đối tác ban đầu

Các đối tác ban đầu của Dify v1.0.0 bao gồm OpenRouter, Brave, E2B, SiliconFlow, Agora, Fish Audio, Dupdub và nhiều đối tác khác.

  • OpenRouter: Cung cấp quyền truy cập vào nhiều mô hình ngôn ngữ lớn khác nhau.
  • Brave: Trình duyệt web tập trung vào quyền riêng tư.
  • E2B: Nền tảng điện toán đám mây.
  • SiliconFlow: Công ty chuyên về chip AI.
  • Agora: Nền tảng giao tiếp thời gian thực.
  • Fish Audio: Công ty chuyên về công nghệ âm thanh.
  • Dupdub: Nền tảng tạo video AI.

Sự hợp tác với các đối tác này cho thấy tiềm năng của Dify trong việc kết nối với các công nghệ và nền tảng khác nhau, tạo ra một hệ sinh thái AI đa dạng và phong phú.

Triển Vọng Tương Lai Của Dify

Tiếp tục mở rộng và cải tiến

ify sẽ tiếp tục tách rời và mở các khả năng cốt lõi của mình thông qua các plugin, nâng cao tính linh hoạt của nền tảng để đáp ứng các nhu cầu phát triển đa dạng. Ví dụ, bằng cách sử dụng các thành phần xử lý dữ liệu để cải thiện việc điều phối quy trình làm việc RAG (Retrieval-Augmented Generation), Dify hướng đến việc giúp các nhà phát triển giải quyết các thách thức phức tạp. Dify cũng có kế hoạch mở rộng hỗ trợ cho nhiều loại mô hình và công cụ AI khác nhau, bao gồm cả các mô hình đa phương thức và các mô hình chuyên biệt cho các lĩnh vực cụ thể. Dify cam kết liên tục cải tiến nền tảng để đáp ứng nhu cầu ngày càng tăng của cộng đồng các nhà phát triển AI.

Xây dựng hệ sinh thái đối tác

Để hỗ trợ tăng trưởng hệ sinh thái, Dify sẽ thiết lập một mạng lưới đối tác liên tục, tạo ra một nền tảng trung gian AI mở kết nối các công cụ với người dùng và cung cấp các giải pháp phù hợp. Dify sẽ tìm kiếm và hợp tác với các đối tác trong nhiều lĩnh vực khác nhau, bao gồm các nhà cung cấp mô hình AI, các nhà cung cấp dịch vụ dữ liệu, các công ty phần mềm và các tổ chức nghiên cứu. Mục tiêu là tạo ra một hệ sinh thái đa dạng và phong phú, nơi các đối tác có thể cùng nhau phát triển và cung cấp các giải pháp AI tốt nhất cho người dùng.

Cải thiện tài liệu và hỗ trợ công cụ

Dify sẽ cải thiện tài liệu dành cho nhà phát triển và hỗ trợ chuỗi công cụ, mời các nhà phát triển toàn cầu cùng xây dựng thông qua các hoạt động trực tuyến và ngoại tuyến. Dify sẽ cung cấp các hướng dẫn chi tiết, các ví dụ mã nguồn, các video hướng dẫn và các tài liệu khác để giúp các nhà phát triển học cách sử dụng Dify và tạo ra các plugin. Dify cũng sẽ tổ chức các buổi hội thảo, các cuộc thi hackathon và các sự kiện khác để khuyến khích sự tham gia của cộng đồng và thúc đẩy sự đổi mới. Dify cam kết lắng nghe phản hồi từ cộng đồng và liên tục cải thiện tài liệu và công cụ hỗ trợ để đáp ứng nhu cầu của các nhà phát triển.

Kết Luận

Dify v1.0.0 đánh dấu một bước tiến quan trọng trong việc phát triển ứng dụng AI, mang đến một nền tảng mạnh mẽ, linh hoạt và dễ sử dụng. Với kiến trúc plugin, quy trình làm việc thông minh và hệ sinh thái mở, Dify hứa hẹn sẽ thay đổi cách chúng ta xây dựng và triển khai các ứng dụng AI.

Dify v1.0.0: Nền Tảng Phát Triển Ứng Dụng AI Mở Rộng Vượt Bậc

Chào bạn! Tôi là Quỳnh Nga, đến từ công ty Scuti JSC.
Thật vui khi được chào đón bạn đến với bài viết này. Hy vọng rằng những chia sẻ dưới đây sẽ mang đến cho bạn những thông tin hữu ích và góc nhìn mới mẻ.
Sự quan tâm và ủng hộ của bạn chính là động lực để tôi tiếp tục tìm hiểu và chia sẻ nhiều hơn về lĩnh vực này. Cùng khám phá nhé!

Bạn có đang gặp khó khăn trong việc phát triển ứng dụng AI không ạ? Bạn có muốn tích hợp các tính năng AI tiên tiến như xử lý ngôn ngữ tự nhiên, tạo hình ảnh, hay kết nối với các dịch vụ bên ngoài một cách dễ dàng không ạ? Đừng lo nhé, Dify v1.0.0 chính là giải pháp cho bạn nè! Dify v1.0.0 là một nền tảng mã nguồn mở giúp bạn xây dựng, triển khai và quản lý các ứng dụng AI một cách nhanh chóng và hiệu quả, đặc biệt với kiến trúc plugin mới, Dify mở ra khả năng tùy biến và mở rộng vô hạn. Trong bài viết này, chúng ta sẽ cùng khám phá những điểm nổi bật của Dify v1.0.0, từ kiến trúc plugin linh hoạt đến hệ sinh thái mở rộng, giúp bạn tạo ra những ứng dụng AI đột phá, bạn nhé!

Dify v1.0.0: Kỷ Nguyên Mới Cho Phát Triển Ứng Dụng AI

Dify v1.0.0 là gì?

Dify v1.0.0 là một nền tảng phát triển ứng dụng AI (LLMOps) mã nguồn mở, được thiết kế để giúp các nhà phát triển và doanh nghiệp dễ dàng xây dựng, triển khai và quản lý các giải pháp AI. Dify cung cấp một giao diện trực quan, hỗ trợ các quy trình RAG (Retrieval-Augmented Generation), khả năng tác nhân thông minh (intelligent agent capabilities) và quản lý mô hình mạnh mẽ. Với Dify, người dùng có thể tạo và thử nghiệm các quy trình làm việc AI phức tạp, tích hợp một loạt các mô hình và công cụ tiên tiến, đồng thời tối ưu hóa hiệu suất của chúng trong các ứng dụng thực tế.

Nền tảng này cho phép các nhà phát triển chuyển đổi liền mạch từ giai đoạn nguyên mẫu sang sản xuất. LLMOps, hay còn gọi là hoạt động của mô hình ngôn ngữ lớn (Large Language Model Operations), là một tập hợp các phương pháp và công cụ để quản lý vòng đời của các mô hình ngôn ngữ lớn, bao gồm việc huấn luyện, triển khai, giám sát và bảo trì. RAG (Retrieval-Augmented Generation) là một kỹ thuật kết hợp khả năng truy xuất thông tin (retrieval) từ cơ sở dữ liệu hoặc nguồn kiến thức bên ngoài với khả năng sinh văn bản (generation) của mô hình ngôn ngữ lớn, giúp cải thiện độ chính xác, độ tin cậy của kết quả đầu ra. Dify v1.0.0 hỗ trợ cả LLMOps và RAG, cung cấp cho các nhà phát triển một bộ công cụ toàn diện để xây dựng các ứng dụng AI mạnh mẽ và linh hoạt. Việc sử dụng Dify giúp tăng tốc quá trình phát triển, giảm độ phức tạp và cho phép các nhà phát triển tập trung vào việc tạo ra giá trị kinh doanh thay vì phải lo lắng về cơ sở hạ tầng.

Tại sao Dify v1.0.0 lại tuyệt vời?

Dify v1.0.0 nổi bật nhờ kiến trúc plugin hoàn toàn mới. Thay vì tích hợp cứng nhắc các mô hình và công cụ vào lõi của nền tảng, Dify v1.0.0 cho phép bạn thêm, cập nhật và quản lý các tính năng này như các plugin độc lập. Điều này mang lại sự linh hoạt vượt trội, cho phép bạn dễ dàng tùy chỉnh và mở rộng ứng dụng của mình theo nhu cầu cụ thể. Việc bảo trì cũng trở nên đơn giản hơn, vì bạn chỉ cần cập nhật các plugin riêng lẻ thay vì phải nâng cấp toàn bộ nền tảng. Khả năng mở rộng của Dify v1.0.0 là gần như vô hạn, bạn có thể thêm bao nhiêu plugin tùy thích để đáp ứng các yêu cầu ngày càng tăng của ứng dụng.

Hơn nữa, kiến trúc plugin này còn khuyến khích sự đóng góp từ cộng đồng, tạo ra một hệ sinh thái phong phú các tính năng và công cụ. So với các nền tảng khác thường có kiến trúc nguyên khối, Dify v1.0.0 mang đến một cách tiếp cận hiện đại và linh hoạt hơn, giúp các nhà phát triển thích ứng nhanh chóng với sự thay đổi của công nghệ AI. Việc tách biệt các chức năng thành các plugin độc lập cũng giúp giảm thiểu rủi ro khi có lỗi xảy ra, vì một plugin bị lỗi sẽ không ảnh hưởng đến toàn bộ hệ thống. Với Dify, bạn không còn bị giới hạn bởi những tính năng có sẵn, mà có thể tự do sáng tạo và xây dựng những ứng dụng AI độc đáo của riêng mình.

Dify v1.0.0 khác biệt như thế nào?

Không giống như các nền tảng khác thường giới hạn ở một số mô hình và công cụ nhất định, Dify v1.0.0 tập trung vào tính mở và khả năng tùy biến tối đa. Với hệ thống plugin linh hoạt, bạn có thể:

  • Tích hợp bất kỳ mô hình AI nào, từ các mô hình LLM phổ biến như OpenAI o1-series (o1, o3-mini, etc), Gemini 2.0-series, DeepSeek-R1 và các nhà cung cấp của nó, bao gồm OpenRouter, Ollama, Azure AI Foundry, Nvidia Catalog, v.v. đến các mô hình tùy chỉnh do bạn tự phát triển. Ví dụ, nếu bạn cần một mô hình chuyên biệt cho việc phân tích tài chính, bạn có thể tìm kiếm một plugin phù hợp trên Dify Marketplace hoặc tự phát triển một plugin riêng.
  • Sử dụng các công cụ (tools) từ các nhà cung cấp dịch vụ hàng đầu như Perplexity, Discord, Slack, Firecrawl, Jina AI, Stability, ComfyUI, Telegraph, và nhiều công cụ khác nữa. Bạn không bị giới hạn bởi các công cụ được tích hợp sẵn. Bạn có thể tích hợp công cụ tìm kiếm Perplexity để cung cấp thông tin cập nhật cho ứng dụng của mình, hoặc kết nối với Slack để tạo ra một chatbot hỗ trợ khách hàng.
  • Tự phát triển các chiến lược tác nhân (Agent Strategies) riêng, như ReAct (Reasoning and Acting), Function Calling, Chain-of-Thoughts (CoT), và Tree-of-Thoughts (ToT), để điều khiển cách ứng dụng của bạn tương tác với người dùng và xử lý thông tin. Bạn có thể tạo ra một chiến lược ReAct tùy chỉnh để cho phép ứng dụng của bạn suy luận và hành động dựa trên thông tin thu thập được từ nhiều nguồn khác nhau.
  • Mở rộng khả năng của Dify bằng các Extensions, cho phép kết nối với các nền tảng và dịch vụ bên ngoài, tạo ra các ứng dụng tích hợp mạnh mẽ. Ví dụ, bạn có thể tạo một Extension để kết nối Dify với hệ thống CRM của bạn, cho phép ứng dụng AI truy cập và cập nhật thông tin khách hàng.

Sự khác biệt này cho phép các nhà phát triển tạo ra các ứng dụng AI độc đáo và phù hợp với nhu cầu cụ thể của họ, thay vì bị giới hạn bởi các tính năng có sẵn của nền tảng. Dify v1.0.0 trao quyền cho các nhà phát triển để họ có thể sáng tạo và đổi mới mà không bị ràng buộc.

 

Kiến Trúc Plugin Của Dify v1.0.0: Linh Hoạt và Mở Rộng

Lợi ích của kiến trúc plugin

Trước phiên bản 1.0.0, Dify gặp khó khăn trong việc mở rộng do các mô hình và công cụ được tích hợp chặt chẽ vào nền tảng. Việc thêm tính năng mới đòi hỏi phải thay đổi mã nguồn chính, gây ra sự chậm trễ trong quá trình phát triển và hạn chế khả năng đổi mới. Kiến trúc plugin của Dify v1.0.0 giải quyết triệt để vấn đề này bằng cách mang lại những lợi ích sau:

  • Tính mô-đun: Các plugin hoạt động độc lập với nhau và với lõi của Dify, cho phép bạn cập nhật, thêm hoặc xóa các tính năng mà không cần phải nâng cấp toàn bộ nền tảng. Điều này giúp đơn giản hóa việc bảo trì và giảm thiểu rủi ro khi triển khai các thay đổi. Ví dụ, bạn có thể cập nhật plugin OpenAI để sử dụng phiên bản mô hình mới nhất mà không cần phải lo lắng về việc ảnh hưởng đến các plugin khác hoặc đến hoạt động của ứng dụng.
  • Trải nghiệm thân thiện với nhà phát triển: Dify cung cấp các công cụ, tài liệu hướng dẫn chi tiết và các mẫu mã nguồn để đơn giản hóa quá trình phát triển plugin. Bạn có thể sử dụng các ngôn ngữ lập trình quen thuộc và các công cụ gỡ lỗi (debugging tools) phổ biến để phát triển plugin của mình. Dify cũng cung cấp các API và SDK để giúp bạn tương tác với các thành phần khác của nền tảng.
  • Thiết kế Hot-Swappable: Dễ dàng thêm, bớt, hoặc thay thế plugin mà không ảnh hưởng đến hiệu suất hoặc gây ra gián đoạn cho ứng dụng đang chạy. Điều này cho phép bạn thử nghiệm các tính năng mới một cách nhanh chóng và an toàn. Bạn có thể dễ dàng chuyển đổi giữa các plugin khác nhau để so sánh hiệu suất hoặc tìm ra giải pháp tốt nhất cho ứng dụng của mình.
  • Nhiều kênh phân phối: Bạn có thể chia sẻ plugin của mình với cộng đồng thông qua Dify Marketplace, hoặc chia sẻ trên GitHub, hoặc đóng gói thành các tệp tin để triển khai cục bộ trong môi trường của bạn. Việc này giúp bạn dễ dàng tiếp cận với người dùng và nhận được phản hồi từ cộng đồng.

Các kênh phân phối plugin của Dify

Nguồn: Dify v1.0.0 Release Note

Các loại plugin trong Dify v1.0.0

Dify v1.0.0 hỗ trợ nhiều loại plugin khác nhau, mỗi loại được thiết kế để giải quyết một nhóm vấn đề cụ thể, mang lại sự linh hoạt tối đa cho các nhà phát triển:

  • Models: Các plugin này tích hợp các mô hình AI, bao gồm cả các nhà cung cấp LLM lớn như OpenAI o1-series (o1, o3-mini, etc), Gemini 2.0-series, DeepSeek-R1 và các nhà cung cấp của nó, bao gồm OpenRouter, Ollama, Azure AI Foundry, Nvidia Catalog, v.v. và các mô hình tùy chỉnh do bạn tự phát triển hoặc từ các nguồn khác. Plugin Model cho phép bạn dễ dàng chuyển đổi giữa các mô hình khác nhau, thử nghiệm các mô hình mới và tận dụng các mô hình chuyên biệt cho các tác vụ cụ thể. Bạn có thể dễ dàng cấu hình các tham số của mô hình, chẳng hạn như nhiệt độ (temperature) và số lượng token tối đa, để điều chỉnh hành vi của mô hình.
  • Tools: Các plugin Tools kết nối Dify với các dịch vụ bên ngoài, mở rộng khả năng của ứng dụng vượt ra ngoài các chức năng AI cốt lõi. Ví dụ, bạn có thể tích hợp các công cụ tìm kiếm như Perplexity, các nền tảng giao tiếp như Discord và Slack, các công cụ thu thập dữ liệu web như Firecrawl, các nền tảng AI như Jina AI và Stability, các công cụ UI như ComfyUI, và các dịch vụ nhắn tin như Telegraph. Việc tích hợp các công cụ này giúp bạn xây dựng các ứng dụng AI có thể tương tác với thế giới thực, thực hiện các tác vụ như đặt lịch hẹn, gửi email, hoặc truy vấn thông tin từ các nguồn bên ngoài.
  • Agent Strategies: Đây là các plugin định nghĩa logic ra quyết định của tác nhân (Agent) trong Dify. Chúng bao gồm các chiến lược như ReAct (Reasoning and Acting), cho phép tác nhân suy luận và hành động dựa trên thông tin thu thập được; Function Calling, cho phép tác nhân gọi các hàm hoặc API bên ngoài, mở rộng khả năng của tác nhân vượt ra ngoài các chức năng AI cốt lõi; Chain-of-Thoughts (CoT), cho phép tác nhân suy luận theo chuỗi các bước, giúp giải quyết các vấn đề phức tạp; và Tree-of-Thoughts (ToT), cho phép tác nhân khám phá nhiều khả năng suy luận khác nhau trước khi đưa ra quyết định cuối cùng. Bằng cách cung cấp các chiến lược này dưới dạng plugin, Dify cho phép các nhà phát triển dễ dàng thử nghiệm và lựa chọn chiến lược phù hợp nhất với ứng dụng.
  • Extensions: Đây là các dịch vụ tùy chỉnh được lưu trữ trong Dify, cho phép bạn xử lý các sự kiện Webhook từ các ứng dụng bên ngoài hoặc thực hiện các tác vụ tùy chỉnh khác. Extensions mở rộng khả năng tích hợp của Dify, cho phép bạn kết nối với bất kỳ dịch vụ nào có hỗ trợ Webhook. Bạn có thể sử dụng Extensions để xây dựng các tích hợp tùy chỉnh, chẳng hạn như kết nối Dify với hệ thống CRM của bạn hoặc tạo ra các quy trình làm việc tự động.
  • Bundles: Plugin Bundles là các gói chứa nhiều plugin khác, giúp bạn cài đặt và quản lý một nhóm các plugin liên quan một cách dễ dàng. Ví dụ, bạn có thể tạo một bundle chứa các plugin Model, Tool và Agent Strategy cần thiết cho một ứng dụng cụ thể. Việc sử dụng Bundles giúp đơn giản hóa quá trình triển khai và quản lý các ứng dụng AI phức tạp.

 

Quy Trình Làm Việc Thông Minh Với Dify v1.0.0

Node Agent mới

Dify v1.0.0 giới thiệu node Agent, một thành phần quan trọng đóng vai trò là trung tâm ra quyết định trong Workflow và Chatflow. Node Agent sử dụng các chiến lược (được cung cấp bởi các plugin Agent Strategy) để gọi các mô hình, lên lịch thực hiện các tác vụ, quản lý trạng thái của ứng dụng, ghi lại quá trình suy luận và lựa chọn các công cụ phù hợp để thực hiện các hành động.

Node Agent giúp tự động hóa các quy trình phức tạp, cho phép ứng dụng của bạn tương tác với người dùng và môi trường xung quanh một cách thông minh. Ví dụ, một node Agent có thể được cấu hình để sử dụng chiến lược ReAct để trả lời các câu hỏi của người dùng bằng cách truy xuất thông tin từ cơ sở dữ liệu, sau đó sử dụng một mô hình ngôn ngữ lớn để tạo ra câu trả lời. Node Agent cũng có thể quản lý bộ nhớ (memory) để theo dõi các cuộc hội thoại trước đó và sử dụng thông tin đó để đưa ra các quyết định tốt hơn. Node Agent có thể được cấu hình để sử dụng nhiều công cụ khác nhau, cho phép nó thực hiện các tác vụ như gửi email, đặt lịch hẹn, hoặc truy vấn thông tin từ các nguồn bên ngoài.

Việc sử dụng node Agent giúp đơn giản hóa việc xây dựng các ứng dụng AI có khả năng tương tác phức tạp, cho phép các nhà phát triển tập trung vào việc xây dựng logic ứng dụng thay vì phải lo lắng về các chi tiết kỹ thuật của việc tương tác với các mô hình và công cụ. Node Agent cũng cung cấp khả năng ghi lại quá trình suy luận, giúp các nhà phát triển hiểu rõ hơn về cách ứng dụng đưa ra quyết định và gỡ lỗi khi cần thiết.

Nguồn: Dify v1.0.0 Release Note

Agent Strategies

Agent Strategies, như đã đề cập, là các plugin định nghĩa logic ra quyết định bên trong node Agent. Chúng trừu tượng hóa các chi tiết phức tạp của việc tương tác với các mô hình và công cụ, cho phép các nhà phát triển tập trung vào việc xây dựng logic ứng dụng cấp cao. Dify v1.0.0 hỗ trợ các chiến lược được thiết lập sẵn như ReAct và Function Calling, cũng như khả năng phát triển các chiến lược tùy chỉnh.

  • ReAct (Reasoning and Acting): là một chiến lược cho phép tác nhân kết hợp suy luận (reasoning) và hành động (acting) để giải quyết các vấn đề. Tác nhân sẽ sử dụng mô hình ngôn ngữ lớn để suy luận về vấn đề, xác định các hành động cần thực hiện, và sau đó thực hiện các hành động đó bằng cách sử dụng các công cụ.
  • Function Calling: cho phép tác nhân gọi các hàm hoặc API bên ngoài, mở rộng khả năng của tác nhân vượt ra ngoài các chức năng AI cốt lõi. Ví dụ, tác nhân có thể gọi một hàm để truy vấn thông tin từ cơ sở dữ liệu hoặc thực hiện một phép tính phức tạp.
  • Chain-of-Thoughts (CoT): là một kỹ thuật suy luận cho phép tác nhân suy luận theo chuỗi các bước, giúp giải quyết các vấn đề phức tạp. Tác nhân sẽ tạo ra một chuỗi các suy nghĩ, mỗi suy nghĩ dựa trên suy nghĩ trước đó, để đi đến kết luận cuối cùng.
  • Tree-of-Thoughts (ToT): là một kỹ thuật suy luận nâng cao hơn, cho phép tác nhân khám phá nhiều khả năng suy luận khác nhau trước khi đưa ra quyết định cuối cùng. Tác nhân sẽ tạo ra một cây các suy nghĩ, mỗi nhánh đại diện cho một khả năng suy luận khác nhau.

Bằng cách cung cấp các chiến lược này dưới dạng plugin, Dify cho phép các nhà phát triển dễ dàng thử nghiệm và lựa chọn chiến lược phù hợp nhất với ứng dụng của họ. Hơn nữa, các nhà phát triển có thể tạo ra các chiến lược Agent Strategy tùy chỉnh để đáp ứng các yêu cầu đặc biệt của ứng dụng.

 

Hệ Sinh Thái Mở Của Dify v1.0.0

Kết nối hệ sinh thái

Dify v1.0.0 được thiết kế để trở thành một nền tảng mở, cho phép kết nối liền mạch với các nền tảng và dịch vụ bên ngoài thông qua Extensions. Ví dụ, bạn có thể tích hợp Dify với Slack để tạo ra một chatbot có thể trả lời các câu hỏi của người dùng, truy xuất thông tin từ cơ sở dữ liệu nội bộ, và thực hiện các hành động khác trong Slack. Các Plugin Endpoints cũng hỗ trợ các lệnh gọi ngược (reverse calls) đến các khả năng cốt lõi của Dify, cho phép các ứng dụng bên ngoài tương tác với Dify một cách linh hoạt. Khả năng kết nối này tạo ra một hệ sinh thái phong phú, nơi các ứng dụng và dịch vụ có thể tương tác với nhau một cách liền mạch, mang lại giá trị lớn hơn cho người dùng.

Việc tích hợp với các nền tảng bên ngoài không chỉ mở rộng khả năng của Dify mà còn giúp các nhà phát triển tận dụng các công cụ và dịch vụ hiện có, giảm thiểu thời gian và chi phí phát triển. Bạn có thể tạo một Extension để kết nối Dify với bất kỳ dịch vụ nào có hỗ trợ Webhook, cho phép bạn xây dựng các tích hợp tùy chỉnh và tự động hóa các quy trình làm việc. Dify cung cấp các API và SDK để giúp bạn dễ dàng xây dựng các Extension.

Hệ sinh thái mở của Dify

Nguồn: Dify v1.0.0 Release Note

Tương tác đa phương thức

Dify v1.0.0 không chỉ giới hạn ở việc xử lý văn bản. Nền tảng này hỗ trợ các mô hình đa phương thức và các plugin công cụ cho phép các ứng dụng AI xử lý nhiều loại dữ liệu khác nhau, bao gồm hình ảnh, âm thanh và video. Ví dụ, bạn có thể sử dụng các plugin để:

  • Tạo hình ảnh từ văn bản (text-to-image): Sử dụng các mô hình như Stable Diffusion hoặc DALL-E để tạo ra hình ảnh dựa trên mô tả văn bản.
  • Tạo ra giọng nói từ văn bản (text-to-speech): Sử dụng các mô hình như ElevenLabs hoặc Google Text-to-Speech để chuyển đổi văn bản thành giọng nói tự nhiên.
  • Phân tích nội dung của video: Sử dụng các mô hình như Video Intelligence API của Google Cloud để trích xuất thông tin từ video, chẳng hạn như nhận dạng đối tượng, phát hiện hành động, hoặc tóm tắt nội dung.
  • Chỉnh sửa ảnh: Cắt, xoay, thay đổi kích thước, xóa nền, v.v.

Khả năng tương tác đa phương thức này mở ra nhiều ứng dụng mới cho AI, từ việc tạo nội dung sáng tạo đến việc phân tích dữ liệu phức tạp. Việc hỗ trợ đa phương thức cũng giúp các ứng dụng AI trở nên gần gũi và dễ sử dụng hơn với người dùng, vì họ có thể tương tác với ứng dụng bằng nhiều cách khác nhau, không chỉ thông qua văn bản.

Nền tảng chia sẻ giá trị

Dify Marketplace không chỉ là một nền tảng phân phối plugin mà còn là một trung tâm trao đổi sáng tạo, nơi các nhà phát triển có thể chia sẻ kiến thức, kinh nghiệm và các giải pháp AI của họ. Với 2,4 triệu lượt tải xuống phiên bản Cộng đồng và phiên bản Doanh nghiệp đang được sử dụng bởi nhiều công ty trong danh sách Fortune 500, Dify Marketplace có một cộng đồng người dùng và nhà phát triển lớn mạnh, tạo ra một môi trường hợp tác và đổi mới.

Việc chia sẻ plugin trên Dify Marketplace không chỉ giúp các nhà phát triển quảng bá sản phẩm của họ mà còn giúp họ nhận được phản hồi từ cộng đồng, cải thiện chất lượng plugin và tạo ra doanh thu. Dify Marketplace cũng cung cấp các công cụ và tài nguyên để giúp các nhà phát triển quản lý và phân phối plugin của họ một cách hiệu quả. Để xuất bản một plugin lên Dify Marketplace, bạn cần tuân thủ các nguyên tắc phát triển plugin của Dify, viết tài liệu hướng dẫn sử dụng rõ ràng, và cung cấp chính sách bảo mật cho plugin của bạn. Sau khi plugin của bạn được phê duyệt, nó sẽ được liệt kê trên Dify Marketplace và có thể được sử dụng bởi bất kỳ người dùng Dify nào.

Đối tác

Dify v1.0.0 đã thiết lập quan hệ đối tác với nhiều công ty và tổ chức hàng đầu trong lĩnh vực AI, bao gồm:

  • OpenRouter: Một nền tảng tổng hợp các mô hình ngôn ngữ lớn, cung cấp cho người dùng Dify quyền truy cập vào một loạt các mô hình khác nhau từ một giao diện duy nhất.
  • Brave: Một trình duyệt web tập trung vào quyền riêng tư, tích hợp với Dify để cung cấp cho người dùng các tính năng AI tiên tiến trong khi vẫn bảo vệ dữ liệu cá nhân của họ.
  • E2B: Một nền tảng điện toán đám mây, cung cấp cơ sở hạ tầng để chạy các ứng dụng Dify.
  • SiliconFlow: Một công ty cung cấp giải pháp AI, hợp tác với Dify để phát triển các plugin và ứng dụng mới.
  • Agora: Một nền tảng giao tiếp thời gian thực, tích hợp với Dify để cho phép các ứng dụng AI tương tác với người dùng thông qua giọng nói và video.
  • Fish Audio: Một công ty cung cấp công nghệ âm thanh, cung cấp các plugin cho Dify để xử lý âm thanh và giọng nói.
  • Dupdub: Một công ty cung cấp công nghệ tạo giọng nói, cung cấp các plugin cho Dify để tạo ra giọng nói tự nhiên từ văn bản.

Và nhiều đối tác khác. Các đối tác này cung cấp các plugin, công cụ và dịch vụ tích hợp với Dify, mở rộng khả năng của nền tảng và mang lại nhiều lựa chọn hơn cho các nhà phát triển. Sự hợp tác với các đối tác này cũng giúp Dify tiếp cận được với nhiều người dùng hơn và thúc đẩy sự phát triển của hệ sinh thái Dify.

 

Triển Vọng Tương Lai Của Dify

Dify sẽ tiếp tục tách rời và mở các khả năng cốt lõi thông qua các plugin, nâng cao hơn nữa tính linh hoạt của nền tảng để đáp ứng các nhu cầu phát triển đa dạng. Dify có kế hoạch tập trung vào việc cải thiện khả năng điều phối quy trình làm việc RAG (Retrieval-Augmented Generation) bằng cách sử dụng các thành phần xử lý dữ liệu chuyên biệt. Điều này sẽ giúp các nhà phát triển xây dựng các ứng dụng AI có khả năng truy xuất thông tin chính xác hơn từ nhiều nguồn khác nhau và tạo ra các câu trả lời đáng tin cậy hơn. Dify cũng sẽ tiếp tục mở rộng mạng lưới đối tác, tạo ra một nền tảng trung gian AI mở, kết nối các công cụ và dịch vụ với người dùng, đồng thời cung cấp các giải pháp tùy chỉnh cho các ngành và doanh nghiệp khác nhau.

Dify cam kết cung cấp tài liệu hướng dẫn chi tiết và hỗ trợ các công cụ phát triển tốt nhất, đồng thời khuyến khích các nhà phát triển trên toàn thế giới tham gia vào việc xây dựng hệ sinh thái Dify thông qua các hoạt động trực tuyến và ngoại tuyến. Dify sẽ lắng nghe phản hồi từ cộng đồng, liên tục cải tiến các tính năng của sản phẩm và hướng tới mục tiêu xây dựng một hệ sinh thái mở, thịnh vượng, thúc đẩy sự đổi mới và chia sẻ tài nguyên trong lĩnh vực AI. Dify cũng có kế hoạch hỗ trợ thêm nhiều loại plugin và mô hình AI, bao gồm cả các mô hình đa phương thức và các mô hình chuyên biệt cho các lĩnh vực cụ thể.

 

Kết Luận

Dify v1.0.0 đánh dấu một bước tiến quan trọng trong việc phát triển ứng dụng AI, mang đến một nền tảng mã nguồn mở mạnh mẽ, linh hoạt và dễ sử dụng. Với kiến trúc plugin hoàn toàn mới, Dify v1.0.0 cho phép các nhà phát triển dễ dàng tích hợp các mô hình AI, công cụ và dịch vụ bên ngoài, tạo ra các ứng dụng AI tùy chỉnh và đáp ứng các yêu cầu cụ thể của họ một cách nhanh chóng và hiệu quả. Quy trình làm việc thông minh với node Agent và Agent Strategies giúp tự động hóa các tác vụ phức tạp, trong khi hệ sinh thái mở của Dify khuyến khích sự hợp tác và chia sẻ giữa các nhà phát triển.

Dify v1.0.0 không chỉ là một nền tảng phát triển ứng dụng AI mà còn là một cộng đồng, nơi các nhà phát triển có thể học hỏi, chia sẻ và cùng nhau tạo ra những giải pháp AI đột phá, mang lại giá trị thực cho người dùng và doanh nghiệp. Dify v1.0.0 thực sự mở ra một kỷ nguyên mới cho việc phát triển ứng dụng AI, nơi sự sáng tạo và đổi mới không bị giới hạn. Hãy bắt đầu khám phá Dify ngay hôm nay!

Bạn có thể truy cập các liên kết sau để trải nghiệm Dify v1.0.0 và tham gia vào cộng đồng Dify:

Bài viết của tôi xin dừng lại tại đây.
Hy vọng rằng những nội dung chia sẻ đã mang đến cho bạn những kiến thức hữu ích. Rất mong tiếp tục nhận được sự quan tâm và đồng hành của bạn trong các bài viết tiếp theo.

Chân thành cảm ơn bạn đã theo dõi và ủng hộ!

Run MarkItDown On Local And Check The Accuracy Of Some Files Types Like PPT, Excel, Images

Link github:

https://github.com/microsoft/markitdown

git clone [email protected]:microsoft/markitdown.git

cd markitdown

pip install -e packages/markitdown

git clone git@github.com:microsoft/markitdown.git

Now try it

First I try it with this PDF document

PDF document

Then, this is result


It looks good!

Then, I try it with PPTX file

This is the result. It seems to be able to get quite complete information on the slide including links, page numbers, comments, etc. but it cannot get information on images, shapes or charts.

Finally, I try it with Excel file

It seems to be able to get the content of all sheets. However it takes blank cells and sets the value to NaN. Also it can’t get the text on the image.

I think this output needs to be processed further if I want to use it.

Thanks for reading!