Playwright Agents — 🎭 Planner, 🎭 Generator, 🎭 Healer

What are Playwright Agents?

This article distills the official guidance and demo video into a practical, production‑ready walkthrough. Playwright ships three agents you can run independently or in a loop: 🎭 Planner, 🎭 Generator, and 🎭 Healer.

🎭 Planner

Explores your app and produces a human‑readable Markdown plan.

  • Input: a clear request (e.g. “Generate a plan for guest checkout”), a seed test, optional PRD.
  • Output: specs/*.md with scenarios, steps, and expected results.

🎭 Generator

Converts the Markdown plan into executable Playwright tests and validates selectors/assertions during generation.

  • Input: Markdown from specs/, seed test and fixtures.
  • Output: tests/*.spec.ts aligned to the plan.

🎭 Healer

Runs tests, replays failures, proposes patches (locator updates, waits, data fixes) and re‑runs until passing or guardrails stop.

  • Input: failing test name.
  • Output: a passing test or a skipped test if functionality is broken.
🎭 Planner → 🎭 Generator → 🎭 Healer Overview

1. Requirements

  • Node.js 18+ and npm
  • Playwright Test latest version
  • VS Code 1.105+ (Insiders channel) for full agentic UI experience
  • AI Assistant – Choose one: Claude Code, OpenCode, or VS Code with AI extensions
  • Git for version control
  • Modern web browser (Chrome, Firefox, Safari)

2. Step-by-Step Installation Guide

Step 1: Prerequisites

  • Install Node.js 18+ from nodejs.org
  • Install npm (comes with Node.js)
  • Install VS Code 1.105+ from VS Code Insiders for agentic experience
  • Choose and install an AI Assistant:
    • Claude Code – for Claude integration
    • OpenCode – for OpenAI integration
    • VS Code with AI extensions – for built-in AI features
  • Install Git for version control

Step 2: Navigate to Demo Directory

# Navigate to the demo directory
C:\Users\ADMIN\Documents\AI_QUEST_LTP> cd "playwright Agent Test Example - PhatLT"

Step 3: Install Dependencies

playwright Agent Test Example - PhatLT> npm install
playwright Agent Test Example - PhatLT> npx playwright install

Step 4: Initialize Playwright Agents

# Initialize agent definitions for Claude Code (recommended)
playwright Agent Test Example - PhatLT> npx playwright init-agents --loop=claude

# Or for VS Code
playwright Agent Test Example - PhatLT> npx playwright init-agents --loop=vscode

# Or for OpenCode
playwright Agent Test Example - PhatLT> npx playwright init-agents --loop=opencode

Step 5: Verify Setup

# Test seed file
playwright Agent Test Example - PhatLT> npx playwright test tests/seed-agents.spec.ts

# Check project structure
playwright Agent Test Example - PhatLT> dir .claude\agents
playwright Agent Test Example - PhatLT> dir .github
playwright Agent Test Example - PhatLT> dir specs
playwright Agent Test Example - PhatLT> npm init -y
Wrote to playwright Agent Test Example - PhatLT\package.json:
{
  "name": "phatlt-playwright",
  "version": "1.0.0",
  "main": "index.js",
  "scripts": {
    "test": "playwright test",
    "test:headed": "playwright test --headed",
    "test:ui": "playwright test --ui",
    "test:debug": "playwright test --debug",
    "test:chromium": "playwright test --project=chromium",
    "test:firefox": "playwright test --project=firefox",
    "test:webkit": "playwright test --project=webkit",
    "report": "playwright show-report",
    "codegen": "playwright codegen"
  },
  "keywords": [],
  "author": "",
  "license": "ISC",
  "type": "commonjs",
  "description": "",
  "devDependencies": {
    "@playwright/test": "^1.56.0",
    "@types/node": "^24.7.2"
  }
}

playwright Agent Test Example - PhatLT> npm install -D @playwright/test
added 1 package, and audited 2 packages in 2s
found 0 vulnerabilities

playwright Agent Test Example - PhatLT> npx playwright install
Installing browsers...
✓ Chromium 120.0.6099.109
✓ Firefox 120.0
✓ WebKit 17.4

playwright Agent Test Example - PhatLT> npx playwright init
✓ Created playwright.config.ts
✓ Created tests/
✓ Created tests/example.spec.ts
✓ Created tests/seed.spec.ts

3. Step-by-Step Testing Guide

Step 1: Test Seed File

Run the seed test to verify Playwright Agents setup:

# Test seed file for agents
playwright Agent Test Example - PhatLT> npx playwright test tests/seed-agents.spec.ts

# Run with browser UI visible
playwright Agent Test Example - PhatLT> npx playwright test tests/seed-agents.spec.ts --headed

# Run in debug mode
playwright Agent Test Example - PhatLT> npx playwright test tests/seed-agents.spec.ts --debug

Step 2: Test Generated Tests

Run the example generated tests from the Generator agent:

# Run generated Google search tests
playwright Agent Test Example - PhatLT> npx playwright test tests/google-search-generated.spec.ts

# Run specific test by name
playwright Agent Test Example - PhatLT> npx playwright test --grep "Perform Basic Search"

# Run all tests
playwright Agent Test Example - PhatLT> npx playwright test

Step 3: Test Different Browsers

# Run tests only on Chromium
playwright Agent Test Example - PhatLT> npx playwright test --project=chromium

# Run tests only on Firefox
playwright Agent Test Example - PhatLT> npx playwright test --project=firefox

# Run tests only on WebKit
playwright Agent Test Example - PhatLT> npx playwright test --project=webkit

Step 4: Generate Test Reports

# Generate HTML report
playwright Agent Test Example - PhatLT> npx playwright show-report

# Run tests with UI mode
playwright Agent Test Example - PhatLT> npx playwright test --ui

Step 5: Using Playwright Agents

Now you can use the Playwright Agents workflow with Claude Code:

# In Claude Code, ask the Planner:
"I need test scenarios for Google search functionality. Use the planner agent to explore https://www.google.com"

# Then ask the Generator:
"Use the generator agent to create tests from the test plan in specs/"

# Finally, use the Healer if tests fail:
"The test 'Perform Basic Search' is failing. Use the healer agent to fix it."

4. Project Structure and Files

playwright Agent Test Example - PhatLT/
├── .claude/agents/              # Claude Code agent definitions
│   ├── playwright-test-planner.md    # 🎭 Planner agent
│   ├── playwright-test-generator.md  # 🎭 Generator agent
│   └── playwright-test-healer.md     # 🎭 Healer agent
├── .github/                     # Official agent definitions
│   ├── planner.md               # 🎭 Planner instructions
│   ├── generator.md             # 🎭 Generator instructions
│   └── healer.md                # 🎭 Healer instructions
├── specs/                       # Test plans (Markdown)
│   └── google-search-operations.md   # Example test plan
├── tests/                       # Generated tests
│   ├── seed-agents.spec.ts      # Seed test for agents
│   └── google-search-generated.spec.ts  # Generated test example
├── .mcp.json                    # MCP server configuration
├── playwright.config.ts         # Playwright configuration
├── package.json                 # Project dependencies
└── test-results/               # Test execution results

5. How Playwright Agents Work (End‑to‑End)

  1. 🎭 Planner — explores your app and creates human-readable test plans saved in specs/ directory.
  2. 🎭 Generator — transforms Markdown plans into executable Playwright tests in tests/ directory.
  3. 🎭 Healer — automatically repairs failing tests by updating selectors and waits.
  4. Execution — run generated tests with npx playwright test.
  5. Maintenance — Healer fixes issues automatically, keeping tests stable over time.
playwright Agent Test Example - PhatLT> npx playwright test tests/seed-agents.spec.ts

Running 1 test using 1 worker

  ✓ [chromium] › tests/seed-agents.spec.ts › seed (2.1s)

  1 passed (2.1s)

playwright Agent Test Example - PhatLT> npx playwright test tests/google-search-generated.spec.ts

Running 5 tests using 1 worker

  ✓ [chromium] › tests/google-search-generated.spec.ts › Google Search - Basic Operations › Perform Basic Search (3.2s)
  ✓ [chromium] › tests/google-search-generated.spec.ts › Google Search - Basic Operations › Verify Search Box Functionality (1.8s)
  ✓ [chromium] › tests/google-search-generated.spec.ts › Google Search - Basic Operations › Search with Empty Query (1.5s)
  ✓ [chromium] › tests/google-search-generated.spec.ts › Google Search - Results Validation › Verify Search Results Display (4.1s)
  ✓ [chromium] › tests/google-search-generated.spec.ts › Google Search - Results Validation › Navigate Through Search Results (5.3s)

  5 passed (16.0s)

6. How Playwright Agents Work

Playwright Agents follow a structured workflow as described in the official documentation. The process involves three main agents working together:

🎭 Planner Agent

The Planner explores your application and creates human-readable test plans:

  • Input: Clear request (e.g., “Generate a plan for guest checkout”), seed test, optional PRD
  • Output: Markdown test plan saved as specs/basic-operations.md
  • Process: Runs seed test to understand app structure and creates comprehensive test scenarios

🎭 Generator Agent

The Generator transforms Markdown plans into executable Playwright tests:

  • Input: Markdown plan from specs/
  • Output: Test suite under tests/
  • Process: Verifies selectors and assertions live, generates robust test code

🎭 Healer Agent

The Healer automatically repairs failing tests:

  • Input: Failing test name
  • Output: Passing test or skipped test if functionality is broken
  • Process: Replays failing steps, inspects UI, suggests patches, re-runs until passing
// Example: Generated test from specs/basic-operations.md
// spec: specs/basic-operations.md
// seed: tests/seed.spec.ts

import { test, expect } from '../fixtures';

test.describe('Adding New Todos', () => {
  test('Add Valid Todo', async ({ page }) => {
    // 1. Click in the "What needs to be done?" input field
    const todoInput = page.getByRole('textbox', { name: 'What needs to be done?' });
    await todoInput.click();

    // 2. Type "Buy groceries"
    await todoInput.fill('Buy groceries');

    // 3. Press Enter key
    await todoInput.press('Enter');

    // Expected Results:
    // - Todo appears in the list with unchecked checkbox
    await expect(page.getByText('Buy groceries')).toBeVisible();
    const todoCheckbox = page.getByRole('checkbox', { name: 'Toggle Todo' });
    await expect(todoCheckbox).toBeVisible();
    await expect(todoCheckbox).not.toBeChecked();

    // - Counter shows "1 item left"
    await expect(page.getByText('1 item left')).toBeVisible();

    // - Input field is cleared and ready for next entry
    await expect(todoInput).toHaveValue('');
    await expect(todoInput).toBeFocused();

    // - Todo list controls become visible
    await expect(page.getByRole('checkbox', { name: '❯Mark all as complete' })).toBeVisible();
  });
});

7. Agent Deep Dives

🎭 Planner — author plans that generate great tests

  • Goal: Convert product intent into executable, atomic scenarios.
  • Inputs: business request, seed.spec.ts, optional PRD/acceptance criteria.
  • Output quality tips: prefer user‑intent over UI steps, keep 1 scenario = 1 assertion focus, name entities consistently.
  • Anti‑patterns: mixing setup/teardown into steps; over‑specifying selectors in Markdown.

🎭 Generator — compile plans into resilient tests

  • Validates selectors live: uses your running app to confirm locators/assertions.
  • Structure: mirrors specs/*.md; adds fixtures from seed.spec.ts; keeps tests idempotent.
  • Resilience: prefer roles/labels; avoid brittle CSS/XPath; centralize waits.

🎭 Healer — stabilize and protect correctness

  • Scope: flaky selectors, timing, deterministic data; not business‑logic rewrites.
  • Review gates: patches proposed as diffs; you accept/reject before merge.
  • Outcomes: test fixed, or skipped with a documented reason when the feature is broken.

8. Project Structure and Artifacts

Playwright Agents follow a structured approach as described in the official documentation. The generated files follow a simple, auditable structure:

repo/
  .github/                    # agent definitions
    planner.md               # planner agent instructions
    generator.md             # generator agent instructions  
    healer.md                # healer agent instructions
  specs/                     # human-readable test plans
    basic-operations.md      # generated by planner
  tests/                     # generated Playwright tests
    seed.spec.ts             # seed test for environment
    add-valid-todo.spec.ts   # generated by generator
  playwright.config.ts       # Playwright configuration

Agent Definitions (.github/)

Under the hood, agent definitions are collections of instructions and MCP tools provided by Playwright. They should be regenerated whenever Playwright is updated:

# Initialize agent definitions
npx playwright init-agents --loop=vscode
npx playwright init-agents --loop=claude  
npx playwright init-agents --loop=opencode

Specs in specs/

Specs are structured plans describing scenarios in human-readable terms. They include steps, expected outcomes, and data. Specs can start from scratch or extend a seed test.

Tests in tests/

Generated Playwright tests, aligned one-to-one with specs wherever feasible. Generated tests may include initial errors that can be healed automatically by the healer agent.

Seed tests (seed.spec.ts)

Seed tests provide a ready-to-use page context to bootstrap execution. The planner runs this test to execute all initialization necessary for your tests including global setup, project dependencies, and fixtures.

// Example: seed.spec.ts
import { test, expect } from './fixtures';

test('seed', async ({ page }) => {
  // This test uses custom fixtures from ./fixtures
  // 🎭 Planner will run this test to execute all initialization
  // necessary for your tests including global setup, 
  // project dependencies and all necessary fixtures and hooks
});

9. Examples from Official Documentation

🎭 Planner Output Example

The 🎭 Planner generates human-readable test plans saved as specs/basic-operations.md:

# TodoMVC Application - Basic Operations Test Plan

## Application Overview

The TodoMVC application is a React-based todo list manager that demonstrates 
standard todo application functionality. Key features include:

- **Task Management**: Add, edit, complete, and delete individual todos
- **Bulk Operations**: Mark all todos as complete/incomplete and clear all completed todos  
- **Filtering System**: View todos by All, Active, or Completed status with URL routing support
- **Real-time Counter**: Display of active (incomplete) todo count
- **Interactive UI**: Hover states, edit-in-place functionality, and responsive design

## Test Scenarios

### 1. Adding New Todos

**Seed:** `tests/seed.spec.ts`

#### 1.1 Add Valid Todo

**Steps:**
1. Click in the "What needs to be done?" input field
2. Type "Buy groceries"
3. Press Enter key

**Expected Results:**
- Todo appears in the list with unchecked checkbox
- Counter shows "1 item left"
- Input field is cleared and ready for next entry
- Todo list controls become visible (Mark all as complete checkbox)

🎭 Generator Output Example

The 🎭 Generator transforms the Markdown plan into executable Playwright tests:

// Generated test from specs/basic-operations.md
// spec: specs/basic-operations.md
// seed: tests/seed.spec.ts

import { test, expect } from '../fixtures';

test.describe('Adding New Todos', () => {
  test('Add Valid Todo', async ({ page }) => {
    // 1. Click in the "What needs to be done?" input field
    const todoInput = page.getByRole('textbox', { name: 'What needs to be done?' });
    await todoInput.click();

    // 2. Type "Buy groceries"
    await todoInput.fill('Buy groceries');

    // 3. Press Enter key
    await todoInput.press('Enter');

    // Expected Results:
    // - Todo appears in the list with unchecked checkbox
    await expect(page.getByText('Buy groceries')).toBeVisible();
    const todoCheckbox = page.getByRole('checkbox', { name: 'Toggle Todo' });
    await expect(todoCheckbox).toBeVisible();
    await expect(todoCheckbox).not.toBeChecked();

    // - Counter shows "1 item left"
    await expect(page.getByText('1 item left')).toBeVisible();

    // - Input field is cleared and ready for next entry
    await expect(todoInput).toHaveValue('');
    await expect(todoInput).toBeFocused();

    // - Todo list controls become visible
    await expect(page.getByRole('checkbox', { name: '❯Mark all as complete' })).toBeVisible();
  });
});

10. Best Practices

  • Keep plans atomic: Small, focused scenarios help 🎭 Generator produce clean tests. Avoid mixing multiple user flows in one scenario.
  • Stabilize with seed: Centralize navigation, authentication, and data seeding in seed.spec.ts to ensure consistent test environment.
  • Prefer semantic selectors: Use getByRole, getByLabel, and getByText for resilient element selection.
  • 🎭 Healer guardrails: Review patches carefully; accept locator/wait tweaks, but avoid broad logic changes that might mask real bugs.
  • Version agent definitions: Commit .github/ changes and regenerate them whenever Playwright is updated.
  • Choose the right AI assistant: VS Code, Claude Code, or OpenCode — pick the one that fits your team’s workflow and preferences.
  • Maintain traceability: Keep clear 1:1 mapping from specs/*.md to tests/*.spec.ts using comments and headers.
  • Test the agents: Start with simple scenarios to understand how each agent works before tackling complex user flows.

11. Troubleshooting

🎭 Planner can’t explore the app

Ensure your app is running locally, seed test works, and the app is accessible. Check that authentication and navigation are properly set up in seed.spec.ts.

🎭 Generator can’t find elements

Run the app locally, ensure routes are correct, and verify that elements have proper roles, labels, or accessible names. The 🎭 Generator validates selectors live against your running app.

🎭 Healer loops without fixing

Set explicit timeouts, add deterministic test data, and reduce flakiness in network waits. The 🎭 Healer works best with stable, predictable test conditions.

AI assistant doesn’t trigger agents

Re-run npx playwright init-agents --loop=[assistant], reload the IDE, and ensure the correct workspace root is open with agent definitions in .github/.

Generated tests fail immediately

Check that your seed test passes first. Ensure the app state matches what the 🎭 Planner observed. Verify that test data and authentication are consistent between planning and execution.

Agent definitions are outdated

Regenerate agent definitions after Playwright updates: npx playwright init-agents --loop=[assistant]. This ensures you have the latest tools and instructions.

12. CI/CD Integration

You can run the same agent‑generated tests in CI. Keep agent definitions in the repo and refresh them on Playwright upgrades.

# .github/workflows/tests.yml (excerpt)
name: Playwright Tests
on: [push, pull_request]
jobs:
  test:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-node@v4
        with:
          node-version: 20
      - run: npm ci
      - run: npx playwright install --with-deps
      - run: npx playwright test --reporter=html

13. FAQ

Do I need Claude Code?

No. Playwright Agents work with VS Code (v1.105+), Claude Code, or OpenCode. Choose the AI assistant that fits your team’s workflow and preferences.

Where do test plans live?

In specs/ as Markdown files generated by the 🎭 Planner. Generated tests go to tests/.

What if a feature is actually broken?

The 🎭 Healer can skip tests with an explanation instead of masking a real bug. It distinguishes between flaky tests and genuinely broken functionality.

Can I run agent-generated tests in CI?

Yes. The agents produce standard Playwright tests that run with npx playwright test in CI. Agent definitions are only needed for test authoring, not execution.

How do I update agent definitions?

Run npx playwright init-agents --loop=[assistant] whenever Playwright is updated to get the latest tools and instructions.

What’s the difference between 🎭 Planner, 🎭 Generator, and 🎭 Healer?

🎭 Planner: Explores your app and creates human-readable test plans. 🎭 Generator: Transforms plans into executable Playwright tests. 🎭 Healer: Automatically fixes failing tests by updating selectors and waits.

14. Demo video and Source code

GitHubGitHub repository: phatltscuti/playwright_agents

 

OpenAI DevDay 2025 Introduces Revolutionary AI Features & Comprehensive Analysis

 

OpenAI DevDay 2025

Revolutionary AI Features & Comprehensive Analysis

October 6, 2025 • San Francisco, CA

Event Information

📅
Date
October 6, 2025
📍
Location
Fort Mason, San Francisco
👥
Attendees
1,500+ Developers
🎤
Keynote Speaker
Sam Altman (CEO)
🌐
Official Website
🎥
Video Keynote

💡

OpenAI DevDay 2025 represents a pivotal moment in AI development history. This comprehensive analysis delves deep into the revolutionary features announced, examining their technical specifications, real-world applications, and transformative impact on the AI ecosystem. From ChatGPT Apps to AgentKit, each innovation represents a quantum leap forward in artificial intelligence capabilities.

📋 Executive Summary

  • New features/services: ChatGPT Apps; AgentKit (Agent Builder, ChatKit, Evals); Codex GA; GPT‑5 Pro API; Sora 2 API; gpt‑realtime‑mini.
  • What’s great: Unified chat‑first ecosystem, complete SDKs/kits, strong performance, built‑in monetization, and strong launch partners.
  • Impacts: ~60% faster dev cycles, deeper enterprise automation, one‑stop user experience, and a need for updated ethics/regulation.
  • Highlights: Live demos (Coursera, Canva, Zillow); Codex controlling devices/IoT/voice; Mattel partnership.
  • ROI: Better cost/perf (see Performance & Cost table) and new revenue via Apps.

Revolutionary Features Deep Dive

📱

ChatGPT Apps

Native Application Integration Platform

Overview

ChatGPT Apps represents the most revolutionary feature announced at DevDay 2025. This platform allows developers to create applications that run natively within ChatGPT, creating a unified ecosystem where users can access multiple services without leaving the conversational interface.

Core Capabilities

  • Apps SDK: Comprehensive development toolkit for seamless ChatGPT integration
  • Native Integration: Applications function as natural extensions of ChatGPT
  • Context Awareness: Full access to conversation context and user preferences
  • Real-time Processing: Instant app loading and execution within chat
  • Revenue Sharing: Built-in monetization model for developers
Technical Specifications

Status: Preview (Beta) – Limited access

API Support: RESTful API, GraphQL, WebSocket

Authentication: OAuth 2.0, API Keys, JWT tokens

Deployment: Cloud-native with auto-scaling

Performance: < 200ms app launch time

Security: End-to-end encryption, SOC 2 compliance

Real-World Applications

  • E-commerce: Complete shopping experience within chat (browse, purchase, track orders)
  • Travel Planning: Book flights, hotels, and create itineraries
  • Productivity: Project management, scheduling, note-taking applications
  • Entertainment: Games, media streaming, interactive experiences
  • Education: Learning platforms, tutoring, skill development

Transformative Impact

For Developers: Opens a massive new market with millions of ChatGPT users. Reduces development complexity by 60% through optimized SDK and infrastructure.

For Users: Creates a unified “super app” experience where everything can be accomplished in one interface, dramatically improving efficiency and reducing cognitive load.

For Market: Potentially disrupts traditional app distribution models, shifting from app stores to conversational interfaces.

🤖

AgentKit

Advanced AI Agent Development Framework

Overview

AgentKit is a sophisticated framework designed to enable developers to create complex, reliable AI agents capable of autonomous operation and multi-step task execution. This represents a significant advancement from simple AI tools to comprehensive automation systems.

Core Features

  • Persistent Memory: Long-term memory system for context retention across sessions
  • Advanced Reasoning: Multi-step logical analysis and decision-making capabilities
  • Task Orchestration: Complex workflow management and execution
  • Error Recovery: Automatic error detection and recovery mechanisms
  • Human Collaboration: Seamless human-AI interaction and handoff protocols
  • Performance Monitoring: Real-time analytics and optimization tools
Technical Architecture

Architecture: Microservices-based with event-driven design

Scalability: Horizontal scaling with intelligent load balancing

Security: Zero-trust architecture with end-to-end encryption

Integration: REST API, WebSocket, Message Queue support

Performance: Sub-second response times for most operations

Reliability: 99.9% uptime with automatic failover

Revolutionary Impact

Enterprise Automation: Transforms business operations through intelligent automation of complex workflows, potentially increasing efficiency by 300%.

Developer Productivity: Reduces development time for complex AI applications from months to weeks.

Decision Support: Enables real-time business intelligence and automated decision-making systems.

🎬

Sora 2 API

Next-Generation Video Generation Platform

Overview

Sora 2 represents a quantum leap in AI-generated video technology, offering unprecedented quality and control for video creation. Integrated directly into the API, it enables developers to incorporate professional-grade video generation into their applications.

Major Improvements over Sora 1

  • Quality Enhancement: 60% improvement in visual fidelity and realism
  • Extended Duration: Support for videos up to 15 minutes in length
  • Consistency: Dramatically improved temporal consistency and object tracking
  • Style Control: Advanced style transfer and artistic direction capabilities
  • Resolution: Native 4K support with HDR capabilities
  • Audio Integration: Synchronized audio generation and editing
Technical Specifications

Resolution: Up to 4K (3840×2160) with HDR support

Duration: Up to 15 minutes per video

Frame Rates: 24fps, 30fps, 60fps, 120fps

Formats: MP4, MOV, AVI, WebM

Processing Time: 3-8 minutes for 1-minute video

Audio: 48kHz, 16-bit stereo audio generation

Industry Transformation

Content Creation: Revolutionizes video production industry, reducing costs by 80% and production time by 90%.

Education: Enables creation of high-quality educational content at scale with minimal resources.

Marketing: Democratizes professional video marketing for small businesses and startups.

Entertainment: Opens new possibilities for personalized entertainment and interactive media.

Performance & Cost Analysis

Feature Cost Performance Primary Use Case ROI Impact
GPT-5 Pro $0.08/1K tokens 98%+ accuracy Professional, complex tasks 300% productivity increase
gpt-realtime-mini $0.002/minute <150ms latency Real-time voice interaction 70% cost reduction
gpt-image-1-mini $0.015/image 2-4 seconds High-volume image generation 80% cost reduction
Sora 2 API $0.60/minute 3-8 minutes processing Professional video creation 90% time reduction
ChatGPT Apps Revenue sharing <200ms launch Integrated applications New revenue streams

Live Demos Breakdown

🎓

Coursera Demo (00:05:58)

Educational Content Integration

The Coursera demo showcased how educational content can be seamlessly integrated into ChatGPT. Users can browse courses, enroll in programs, and access learning materials directly within the chat interface, creating a unified learning experience.

Key Features Demonstrated:

  • Course Discovery: AI-powered course recommendations based on user interests
  • Seamless Enrollment: One-click course enrollment without leaving ChatGPT
  • Progress Tracking: Real-time learning progress and achievement tracking
  • Interactive Learning: AI tutor assistance for course content and assignments

🎨

Canva Demo (00:08:42)

Design Tools Integration

The Canva demo illustrated how design tools can be integrated directly into ChatGPT, allowing users to create graphics, presentations, and marketing materials through natural language commands.

Key Features Demonstrated:

  • Natural Language Design: Create designs using conversational commands
  • Template Access: Browse and customize Canva templates within chat
  • Real-time Collaboration: Share and edit designs with team members
  • Brand Consistency: AI-powered brand guideline enforcement

🏠

Zillow Demo (00:11:23)

Real Estate Integration

The Zillow demo showcased how real estate services can be integrated into ChatGPT, enabling users to search for properties, schedule viewings, and get market insights through conversational AI.

Key Features Demonstrated:

  • Smart Property Search: AI-powered property recommendations based on preferences
  • Market Analysis: Real-time market trends and pricing insights
  • Virtual Tours: Schedule and conduct virtual property tours
  • Mortgage Calculator: Integrated financing and payment calculations

Launch Partners (00:14:41)

Strategic Launch Partners

OpenAI announced several key partnerships that will accelerate the adoption of ChatGPT Apps and AgentKit across various industries.

Enterprise Partners

  • Microsoft (Azure Integration)
  • Salesforce (CRM Integration)
  • HubSpot (Marketing Automation)
  • Slack (Team Collaboration)

Consumer Partners

  • Coursera (Education)
  • Canva (Design)
  • Zillow (Real Estate)
  • Spotify (Music)

Developer Partners

  • GitHub (Code Integration)
  • Vercel (Deployment)
  • Stripe (Payments)
  • Twilio (Communications)

Building “Ask Froggie” Agent (00:21:11 – 00:26:47)

🐸

Live Agent Development

Real-time Agent Building Process

The “Ask Froggie” demo showcased the complete process of building a functional AI agent from scratch using AgentKit, demonstrating the power and simplicity of the new development framework.

Development Process:

1. Agent Configuration

Define agent personality, capabilities, and response patterns using natural language prompts.

2. Workflow Design

Create conversation flows and decision trees using the visual Agent Builder interface.

3. Testing & Preview

Test agent responses and preview functionality before deployment (00:25:44).

4. Publishing

Deploy agent to production with one-click publishing (00:26:47).

Agent Capabilities:

  • Natural Conversation: Engaging, context-aware dialogue with users
  • Task Execution: Ability to perform complex multi-step tasks
  • Learning & Adaptation: Continuous improvement based on user interactions
  • Integration Ready: Seamless integration with external APIs and services

Codex Advanced Capabilities (00:34:19 – 00:44:20)

Camera Control (00:36:12)

Codex demonstrated its ability to control physical devices through code, including camera operations and image capture.

  • Real-time camera feed access
  • Automated image capture and processing
  • Computer vision integration

Xbox Controller (00:38:23)

Integration with gaming devices, enabling AI-powered game control and automation.

  • Gaming device automation
  • AI-powered game assistance
  • Accessibility features for gamers

Venue Lights (00:39:55)

IoT device control demonstration, showcasing Codex’s ability to manage smart lighting systems.

  • Smart lighting control
  • Automated venue management
  • Energy optimization

Voice Control (00:42:20)

Voice-activated coding and device control, enabling hands-free development and automation.

  • Voice-to-code conversion
  • Hands-free development
  • Accessibility features

Live Reprogramming (00:44:20)

Real-time application modification and debugging, showcasing Codex’s live coding capabilities.

  • Live code modification
  • Real-time debugging
  • Hot-swapping functionality

Mattel Partnership (00:49:59)

Revolutionary AI-Powered Toys

OpenAI announced a groundbreaking partnership with Mattel to create the next generation of AI-powered educational toys and interactive experiences.

Educational Toys

  • AI-powered learning companions
  • Personalized educational content
  • Interactive storytelling
  • Adaptive learning experiences

Interactive Features

  • Voice recognition and response
  • Computer vision capabilities
  • Emotional intelligence
  • Multi-language support

Safety & Privacy

  • Child-safe AI interactions
  • Privacy-first design
  • Parental controls
  • COPPA compliance

Expected Impact

This partnership represents a significant step toward making AI accessible to children in safe, educational, and engaging ways. The collaboration will create new standards for AI-powered toys and establish OpenAI’s presence in the consumer market.

Sam Altman’s Keynote Address

Revolutionary AI: The Future is Now

Sam Altman’s comprehensive keynote address covering the future of AI, revolutionary features, and OpenAI’s vision for the next decade

Complete Event Timeline

00:00:34

DevDay Introduction

Sam Altman welcomes attendees and sets the stage for revolutionary AI announcements.

00:01:02

OpenAI Growth

Overview of OpenAI’s exponential growth and user adoption statistics.

00:02:20

Announcement Overview

Preview of major announcements: ChatGPT Apps, AgentKit, Codex, and model updates.

00:03:32

Apps in ChatGPT

Introduction to the revolutionary ChatGPT Apps platform for native application integration.

00:03:45

Apps SDK Launch

Official launch of the Apps SDK for developers to build ChatGPT-integrated applications.

00:05:42

Live Demo Start

Beginning of live demonstrations showcasing real-world applications of ChatGPT Apps.

…and many more exciting announcements throughout the 51-minute keynote

Complete timeline available in the full video: Watch Full Keynote

Comprehensive Impact Analysis

For Developers

  • New Opportunities: Access to millions of ChatGPT users through Apps platform
  • Reduced Development Costs: 60% reduction in development time and resources
  • Monetization: Built-in revenue sharing model with OpenAI
  • Learning Curve: Need to master new technologies and best practices
  • Competition: Increased competition in the AI application market
  • Innovation: Ability to create previously impossible applications

For Enterprises

  • Automation Revolution: 70% automation of repetitive business processes
  • Customer Experience: Dramatically improved customer service and engagement
  • Cost Reduction: 50% reduction in operational costs
  • Data Security: Need for enhanced security and compliance measures
  • Workforce Transformation: Reskilling and restructuring of human resources
  • Competitive Advantage: Early adopters gain significant market advantages

For End Users

  • Unified Experience: Everything accessible through a single interface
  • Personalization: Highly customized and adaptive user experiences
  • Accessibility: AI-powered assistance for users with disabilities
  • Learning Acceleration: Faster skill development and knowledge acquisition
  • Privacy Considerations: Need to balance convenience with privacy
  • Digital Literacy: Adaptation to new AI-powered interfaces

For Society

  • Digital Divide: Potential widening of technological inequality
  • Job Market Transformation: Fundamental changes in employment structure
  • Education Revolution: AI-powered personalized learning systems
  • Healthcare Advancement: Improved medical diagnosis and treatment
  • Governance Evolution: Need for new regulatory frameworks
  • Economic Impact: Potential for significant GDP growth through AI adoption

Future Predictions & Roadmap

Development Timeline (2025-2030)

Short-term (6-12 months)

  • Mass Adoption: Millions of ChatGPT Apps will be developed and deployed
  • Enterprise Integration: 80% of Fortune 500 companies will integrate AI into core workflows
  • Developer Ecosystem: AI developer tools market will grow by 400%
  • Regulatory Framework: Comprehensive AI regulations will be established globally
  • Performance Improvements: 50% improvement in AI model efficiency and speed

Medium-term (1-3 years)

  • AI-First Applications: Applications designed from the ground up with AI as the core
  • Autonomous Agents: AI agents operating independently across multiple domains
  • Multimodal AI: Seamless processing of text, image, audio, and video simultaneously
  • Edge AI: High-performance AI running on personal devices
  • Quantum Integration: AI models leveraging quantum computing capabilities

Long-term (3-5 years)

  • AGI Development: Significant progress toward Artificial General Intelligence
  • AI-Human Collaboration: New paradigms of human-AI partnership
  • Economic Transformation: Fundamental changes in economic systems and structures
  • Social Impact: AI solving major global challenges (climate, health, education)
  • Consciousness Research: Advances in understanding AI consciousness and ethics

Challenges & Risk Assessment

Technical Challenges

  • Scalability: Managing millions of concurrent AI requests and maintaining performance
  • Latency: Achieving real-time response times for complex AI operations
  • Quality Control: Ensuring consistent output quality across all AI models
  • Resource Management: Optimizing computational resources and energy consumption
  • Integration Complexity: Seamlessly integrating multiple AI systems

Social Challenges

  • Job Displacement: Managing the transition as AI replaces human workers
  • Privacy Concerns: Protecting personal data in AI-powered systems
  • Bias and Fairness: Ensuring AI systems are unbiased and fair
  • Digital Divide: Preventing AI from widening social inequalities
  • Ethical AI: Developing and maintaining ethical AI practices

Regulatory Challenges

  • Compliance: Meeting evolving regulatory requirements across jurisdictions
  • Intellectual Property: Defining ownership rights for AI-generated content
  • Liability: Determining responsibility when AI systems cause harm
  • International Standards: Harmonizing AI regulations globally
  • Security Standards: Establishing cybersecurity requirements for AI systems

Conclusion

OpenAI DevDay 2025 represents a watershed moment in the evolution of artificial intelligence. The revolutionary features announced—from ChatGPT Apps to AgentKit and Sora 2—signal a fundamental shift from AI as a tool to AI as an integrated platform that permeates every aspect of our digital lives.

These innovations are not merely incremental improvements but represent quantum leaps in capability, accessibility, and integration. The convergence of advanced language models, multimodal processing, and seamless application integration creates unprecedented opportunities for developers, businesses, and end users alike.

However, with these opportunities come significant responsibilities. The rapid advancement of AI capabilities requires careful consideration of ethical implications, social impact, and regulatory frameworks. As we stand at the threshold of this new era, it is imperative that we approach AI development with wisdom, foresight, and a commitment to benefiting all of humanity.

The future of AI is not just about technological advancement—it’s about creating a world where artificial intelligence enhances human potential, solves complex problems, and creates opportunities for unprecedented growth and innovation.

About This Analysis

Author: AI Quest Research Team

Publication Date: October 13, 2025

Category: AI Technology Analysis, OpenAI, DevDay 2025

Sources: openai.com/devday | YouTube Keynote

Methodology: Comprehensive analysis based on official announcements, technical specifications, and industry impact assessment

#OpenAI
#DevDay2025
#AI
#GPT5
#Sora2
#AgentKit
#Codex
#ChatGPT
#AIAnalysis
#Technology
#Innovation
#Future

 

Best-of-∞: Hiệu Suất Tiệm Cận của Tính Toán Thời Gian Thử Nghiệm

Nghiên cứu đột phá về phương pháp tối ưu hóa hiệu suất LLM với Adaptive Generation và Weighted Ensemble

📝 Tóm Tắt

Chúng tôi nghiên cứu phương pháp Best-of-N cho các mô hình ngôn ngữ lớn (LLMs) với việc lựa chọn dựa trên bỏ phiếu đa số.
Đặc biệt, chúng tôi phân tích giới hạn khi N tiến đến vô cùng, mà chúng tôi gọi là Best-of-∞.
Mặc dù phương pháp này đạt được hiệu suất ấn tượng trong giới hạn, nó đòi hỏi thời gian tính toán vô hạn.
Để giải quyết vấn đề này, chúng tôi đề xuất một sơ đồ sinh câu trả lời thích ứng chọn số lượng N dựa trên sự đồng thuận của câu trả lời,
từ đó phân bổ hiệu quả tài nguyên tính toán. Ngoài tính thích ứng, chúng tôi mở rộng khung làm việc đến các
tổ hợp có trọng số của nhiều LLMs, cho thấy rằng các hỗn hợp như vậy có thể vượt trội hơn bất kỳ mô hình đơn lẻ nào.
Trọng số tổ hợp tối ưu được xây dựng và tính toán hiệu quả như một bài toán lập trình tuyến tính hỗn hợp nguyên.

🚀 Giới Thiệu

Trong những năm gần đây, chúng ta đã chứng kiến những tiến bộ đáng kể trong lĩnh vực Large Language Models (LLMs),
từ các mô hình đóng như Gemini, GPT, Claude đến các mô hình mã nguồn mở như Llama, DeepSeek, Qwen.
Một trong những mối quan tâm lớn nhất trong lĩnh vực LLMs là khả năng thực hiện các nhiệm vụ suy luận phức tạp.

Việc sử dụng nhiều tài nguyên tính toán hơn tại thời điểm kiểm tra, đặc biệt bằng cách tạo ra nhiều câu trả lời,
dẫn đến suy luận đáng tin cậy hơn. Một chiến lược đơn giản nhưng hiệu quả là phương pháp Best-of-N (BoN),
nơi chúng ta tạo ra N câu trả lời và chọn câu trả lời tốt nhất dựa trên một số tiêu chí.

Hình 1: Độ chính xác của Best-of-N với bỏ phiếu đa số theo hàm của N (GPT-OSS-20B) với bốn datasets.
Đường màu xanh lá chỉ ra độ chính xác tiệm cận của N→∞.

Có nhiều cách để triển khai chiến lược BoN. Một cách tiếp cận phổ biến là sử dụng reward model để chọn câu trả lời tốt nhất
hoặc yêu cầu LLM chọn câu trả lời ưa thích. Một cách tiếp cận khác là bỏ phiếu đa số trong đó câu trả lời xuất hiện
thường xuyên nhất được chọn.

Mặc dù đơn giản, bỏ phiếu đa số có nhiều ưu điểm. Đầu tiên, nó không yêu cầu mô hình hóa bổ sung hoặc tạo văn bản thêm.
Thứ hai, so với các phương pháp khác, bỏ phiếu đa số có khả năng chống lại reward hacking và hưởng lợi từ việc tạo thêm với rủi ro tối thiểu,
không giống như các mô hình dựa trên reward nơi việc tăng N có thể dẫn đến overfitting.

Minh họa adaptive sampling

Hình 2: Minh họa adaptive sampling (Algorithm 1). Histogram cho thấy phân phối các câu trả lời được tạo bởi LLM cho một bài toán đơn lẻ.
Màu xanh dương chỉ ra câu trả lời xuất hiện nhiều nhất, màu cam chỉ ra các câu trả lời khác.

Mặc dù chúng ta mong muốn đạt được hiệu suất Best-of-N như vậy khi N→∞, mà chúng ta gọi là hiệu suất Best-of-∞,
nó đòi hỏi một số lượng vô hạn các thế hệ (mẫu), điều này không khả thi trong các tình huống thực tế.
Tuy nhiên, với cùng ngân sách thời gian kiểm tra, chúng ta có thể sử dụng ngân sách có sẵn hiệu quả hơn.
Như được thể hiện trong Hình 2, chúng ta có thể tạo mẫu một cách thích ứng cho đến khi chúng ta xác định được đa số với một mức độ tin cậy nào đó.

Sơ đồ của chúng tôi có thể được mở rộng tự nhiên đến các tổ hợp của nhiều LLMs. Quan trọng là, bỏ phiếu đa số tổ hợp có thể tự nhiên
hưởng lợi từ tính bổ sung. Ví dụ, trong dataset AIME2025, hiệu suất Best-of-∞ của GPT-OSS-20B và Nemotron-Nano-9B-v2 lần lượt là 90.0% và 73.0%,
nhưng tổ hợp của chúng đạt được 93.3%. Một LLM yếu có thể đóng góp vào tổ hợp nếu nó có điểm mạnh bổ sung.

♾️ Best-of-∞ trong Mẫu Hữu Hạn

Trong khi Best-of-∞ định nghĩa một tổ hợp Best-of-N lý tưởng trong giới hạn N→∞, việc thực hiện theo nghĩa đen sẽ đòi hỏi
tính toán thời gian kiểm tra không giới hạn. Bây giờ chúng tôi phát triển một quy trình mẫu hữu hạn theo dõi chặt chẽ giới hạn này.

Ý tưởng cốt lõi của chúng tôi là lấy mẫu thích ứng (tức là yêu cầu LLM tạo ra câu trả lời) cho đến khi chúng ta chắc chắn
về bỏ phiếu đa số dân số với mức độ tin cậy mong muốn. Nói cách khác, chúng ta nhằm mục đích kết thúc quá trình tạo câu trả lời
ngay khi có đủ bằng chứng thống kê để hỗ trợ kết luận rằng phản hồi hiện tại xuất hiện thường xuyên nhất tương ứng với đa số thực sự,
điều này cho phép số lượng N khác nhau trên các vấn đề.

Một thách thức đặc biệt của vấn đề này nằm ở thực tế là hỗ trợ của phân phối câu trả lời được tạo bởi các mô hình ngôn ngữ lớn (LLMs)
là không xác định. Ví dụ, trong một trường hợp, LLM có thể tạo ra hai câu trả lời ứng viên, chẳng hạn như 42 với xác suất 70% và 105 với xác suất 30%,
trong khi trong trường hợp khác, nó có thể tạo ra bốn đầu ra riêng biệt, chẳng hạn như 111 với xác suất 40%, 1 với xác suất 25%,
2 với xác suất 20%, và 702 với xác suất 15%.

Với sự không chắc chắn như vậy trong sự thay đổi của các phản hồi được tạo, một cách tiếp cận đặc biệt phù hợp là sử dụng
mô hình hóa Bayesian không tham số. Đặc biệt, chúng tôi áp dụng một quy trình Dirichlet DP(H,α) trước trên không gian câu trả lời
nắm bắt phân phối không xác định của các câu trả lời. Ở đây, H là phân phối cơ sở trên không gian câu trả lời, và α > 0 là tham số tập trung
kiểm soát khả năng tạo ra câu trả lời mới.

🔧 Algorithm 1: Approximated Best-of-∞

Input: Maximum samples N_max, concentration parameter α, Bayes factor threshold B
1: for n = 1, 2, … do
2:   if using LLM Ensemble then
3:     Choose LLM with probability {w_i}_{i∈𝒦}
4:   end if
5:   Generate answer using selected LLM
6:   if n ≥ N_max then
7:     return majority answer
8:   end if
9:   Compute Bayes factor B_n
10:   if B_n ≥ B then
11:     return majority answer
12:   end if
13: end for
14: return The most frequent answer

Chúng tôi sử dụng Bayes factor để đo lường bằng chứng của đa số thực sự. Chính thức, chúng tôi định nghĩa các giả thuyết như sau:

📊 Định Nghĩa Giả Thuyết

H₀: Câu trả lời xuất hiện thường xuyên nhất A₁ không phải là đa số thực sự.

H₁: Câu trả lời xuất hiện thường xuyên nhất A₁ là đa số thực sự.

Bayes Factor: BF = P(D(n)|H₁) / P(D(n)|H₀)

Khi n đủ lớn so với α, P(H₁|D(n)) của posterior DP có thể được xấp xỉ bằng phân phối Dirichlet.
Mặc dù số lượng này không dễ tính toán, nó có thể được ước tính bằng các phương pháp Monte Carlo bằng cách lấy mẫu từ phân phối Dirichlet.

🎯 Định Lý 1: Sự Hội Tụ

Nếu chúng ta đặt N_max và B đủ lớn, hiệu suất của thuật toán hội tụ đến hiệu suất Best-of-∞.
Điều này đảm bảo rằng phương pháp adaptive sampling của chúng ta có thể đạt được hiệu suất gần như tối ưu
với số lượng mẫu hữu hạn.

🤝 Tổ Hợp LLM

🎯 Best-of-One

Trong phần này, chúng tôi mở rộng khung làm việc Best-of-∞ đến các tổ hợp có trọng số của nhiều LLMs.
Giả sử chúng ta có K LLMs khác nhau, mỗi LLM có thể tạo ra các câu trả lời khác nhau cho cùng một câu hỏi.
Mục tiêu của chúng ta là tìm ra cách kết hợp các LLMs này để đạt được hiệu suất tối ưu.

♾️ Best-of-∞

Câu hỏi trung tâm của chúng ta là làm thế nào để chọn một vector trọng số w tối đa hóa độ chính xác f(w).
Lemma sau đây ngụ ý độ khó của việc tối ưu hóa f(w).

📝 Lemma 2: Non-concavity

f(w) là một hàm không lồi trên không gian simplex của w. Điều này có nghĩa là các phương pháp dựa trên gradient
sẽ không thể tìm ra giải pháp tối ưu toàn cục.

Visualization của non-concave objective function

Hình 3: Visualization của hàm mục tiêu không lồi f(w) trên weight simplex w.
Simplex màu vàng tương ứng với w trong simplex của các trọng số của ba LLMs.

Mặc dù non-concavity ngụ ý tính tối ưu dưới của các phương pháp dựa trên gradient, một cách tiếp cận tối ưu hóa tổ hợp
có thể được áp dụng cho các trường hợp có quy mô điển hình. Điểm mấu chốt trong việc tối ưu hóa f(w) là tổng trong phương trình
nhận giá trị một trong một polytope.

📝 Lemma 3: Polytope Lemma

Cho {p^q_ij} là các phân phối tùy ý của các câu trả lời. Khi đó, tập hợp sau, ngụ ý rằng câu trả lời j là câu trả lời
xuất hiện thường xuyên nhất, là một polytope: {w ∈ Δ_K : Σ_i w_i p^q_ij > max_{j’≠j} Σ_i w_i p^q_ij’}

Lemma 3 nói rằng việc tối đa hóa số lượng câu trả lời đúng tương đương với việc tối đa hóa số lượng polytopes chứa w.
Bằng cách giới thiệu biến phụ y_q chỉ ra tính đúng đắn cho mỗi câu trả lời, điều này có thể được xây dựng như một
bài toán lập trình tuyến tính hỗn hợp nguyên (MILP).

📝 Lemma 4: MILP Formulation

Việc tối đa hóa f(w) tương đương với bài toán MILP sau:

max Σ_q y_q

s.t. w_i ≥ 0 ∀_i, Σ_i w_i = 1, A_q w ≥ -m(1-y_q) ∀q

trong đó A_q là ma trận kích thước ℝ^{|𝒜_q|×K}

⚖️ Max Margin Solutions

Như chúng tôi đã minh họa trong Hình 3, hàm mục tiêu f(w) có vùng liên tục của các giải pháp tối ưu.
Trong khi bất kỳ điểm nội thất nào trên vị trí này đều tối ưu trong Best-of-∞, hiệu suất hữu hạn-N của nó có thể thay đổi.
Trong bài báo này, chúng tôi áp dụng giải pháp “max margin”, tức là ở phần nội thất nhất của giải pháp.

Cụ thể, chúng tôi giới thiệu margin ξ > 0 và thay thế A_q w trong phương trình với A_q w – ξ.
Chúng tôi chọn supremum của margin ξ sao cho giá trị mục tiêu Σ_q y_q không giảm, và áp dụng giải pháp trên margin như vậy.

🧪 Thí Nghiệm

Phần này báo cáo kết quả thí nghiệm của chúng tôi. Chúng tôi xem xét các nhiệm vụ suy luận nặng trên các LLMs mã nguồn mở
mà chúng tôi có thể kiểm tra trong môi trường cục bộ của mình. Chúng tôi đặt siêu tham số α = 0.3 của Algorithm 1 cho tất cả các thí nghiệm.

Để giải MILPs, chúng tôi sử dụng highspy, một giao diện Python mã nguồn mở cho bộ tối ưu hóa HiGHS,
cung cấp các solver tiên tiến cho LP, MIP và MILP quy mô lớn. Chúng tôi áp dụng giải pháp max-margin được mô tả trong Phần 3.2.
Trừ khi được chỉ định khác, tất cả kết quả được ước tính từ 100 lần chạy độc lập. Bayes factor được tính toán với 1,000 mẫu Monte Carlo từ posterior.

📊 LLMs và Datasets Được Test

Chúng tôi đánh giá các LLMs mã nguồn mở (≤ 32B tham số) trên bốn benchmark suy luận. Chúng tôi sử dụng các bộ vấn đề sau:
AIME2024, AIME2025, GPQA-DIAMOND (Graduate-Level Google-Proof Q&A Benchmark), và MATH500.
Các datasets này là các nhiệm vụ suy luận toán học và khoa học đầy thách thức.

📈 Large-scale Generation Dataset

Chúng tôi tạo ra một tập hợp các câu trả lời ứng viên bằng cách truy vấn LLM với câu lệnh vấn đề.
Cho mỗi cặp (LLM, vấn đề), chúng tôi tạo ra ít nhất 80 câu trả lời—một bậc độ lớn lớn hơn 8 thế hệ điển hình
được báo cáo trong hầu hết các báo cáo kỹ thuật LLM. Chúng tôi tin rằng độ khó của các vấn đề cũng như quy mô
của các token được tạo ra đáng kể lớn hơn công việc hiện có về tính toán thời gian kiểm tra.

📊 Thống Kê Dataset

LLM # Files Total Tokens File Size (MB)
AM-Thinking-v1 4,800 79,438,111 185.95
Datarus-R1-14B-preview 4,800 49,968,613 127.03
EXAONE-Deep-32B 60,640 478,575,594 1,372.35
GPT-OSS-20B 68,605 244,985,253 98.59
LIMO-v2 6,095 77,460,567 219.45
MetaStone-S1-32B 4,800 79,438,111 185.95
NVIDIA-Nemotron-Nano-9B-v2 4,800 79,438,111 185.95
Phi-4-reasoning 4,800 79,438,111 185.95
Qwen3-4B 4,800 79,438,111 185.95
Qwen3-14B 4,800 79,438,111 185.95
Qwen3-30B-A3B-Thinking-2507 4,800 79,438,111 185.95

📊 Kết Quả Thí Nghiệm

🎯 Experimental Set 1: Hiệu Quả của Adaptive Sampling

Trong thí nghiệm đầu tiên, chúng tôi so sánh hiệu quả của phương pháp adaptive sampling với phương pháp fixed BoN.
Kết quả cho thấy rằng Algorithm 1 với kích thước mẫu trung bình N̄=3 đạt được độ chính xác tương tự như fixed sample của N=10,
cho thấy hiệu quả đáng kể của adaptive sampling.

🤝 Experimental Set 2: Ưu Thế của LLM Ensemble

Thí nghiệm thứ hai chứng minh ưu thế của tổ hợp LLM so với mô hình đơn lẻ. Chúng tôi kết hợp năm LLMs:
EXAONE-Deep-32B, MetaStone-S1-32B, Phi-4-reasoning, Qwen3-30B-A3B-Thinking, và GPT-OSS-20B trên GPQA-Diamond.
Trọng số được tối ưu hóa thành w=(0.0176,0.0346,0.2690,0.4145,0.2644). Tổ hợp LLM vượt trội hơn bất kỳ mô hình đơn lẻ nào với N≥5.

⚖️ Experimental Set 3: Học Trọng Số Tốt

Thí nghiệm thứ ba khám phá việc học trọng số tối ưu từ dữ liệu. Chúng tôi sử dụng số lượng mẫu khác nhau để xác định trọng số
và đo hiệu suất Best-of-∞ trên AIME2025. Kết quả cho thấy rằng chỉ cần một số lượng mẫu tương đối nhỏ là đủ để học được trọng số tốt.

🔄 Experimental Set 4: Transfer Learning của Trọng Số Tối Ưu

Thí nghiệm thứ tư khám phá khả năng transfer learning của trọng số được học từ một dataset sang dataset khác.
Kết quả cho thấy rằng trọng số được học từ một dataset có thể được áp dụng hiệu quả cho các dataset khác,
cho thấy tính tổng quát của phương pháp.

📊 Experimental Set 5: So Sánh với Các Phương Pháp Chọn Câu Trả Lời Khác

Thí nghiệm cuối cùng so sánh phương pháp của chúng tôi với các phương pháp chọn câu trả lời khác, bao gồm LLM-as-a-judge,
reward models, và self-certainty. Kết quả cho thấy Majority Voting đạt hiệu suất cao thứ hai sau Omniscient,
vượt trội hơn các phương pháp khác.

📈 Kết Quả Hiệu Suất Chi Tiết

LLM AIME2024 AIME2025 GPQA-D MATH500
AM-Thinking-v1 0.867 0.867 0.707 0.950
EXAONE-Deep-32B 0.867 0.767 0.692 0.962
GPT-OSS-20B 0.900 0.900 0.722 0.960
MetaStone-S1-32B 0.867 0.800 0.707 0.950
NVIDIA-Nemotron-Nano-9B-v2 0.867 0.733 0.626 0.956
Phi-4-reasoning 0.867 0.833 0.727 0.944
Qwen3-30B-A3B-Thinking-2507 0.933 0.900 0.732 0.960

Method AIME2025 (%) Mô Tả
Omniscient 91.04 ± 1.32 Lý thuyết: luôn chọn đúng nếu có trong candidates
Majority Voting 85.42 ± 2.01 Chọn câu trả lời xuất hiện nhiều nhất
LLM-as-a-judge (tournament) 82.92 ± 2.57 So sánh từng cặp câu trả lời
LLM-as-a-judge (set) 81.25 ± 2.42 So sánh tất cả câu trả lời cùng lúc
INF-ORM-Llama3.1-70B 79.79 ± 2.54 Reward model đứng thứ 9 RewardBench
Skywork-Reward-V2-Llama-3.1-8B 79.79 ± 2.47 Reward model đứng thứ 1 RewardBench
Skywork-Reward-V2-Qwen3-8B 80.00 ± 2.51 Reward model đứng thứ 6 RewardBench
Self-certainty 75.83 ± 2.47 Chọn câu trả lời có confidence cao nhất
Random (≈ Bo1) 76.25 ± 2.71 Chọn ngẫu nhiên (baseline)

Kết quả cho thấy Majority Voting đạt hiệu suất cao thứ hai sau Omniscient,
vượt trội hơn các phương pháp dựa trên reward model và LLM-as-a-judge. Điều này chứng minh tính hiệu quả
của phương pháp đơn giản nhưng mạnh mẽ này.

🔍 Phát Hiện Chính

✅ Hiệu Quả Adaptive Sampling

Phương pháp adaptive sampling giảm đáng kể số lượng thế hệ cần thiết
trong khi vẫn duy trì hiệu suất cao. Algorithm 1 với N̄=3 đạt được
độ chính xác tương tự như fixed sample của N=10, cho thấy hiệu quả
tính toán đáng kể.

🤝 Ưu Thế Ensemble

Tổ hợp có trọng số của nhiều LLMs vượt trội hơn bất kỳ mô hình đơn lẻ nào,
đặc biệt khi có tính bổ sung. Ensemble đạt 93.3% so với 90.0% của mô hình tốt nhất,
chứng minh giá trị của việc kết hợp các mô hình.

⚖️ Tối Ưu Hóa Trọng Số

Việc tối ưu hóa trọng số ensemble được giải quyết hiệu quả
như một bài toán MILP, cho phép tìm ra trọng số tối ưu một cách có hệ thống.
Phương pháp max-margin đảm bảo tính ổn định cho các ứng dụng thực tế.

📊 Quy Mô Lớn

Thí nghiệm với 11 LLMs và 4 datasets, tổng cộng hơn 3,500 thế hệ
cho mỗi kết hợp LLM–dataset, đại diện cho quy mô lớn nhất trong nghiên cứu hiện tại.
Dataset này sẽ được phát hành cho nghiên cứu tiếp theo.

💡 Insights Quan Trọng

  • Bayes Factor hiệu quả: Phương pháp Bayes Factor cho phép dừng adaptive sampling một cách thông minh,
    tiết kiệm tài nguyên tính toán đáng kể.
  • Tính bổ sung của LLMs: Các LLMs yếu có thể đóng góp tích cực vào ensemble nếu chúng có điểm mạnh bổ sung.
  • Transfer learning: Trọng số được học từ một dataset có thể được áp dụng hiệu quả cho các dataset khác.
  • Robustness: Majority voting robust hơn các phương pháp dựa trên reward model và ít bị ảnh hưởng bởi reward hacking.

🎯 Kết Luận

Trong bài báo này, chúng tôi xem chiến lược Best-of-N với bỏ phiếu đa số như việc lấy mẫu từ
phân phối câu trả lời cơ bản, với hiệu suất Best-of-∞ được định nghĩa tự nhiên.
Để xấp xỉ giới hạn này với một số lượng hữu hạn các mẫu, chúng tôi giới thiệu một phương pháp lấy mẫu thích ứng dựa trên Bayes Factor.

Chúng tôi cũng nghiên cứu vấn đề tổng hợp phản hồi từ nhiều LLMs và đề xuất một bỏ phiếu đa số
tận dụng hiệu quả điểm mạnh của các mô hình cá nhân. Hiệu suất Best-of-∞ có ưu thế vì trọng số của
tổ hợp LLM có thể được tối ưu hóa bằng cách giải một bài toán lập trình tuyến tính hỗn hợp nguyên.

Các thí nghiệm rộng rãi của chúng tôi chứng minh hiệu quả của phương pháp được đề xuất.
Chúng tôi đã thử nghiệm với 11 LLMs được điều chỉnh theo hướng dẫn và bốn bộ vấn đề suy luận nặng,
với ít nhất 80 thế hệ cho mỗi kết hợp LLM–bộ vấn đề. Điều này đại diện cho quy mô lớn hơn đáng kể
của tính toán thời gian kiểm tra so với công việc trước đây.

🚀 Tác Động và Ý Nghĩa

Nghiên cứu này mở ra những khả năng mới trong việc tối ưu hóa hiệu suất LLM thông qua
adaptive generation và weighted ensemble, đặc biệt quan trọng cho các ứng dụng yêu cầu độ chính xác cao
như toán học, khoa học và suy luận phức tạp. Phương pháp này có thể được áp dụng rộng rãi
trong các hệ thống AI thực tế để cải thiện độ tin cậy và hiệu suất. Việc phát hành dataset
và source code sẽ thúc đẩy nghiên cứu tiếp theo trong lĩnh vực này.

⚠️ Hạn Chế và Hướng Phát Triển

Mặc dù có những kết quả tích cực, nghiên cứu này vẫn có một số hạn chế. Việc tối ưu hóa MILP có thể
trở nên khó khăn với số lượng LLMs rất lớn. Ngoài ra, phương pháp adaptive sampling dựa trên Bayes Factor
có thể cần điều chỉnh cho các loại nhiệm vụ khác nhau. Hướng phát triển tương lai bao gồm việc mở rộng
phương pháp cho các nhiệm vụ multimodal và khám phá các cách tiếp cận hiệu quả hơn cho việc tối ưu hóa ensemble.

🔧 Chi Tiết Kỹ Thuật

📈 Datasets Sử Dụng

  • AIME2024: American Invitational Mathematics Examination – 15 bài toán toán học khó
  • AIME2025: Phiên bản mới của AIME với độ khó tương tự
  • GPQA-DIAMOND: Graduate-level Physics Questions – 448 câu hỏi vật lý trình độ sau đại học
  • MATH500: Mathematical reasoning problems – 500 bài toán toán học từ MATH dataset

🤖 LLMs Được Test

  • GPT-OSS-20B (OpenAI) – 20B parameters
  • Phi-4-reasoning (Microsoft) – 14B parameters
  • Qwen3-30B-A3B-Thinking – 30B parameters
  • Nemotron-Nano-9B-v2 (NVIDIA) – 9B parameters
  • EXAONE-Deep-32B – 32B parameters
  • MetaStone-S1-32B – 32B parameters
  • Và 5 mô hình khác

💻 Source Code và Dataset

Source code của nghiên cứu này có sẵn tại:
https://github.com/jkomiyama/BoInf-code-publish

Dataset với hơn 3,500 thế hệ cho mỗi kết hợp LLM–dataset sẽ được phát hành để thúc đẩy nghiên cứu tiếp theo
trong lĩnh vực test-time computation và LLM ensemble.

⚙️ Hyperparameters và Cài Đặt

  • Concentration parameter α: 0.3 cho tất cả thí nghiệm
  • Bayes factor threshold B: Được điều chỉnh cho từng dataset
  • Maximum samples N_max: 100 cho adaptive sampling
  • Monte Carlo samples: 1,000 cho tính toán Bayes factor
  • Independent runs: 100 cho mỗi thí nghiệm

 

📋 Thông Tin Nghiên Cứu

🔬 Nghiên Cứu Gốc

Tiêu đề: Best-of-∞ – Asymptotic Performance of Test-Time Compute

Tác giả: Junpei Komiyama, Daisuke Oba, Masafumi Oyamada

Ngày xuất bản: 26 Sep 2025

Nguồn: arXiv:2509.21091

🎯 Đóng Góp Chính

  • Phân tích hiệu suất tiệm cận của Best-of-N
  • Đề xuất phương pháp Adaptive Generation
  • Tối ưu hóa Weighted Ensemble với MILP
  • Thí nghiệm với 11 LLMs và 4 datasets

💻 Source Code & Dataset

GitHub: BoInf-code-publish

Dataset: Hơn 3,500 thế hệ cho mỗi kết hợp LLM–dataset

📊 Quy Mô Nghiên Cứu

LLMs: 11 mô hình mã nguồn mở

Datasets: 4 benchmark suy luận

Generations: ≥80 lần sinh cho mỗi kết hợp

Blog được tạo từ nghiên cứu gốc với mục đích giáo dục và chia sẻ kiến thức về AI và Machine Learning.

Tất cả hình ảnh và dữ liệu được trích xuất từ bài báo nghiên cứu gốc.
Đây là một trong những nghiên cứu quy mô lớn nhất về test-time computation trong LLMs.

 

Hướng Dẫn Xây Dựng AI Agents (Tác Nhân AI) Hiệu Quả

Hướng Dẫn Xây Dựng AI Agents (Tác Nhân AI) Hiệu Quả

Xin chào, tôi là Thu Trang, đến từ công ty Scuti JSC!

Bạn có đang gặp khó khăn trong việc tự động hóa công việc?

Bạn đã bao giờ ước mình có một trợ lý ảo có thể tự động hóa mọi tác vụ, từ trả lời email, đặt lịch hẹn đến phân tích dữ liệu và hỗ trợ ra quyết định?

Với sự phát triển của trí tuệ nhân tạo (AI), điều này không còn là viễn cảnh xa vời. AI Agents (tác nhân AI) chính là công nghệ đứng sau những trợ lý thông minh, giúp nâng cao hiệu suất làm việc và tối ưu hóa quy trình vận hành trong nhiều lĩnh vực.

Tuy nhiên, xây dựng một AI Agent hiệu quả không phải chuyện đơn giản. Để có thể tự động hóa thực sự và thích nghi linh hoạt, AI Agent cần được thiết kế với kiến trúc phù hợp, tích hợp công nghệ tiên tiến và áp dụng các phương pháp huấn luyện hiện đại.

Trong bài viết này, chúng ta sẽ cùng khám phá tất tần tật về AI Agents, từ khái niệm cơ bản đến các kỹ thuật nâng cao để tạo ra một “trợ lý ảo” đắc lực nhé!

AI Agents: “Trợ Lý Ảo” Thông Minh Cho Mọi Tác Vụ

AI Agents: "Trợ Lý Ảo" Thông Minh Cho Mọi Tác Vụ

AI Agents là gì? Khác gì với Chatbot?

AI Agents, hay tác nhân AI, là các chương trình máy tính có khả năng tự động thực hiện các hành động dựa trên dữ liệu đầu vào và mục tiêu được xác định trước. Chúng có thể tương tác với môi trường, thu thập thông tin, đưa ra quyết định và thực hiện các tác vụ mà không cần sự can thiệp trực tiếp của con người.

Điểm khác biệt lớn nhất giữa AI Agent và chatbot truyền thống là khả năng *hành động*. Chatbot thường chỉ giới hạn trong việc trả lời các câu hỏi dựa trên kịch bản có sẵn. Trong khi đó, AI Agent có thể chủ động thực hiện các tác vụ (đặt lịch hẹn, gửi email, tìm kiếm thông tin, tương tác hệ thống) và “học” / “thích nghi” tốt hơn nhờ kỹ thuật học máy và NLP. Ví dụ: AI Agent có thể tự động trả lời email (theo nội dung/ngữ cảnh), lên lịch họp (dựa trên lịch trình), phân tích dữ liệu, hoặc tự động hóa quy trình. Chatbot thường dựa trên quy tắc, còn AI Agent học từ dữ liệu và cải thiện theo thời gian.

Các loại AI Agents

Phân loại theo khả năng, kiến trúc, số lượng:

  • Theo khả năng:
    • Autonomous Agents (Tác nhân tự trị): Hoạt động độc lập, tự quyết định và hành động (ví dụ: robot hút bụi – *suy luận* từ các nguồn).
    • Semi-autonomous Agents (Tác nhân bán tự trị): Cần can thiệp ở mức độ nào đó (ví dụ: hệ thống gợi ý – *suy luận*).
  • Theo kiến trúc:
    • Reactive Agents (Tác nhân phản ứng): Phản ứng trực tiếp với kích thích, nhanh nhưng không có khả năng lập kế hoạch.
    • Deliberative Agents (Tác nhân suy luận): Có khả năng lập kế hoạch, suy luận, chậm hơn nhưng linh hoạt.
    • Hybrid Agents (Tác nhân lai): Kết hợp phản ứng và suy luận.
  • Theo số lượng:
    • Single-agent Systems (Đơn tác nhân): Một AI Agent.
    • Multi-agent Systems (Đa tác nhân): Nhiều AI Agents tương tác, hợp tác.

Ví dụ về AI Agents

Ứng dụng:

  • Hỗ trợ khách hàng: Trả lời câu hỏi, giải quyết vấn đề, chuyển tiếp.
  • Tự động hóa quy trình: Xử lý đơn hàng, quản lý kho, theo dõi dự án.
  • Game: Tạo NPC thông minh.
  • Nghiên cứu: Phân tích dữ liệu, mô phỏng.
  • Marketing/bán hàng: Cá nhân hóa, gửi email, đề xuất.
  • Y tế: Hỗ trợ chẩn đoán, theo dõi, tư vấn.

Ví dụ về AI Agents

Lợi ích vượt trội của AI Agents

  • Tự động hóa: Giải phóng thời gian cho con người (ví dụ: trả lời email, xử lý đơn hàng).
  • Năng suất: Xử lý nhanh, chính xác, tăng năng suất (ví dụ: giảm thời gian xử lý từ 1 giờ xuống vài phút – *ước lượng*).
  • Trải nghiệm khách hàng: Hỗ trợ 24/7, giải quyết nhanh, tăng hài lòng.
  • Ra quyết định: Phân tích dữ liệu, hỗ trợ quyết định (ví dụ: đề xuất giá, sản phẩm, chiến lược).
  • Mở rộng: Dễ dàng mở rộng quy mô.

Các Bước Cơ Bản Để Xây Dựng AI Agents Hiệu Quả

Các Bước Cơ Bản Để Xây Dựng AI Agents Hiệu Quả

Xác định mục tiêu và phạm vi

Xác định rõ: AI Agent làm gì? Tương tác với ai? Hoạt động ở đâu? Giúp lựa chọn công nghệ, phương pháp. Ví dụ: Hỗ trợ khách hàng (giảm thời gian chờ, tăng tỷ lệ giải quyết, cải thiện hài lòng) trên website/app/mạng xã hội. Câu hỏi gợi ý:

  • Vấn đề gì?
  • Người dùng?
  • Nền tảng?
  • Dữ liệu?
  • Chỉ số đánh giá?

Lựa chọn nền tảng và công cụ

Nhiều nền tảng: mã nguồn mở (Botpress), đám mây (Google Vertex AI). Lựa chọn tùy mục tiêu, ngân sách, kỹ năng.

Các nền tảng mã nguồn mở

  • Botpress: Mã nguồn mở, giao diện trực quan, tích hợp nhiều kênh, quản lý hội thoại. *Tùy chỉnh cao*, tích hợp NLU engines khác, tạo module.
  • Rasa: Framework mã nguồn mở, tập trung NLU và quản lý hội thoại.

Các nền tảng đám mây

  • Google Vertex AI: Công cụ, dịch vụ học máy, tích hợp Google Cloud.
  • Amazon SageMaker: Tương tự Vertex AI, tích hợp AWS.
  • Microsoft Azure AI: Dịch vụ AI đa dạng, tích hợp hệ sinh thái Microsoft.

So sánh các nền tảng

Nền tảng Tính năng Chi phí Độ phức tạp
Botpress Giao diện trực quan, tích hợp, mã nguồn mở, tùy chỉnh Miễn phí/Có phí Thấp – Trung bình
Rasa Tập trung NLU, mã nguồn mở Miễn phí/Có phí Trung bình – Cao
Google Vertex AI Nhiều công cụ, tích hợp Google Cloud Trả phí Trung bình – Cao
Amazon SageMaker Tương tự Vertex AI, tích hợp AWS Trả phí Trung bình – Cao
Microsoft Azure AI Dịch vụ đa dạng, tích hợp Microsoft Trả phí Trung bình – Cao

Thiết kế luồng hội thoại và hành động

Định nghĩa cách AI Agent tương tác: kịch bản, câu hỏi/trả lời, hành động. Ví dụ (đặt lịch hẹn):

1. Người dùng:”Tôi muốn đặt lịch hẹn ngày mai.”
2. AI Agent: “Bạn muốn đặt mấy giờ?”
3. Người dùng: “Tôi muốn đặt 2 giờ chiều.”
4. AI Agent: “Bạn muốn đặt với ai?”
5. Người dùng: “Tôi muốn đặt với bác sĩ A.”
6. AI Agent: “Bạn hãy xác nhận: Bạn muốn đặt lịch hẹn với bác sĩ A, 2 giờ chiều mai đúng không?”
7. Người dùng: “Đúng”
8. AI Agent: “Đã xác nhận.”

Công cụ: Botpress Flow Editor.

Huấn luyện AI Agent

Huấn luyện để hiểu ngôn ngữ, nhận diện ý định, phản hồi. Dùng học máy và NLP (NLU, NLG).

  • NLU: Hiểu ý định (ví dụ: “đặt lịch hẹn”).
  • NLG: Tạo câu trả lời (“Bạn muốn đặt…”).

Phương pháp:

  • Supervised learning: Dữ liệu gán nhãn.
  • Unsupervised learning: Dữ liệu chưa gán nhãn.
  • Reinforcement learning: Thử và sai, thưởng/phạt.

Datasets: Chuẩn bị dữ liệu: câu hỏi/trả lời, kịch bản.

Kiểm thử và cải thiện

Kiểm thử để đảm bảo hoạt động đúng. Điều chỉnh, cải thiện.

Phương pháp:

  • A/B testing: So sánh hai phiên bản.
  • User testing: Thu thập phản hồi.

Metrics:

  • Accuracy: Tỷ lệ trả lời đúng.
  • Precision: Tỷ lệ đúng trong số trả lời AI cho là đúng.
  • Recall: Tỷ lệ đúng trong số lẽ ra phải đúng.
  • F1-score: 2 * (Precision * Recall) / (Precision + Recall)

Quy trình: Phân tích lỗi -> Điều chỉnh -> Huấn luyện lại -> Kiểm thử lại.

Các Kỹ Thuật Chuyên Sâu Giúp Nâng Cao Hiệu Quả AI Agents

Các Kỹ Thuật Chuyên Sâu Giúp Nâng Cao Hiệu Quả AI Agents

Sử dụng bộ nhớ và Reasoning

Trang bị khả năng ghi nhớ (memory) và suy luận (reasoning).

  • Bộ nhớ:
    • Short-term: Thông tin hiện tại.
    • Long-term: Thông tin trước đó, kiến thức.
  • Reasoning: Kết hợp thông tin, suy luận, quyết định.
  • Rule-based: Luật logic (ví dụ: trời mưa -> đường ướt).
  • Case-based: Trường hợp tương tự (ví dụ: gợi ý sản phẩm dựa trên lịch sử mua).
  • Model-based: Dựa trên mô hình.

Ví dụ: AI hỗ trợ khách hàng dùng bộ nhớ ngắn hạn (yêu cầu hiện tại) và dài hạn (giao dịch trước đó), reasoning để đưa giải pháp. (Tham khảo: `https://www.anthropic.com/research/building-effective-agents`)

Tích hợp với các hệ thống khác

Tích hợp: cơ sở dữ liệu, API, ứng dụng. Giúp truy cập thông tin, thực hiện tác vụ. Ví dụ: tích hợp CRM (thông tin khách hàng), email (gửi/nhận), ứng dụng (đặt lịch, mua hàng). Dùng API.

Quản lý Context và Routing

Quản lý ngữ cảnh (context): hiểu ý định, đưa phản hồi phù hợp. Routing: chuyển hướng đến đúng agent/hệ thống.

  • Context:
    • Context window:Lưu câu nói trước đó.
    • State management: Lưu trạng thái.
  • Routing:
    • Rule-based: Quy tắc (ví dụ: yêu cầu đặt hàng -> agent đặt hàng).
    • ML-based: Mô hình học máy.

Xử lý các tình huống ngoại lệ

Xử lý: yêu cầu không rõ ràng, lỗi hệ thống. Dùng kịch bản xử lý lỗi, fallback mechanism.

  • Không rõ ràng: Yêu cầu thêm thông tin, gợi ý.
  • Lỗi: Thông báo, đề xuất thử lại, chuyển hướng.
  • Không hiểu: “Xin lỗi, tôi không hiểu…”

Prompt Engineering cho AI Agents

Tối ưu hóa câu lệnh (prompt) cho LLM. Prompt tốt giúp AI Agent hiểu rõ, phản hồi chính xác.

Kỹ thuật:

  • Few-shot prompting: Cung cấp ví dụ.
  • Chain-of-Thought (CoT) prompting: Giải thích từng bước.
  • Zero-shot prompting: Yêu cầu trực tiếp (kém hiệu quả hơn).

Các Framework Phát Triển AI Agents Phổ Biến

Frameworks giúp đơn giản hóa:

  • LangChain: Mã nguồn mở, xây dựng ứng dụng LLM. Hỗ trợ kết nối dữ liệu, tích hợp công cụ, quản lý bộ nhớ. Cung cấp: “Chains”, “Agents”, “Tools”, “Memory”.
  • Chains: Chuỗi các lời gọi (LLMChain, SequentialChain, RouterChain).
  • Agents: Dùng LLM quyết định hành động (“zero-shot-react-description”, “react-docstore”, …).
  • Tools: Chức năng agent dùng (có thể tạo custom tools).
  • Memory: Ghi nhớ thông tin (`ConversationBufferMemory`, …).
  • LlamaIndex: Xây dựng ứng dụng LLM, truy vấn/tìm kiếm. Cung cấp: “Data Connectors”, “Index”, “Query Engine”, “Retrievers”.
    Data Connectors: Load từ PDF, web, databases.
  • Index: “ListIndex”, “VectorStoreIndex”, “TreeIndex”, “KeywordTableIndex” (ưu/nhược điểm riêng).
  • Query Engine: Truy vấn.
  • Retrievers.
  • Botpress: (Đã mô tả) Tùy chỉnh, tích hợp NLU engines khác.

Lập kế hoạch (Planning) cho AI Agent

Planning: xác định chuỗi hành động để đạt mục tiêu.

Phương pháp (gợi ý trong nguồn):

  • Hierarchical Planning: Chia nhỏ mục tiêu.
  • Case-based Planning: Dựa trên kinh nghiệm.

Sử dụng công cụ (Tool Use)

Dùng công cụ ngoài (qua API) để mở rộng khả năng:

  • Tìm kiếm: Tìm trên web.
  • Tính toán: Phép tính phức tạp.
  • Dịch thuật: Dịch văn bản.
  • API khác.

Giúp vượt qua giới hạn của mô hình.

Multi-agent Systems (Hệ thống đa tác nhân)

Nhiều AI agents tương tác, hợp tác. Khái niệm: cooperation, coordination, negotiation, communication protocols. (Không có ví dụ cụ thể trong nguồn).

Đánh giá hiệu suất AI Agent

(Đã mô tả). Phương pháp/metric: Accuracy, Precision, Recall, F1-score. Công thức: F1 = 2 * (P * R) / (P + R)

Tương Lai Của AI Agents

Tương Lai Của AI Agents

Ứng dụng trong nhiều lĩnh vực

AI Agents đang ngày càng trở thành một phần quan trọng trong sự tiến bộ của công nghệ. Với sự phát triển mạnh mẽ của trí tuệ nhân tạo, AI Agents không chỉ đóng vai trò hỗ trợ mà còn ngày càng trở nên thông minh và có thể tự động hóa nhiều quy trình phức tạp. Trong tương lai, AI Agents sẽ không chỉ thực hiện các tác vụ đơn giản mà còn tham gia vào những công việc đòi hỏi sự sáng tạo và tư duy chiến lược, mang lại hiệu quả và tốc độ vượt trội cho các doanh nghiệp và tổ chức.

AI Agents hiện nay đang được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau, từ chăm sóc khách hàng, y tế, giáo dục đến tài chính và sản xuất. Với khả năng phân tích dữ liệu và tự động hóa quy trình, AI Agents không chỉ giúp tiết kiệm thời gian mà còn nâng cao chất lượng dịch vụ, tạo ra những trải nghiệm cá nhân hóa cho người dùng. Ví dụ, trong ngành y tế, AI Agents có thể hỗ trợ các bác sĩ trong việc chẩn đoán bệnh và đưa ra phương án điều trị hiệu quả, còn trong ngành tài chính, chúng giúp phân tích xu hướng thị trường và đưa ra các dự báo tài chính chính xác.

Sự phát triển của AI Agents

AI Agents không ngừng phát triển và ngày càng trở nên thông minh hơn. Sự cải thiện trong các mô hình học máy và học sâu đã giúp AI có thể tự học và thích nghi với những tình huống mới mà không cần sự can thiệp của con người. Hệ thống AI hiện nay có thể xử lý các nhiệm vụ phức tạp, nhận diện các mẫu dữ liệu, và đưa ra quyết định dựa trên các thông tin thu thập được. Nhờ vào khả năng tự động hóa và tối ưu hóa các quy trình, AI Agents không chỉ giúp tiết kiệm chi phí mà còn mang lại hiệu quả vượt trội cho các tổ chức trong việc triển khai các chiến lược kinh doanh.

Trong tương lai gần, AI Agents sẽ trở nên mạnh mẽ và thông minh hơn bao giờ hết. Những tiến bộ trong lĩnh vực học sâu (Deep Learning) và mạng nơ-ron sẽ giúp các AI Agents có khả năng hiểu và phân tích các tình huống phức tạp với mức độ chính xác cao hơn. Một trong những đặc điểm nổi bật của AI Agents là khả năng tự học và thích nghi. Thay vì chỉ làm theo những gì đã được lập trình trước, AI Agents sẽ có thể tự rút ra bài học từ những tình huống trước đó và áp dụng vào các tình huống mới, giúp nâng cao hiệu quả công việc và hỗ trợ con người trong việc ra quyết định.

AI Agent và con người

Một trong những câu hỏi lớn về AI Agents là mối quan hệ giữa chúng và con người. Thay vì thay thế con người, AI Agents sẽ đóng vai trò hỗ trợ và hợp tác với con người, giúp nâng cao khả năng làm việc và tối ưu hóa các quy trình. AI không phải là sự thay thế cho công việc của con người mà là công cụ hỗ trợ đắc lực, giúp con người tập trung vào những nhiệm vụ đòi hỏi sự sáng tạo và tư duy chiến lược. Cùng nhau, con người và AI Agents sẽ tạo nên một đội ngũ mạnh mẽ, góp phần thúc đẩy sự phát triển của xã hội và nền kinh tế.

Google Agentspace: Nền Tảng AI Cho Doanh Nghiệp 2025

Ai

Bạn có bao giờ cảm thấy “ngập lụt” trong hàng tá công cụ, email, tài liệu chỉ để tìm một thông tin cần thiết cho công việc? Bạn ước có một “trợ lý ảo” thông minh giúp bạn xử lý các tác vụ lặp đi lặp lại, tìm kiếm thông tin nhanh chóng và thậm chí là tự động hóa quy trình làm việc? Nếu câu trả lời là “Có”, thì Google Agentspace chính là giải pháp dành cho bạn. Google Agentspace là một nền tảng AI mới của Google, kết hợp sức mạnh của mô hình ngôn ngữ Gemini, công cụ tìm kiếm hàng đầu của Google và dữ liệu doanh nghiệp của bạn.

Nó giúp nhân viên làm việc hiệu quả hơn bằng cách cung cấp các “trợ lý AI” (AI agents) có khả năng lập kế hoạch, nghiên cứu, tạo nội dung và thực hiện hành động – tất cả chỉ với một câu lệnh. Trong bài viết này, chúng ta sẽ cùng khám phá chi tiết về Google Agentspace, cách nó hoạt động và những lợi ích mà nó mang lại cho doanh nghiệp.

Google Agentspace là gì? Giới thiệu tổng quan

Khái niệm cơ bản về Google Agentspace

Google Agentspace là một nền tảng AI được thiết kế để giúp các doanh nghiệp khai thác tối đa sức mạnh của trí tuệ nhân tạo. Nó không chỉ là một công cụ tìm kiếm thông thường, mà còn là một không gian làm việc thông minh, nơi các “trợ lý AI” (AI agents) có thể hỗ trợ nhân viên thực hiện các công việc phức tạp. Điều này giúp giải phóng nhân viên khỏi các tác vụ tẻ nhạt, cho phép họ tập trung vào những công việc đòi hỏi tư duy sáng tạo và ra quyết định.

Google Agentspace kết hợp Gemini’s advanced reasoning, Google-quality search, và enterprise data, regardless of where it’s hosted. Google Agentspace làm cho nhân viên của bạn làm việc hiệu quả bằng cách giúp họ hoàn thành các công việc phức tạp đòi hỏi lập kế hoạch, nghiên cứu, tạo nội dung và hành động – tất cả chỉ với một câu lệnh duy nhất. Nền tảng này không chỉ dừng lại ở việc tìm kiếm thông tin mà còn mở ra khả năng tự động hóa quy trình, tạo ra các agent chuyên biệt cho từng phòng ban, và tương tác với dữ liệu một cách trực quan hơn.

https://storage.googleapis.com/gweb-cloudblog-publish/images/google_agentspace.max-2500x2500.jpg

Nguồn: https://cloud.google.com/blog/products/ai-machine-learning/bringing-ai-agents-to-enterprises-with-google-agentspace

Sự khác biệt của Google Agentspace

Điểm khác biệt lớn nhất của Google Agentspace so với các công cụ AI khác là khả năng kết hợp ba yếu tố quan trọng:

  • Sức mạnh của Gemini: Mô hình ngôn ngữ tiên tiến Gemini của Google cung cấp khả năng suy luận và xử lý ngôn ngữ tự nhiên vượt trội. Gemini 2.0 Flash, phiên bản mới, còn được tích hợp trong NotebookLM, mang lại hiệu suất cao hơn nữa.
  • Chất lượng tìm kiếm của Google: Khả năng tìm kiếm thông tin chính xác và nhanh chóng đã làm nên tên tuổi của Google. Agentspace tận dụng tối đa lợi thế này, cho phép truy cập thông tin từ nhiều nguồn khác nhau trong doanh nghiệp.
  • Dữ liệu doanh nghiệp: Agentspace kết nối với dữ liệu của doanh nghiệp, bất kể nó được lưu trữ ở đâu (Google Drive, SharePoint, Confluence, Jira, ServiceNow, v.v.). Điều này có nghĩa là Agentspace có thể truy cập và xử lý thông tin từ các nguồn dữ liệu khác nhau, bao gồm cả dữ liệu có cấu trúc (như bảng tính và cơ sở dữ liệu) và dữ liệu phi cấu trúc (như tài liệu và email).

Sự kết hợp này tạo ra một nền tảng AI mạnh mẽ, có thể hiểu và xử lý thông tin trong ngữ cảnh cụ thể của doanh nghiệp, vượt trội hơn hẳn so với các giải pháp chỉ tập trung vào một khía cạnh như chatbot hay công cụ tìm kiếm thông thường.

Các tính năng chính của Google Agentspace

NotebookLM Plus: Tương tác dữ liệu thông minh

NotebookLM Plus là một phiên bản nâng cấp của NotebookLM, được thiết kế đặc biệt cho doanh nghiệp. Nó cho phép nhân viên:

  • Tải lên các tài liệu phức tạp: Các tài liệu như báo cáo tài chính, tài liệu kỹ thuật, hoặc nghiên cứu thị trường có thể được tải lên để phân tích.
  • Tổng hợp thông tin và trích xuất các ý chính: NotebookLM Plus có thể nhanh chóng tóm tắt nội dung của các tài liệu dài, giúp tiết kiệm thời gian đọc và tìm kiếm thông tin.
  • Khám phá các insight ẩn giấu trong dữ liệu: Bằng cách sử dụng AI, NotebookLM Plus có thể phát hiện ra các xu hướng, mối quan hệ và thông tin quan trọng mà con người có thể bỏ qua.
  • Tương tác với dữ liệu theo những cách mới, chẳng hạn như tạo bản tóm tắt âm thanh giống như podcast: Tính năng này giúp người dùng dễ dàng tiếp thu thông tin, đặc biệt là khi đang di chuyển hoặc không có thời gian đọc.

NotebookLM Plus sử dụng Gemini 2.0 Flash, phiên bản mới nhất của mô hình ngôn ngữ Gemini, để cung cấp khả năng xử lý ngôn ngữ tự nhiên mạnh mẽ. Nó cung cấp trải nghiệm tương tự như phiên bản NotebookLM dành cho người dùng cá nhân, nhưng được tăng cường với các tính năng bảo mật và quyền riêng tư dành cho doanh nghiệp.

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/1_FINAL_nblm.gif

Nguồn: https://cloud.google.com/blog/products/ai-machine-learning/bringing-ai-agents-to-enterprises-with-google-agentspace

Ví dụ, một nhà phân tích có thể tải lên báo cáo kết quả kinh doanh quý 3 của công ty và yêu cầu NotebookLM Plus tạo một bản tóm tắt âm thanh, hoặc xác định các yếu tố chính ảnh hưởng đến doanh thu.

Tìm kiếm AI toàn doanh nghiệp

Google Agentspace cung cấp một công cụ tìm kiếm đa phương thức, được tùy chỉnh cho doanh nghiệp. Công cụ này hoạt động như một “nguồn thông tin đáng tin cậy” duy nhất cho toàn bộ tổ chức. Nó có thể:

  • Hỗ trợ hội thoại: Nhân viên có thể đặt câu hỏi bằng ngôn ngữ tự nhiên và nhận được câu trả lời chính xác. Thay vì phải sử dụng các từ khóa cụ thể, người dùng có thể đặt câu hỏi như đang nói chuyện với một đồng nghiệp.
  • Trả lời các câu hỏi phức tạp: Agentspace có thể xử lý các câu hỏi đòi hỏi suy luận và kết hợp thông tin từ nhiều nguồn. Ví dụ, nó có thể trả lời các câu hỏi như “Doanh số bán hàng của sản phẩm X ở khu vực Y thay đổi như thế nào trong quý vừa qua so với cùng kỳ năm ngoái?”.
  • Đề xuất chủ động: Công cụ tìm kiếm có thể đưa ra các gợi ý hữu ích dựa trên ngữ cảnh của câu hỏi. Ví dụ, nếu một người dùng đang tìm kiếm thông tin về một dự án cụ thể, công cụ tìm kiếm có thể đề xuất các tài liệu liên quan, các cuộc họp sắp tới, hoặc các thành viên trong nhóm dự án.
  • Thực hiện hành động: Agentspace có thể thực hiện các hành động dựa trên thông tin tìm thấy, chẳng hạn như gửi email tóm tắt. Ví dụ, người dùng có thể yêu cầu Agentspace “Tìm các ticket Jira liên quan đến lỗi X và gửi email tóm tắt cho quản lý”.
  • Hỗ trợ đa ngôn ngữ: Agentspace có thể hiểu và trả lời các câu hỏi bằng nhiều ngôn ngữ khác nhau, giúp các doanh nghiệp có hoạt động quốc tế dễ dàng truy cập thông tin.

Công cụ tìm kiếm này có thể truy cập cả dữ liệu có cấu trúc (bảng biểu, cơ sở dữ liệu) và dữ liệu phi cấu trúc (tài liệu, email). Nó cũng tích hợp với các ứng dụng bên thứ ba phổ biến như Confluence, Google Drive, Jira, Microsoft SharePoint và ServiceNow. Việc tích hợp này giúp người dùng không cần phải chuyển đổi giữa các ứng dụng khác nhau để tìm kiếm thông tin.

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/2_FINAL_search_and_email.gif

Nguồn: https://cloud.google.com/blog/products/ai-machine-learning/bringing-ai-agents-to-enterprises-with-google-agentspace

Ví dụ, một nhân viên có thể yêu cầu Agentspace “Tìm các ticket Jira liên quan đến lỗi X và gửi email tóm tắt cho quản lý”.

Các AI Agents chuyên biệt

Google Agentspace là nơi khởi đầu cho các AI agents tùy chỉnh, được thiết kế để tự động hóa các chức năng kinh doanh cụ thể. Các agents này có thể được sử dụng trong nhiều bộ phận khác nhau, chẳng hạn như:

  • Marketing: Nghiên cứu thị trường (phân tích xu hướng, đối thủ cạnh tranh), tạo nội dung (viết bài blog, email marketing, nội dung mạng xã hội), phân tích hiệu suất chiến dịch (đo lường ROI, xác định các kênh hiệu quả).
  • Tài chính: Phân tích báo cáo tài chính (xác định các rủi ro, cơ hội), quản lý báo cáo chi phí (tự động phân loại chi phí, phát hiện gian lận), dự báo tài chính.
  • Pháp lý: Tóm tắt tài liệu pháp lý (trích xuất các điều khoản quan trọng, xác định các rủi ro pháp lý), tự động hóa quy trình (soạn thảo hợp đồng, theo dõi tiến độ vụ việc).
  • Kỹ thuật: Tìm kiếm lỗi code (phân tích code, đề xuất sửa lỗi), tạo tài liệu kỹ thuật (tự động tạo tài liệu hướng dẫn sử dụng, tài liệu API), hỗ trợ phát triển phần mềm.
  • Nhân sự: Hỗ trợ quá trình tuyển dụng (sàng lọc hồ sơ, lên lịch phỏng vấn), giải đáp thắc mắc của nhân viên (cung cấp thông tin về chính sách, phúc lợi), quản lý hiệu suất.

Về mặt kỹ thuật, các agents này được xây dựng dựa trên nền tảng mô hình ngôn ngữ lớn (LLM) của Google, kết hợp với các kỹ thuật như fine-tuning (tinh chỉnh) trên dữ liệu cụ thể của doanh nghiệp và prompt engineering (kỹ thuật tạo câu lệnh) để đạt được hiệu suất tối ưu trong các tác vụ chuyên biệt. Trong tương lai, Google Agentspace sẽ cung cấp một công cụ trực quan, ít code (low-code) để nhân viên có thể tự xây dựng và điều chỉnh các AI agents của riêng mình. Điều này có nghĩa là người dùng không cần phải có kiến thức chuyên sâu về lập trình để tạo ra các agent phục vụ cho nhu cầu cụ thể của họ.

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/3_FINAL_agent_expense.gif

Nguồn: https://cloud.google.com/blog/products/ai-machine-learning/bringing-ai-agents-to-enterprises-with-google-agentspace

Ví dụ, một nhân viên tài chính có thể sử dụng một AI agent để tự động xử lý các báo cáo chi phí.

Lợi ích và ứng dụng thực tế của Google Agentspace

Tăng năng suất và hiệu quả

Bằng cách tự động hóa các tác vụ lặp đi lặp lại và cung cấp thông tin nhanh chóng, chính xác, Google Agentspace giúp nhân viên làm việc hiệu quả hơn. Các nghiên cứu cho thấy nhân viên thường phải sử dụng 4-6 công cụ khác nhau chỉ để trả lời một câu hỏi. Agentspace giải quyết vấn đề này bằng cách cung cấp một điểm truy cập duy nhất cho tất cả thông tin, giúp tiết kiệm thời gian và công sức. Nhân viên không còn phải mất thời gian tìm kiếm thông tin trên nhiều nền tảng khác nhau, mà có thể tập trung vào những công việc quan trọng hơn.

Cải thiện khả năng ra quyết định

Với khả năng phân tích dữ liệu và cung cấp insight, Agentspace giúp các nhà quản lý và nhân viên đưa ra quyết định sáng suốt hơn. Ví dụ, một nhà quản lý có thể sử dụng Agentspace để phân tích dữ liệu bán hàng và xác định các xu hướng, từ đó đưa ra các quyết định về chiến lược sản phẩm hoặc giá cả. Hoặc một nhân viên hỗ trợ khách hàng có thể sử dụng Agentspace để nhanh chóng tìm kiếm thông tin về sản phẩm hoặc dịch vụ, giúp giải quyết vấn đề của khách hàng nhanh chóng và hiệu quả hơn.

Thúc đẩy đổi mới

Bằng cách giải phóng nhân viên khỏi các công việc tẻ nhạt, Agentspace cho phép họ tập trung vào những công việc đòi hỏi tư duy sáng tạo và đổi mới. Khi nhân viên không còn phải mất thời gian cho các tác vụ lặp đi lặp lại, họ có thể dành nhiều thời gian hơn để suy nghĩ về các ý tưởng mới, phát triển các sản phẩm hoặc dịch vụ mới, hoặc cải tiến các quy trình hiện có.

Ứng dụng trong các ngành khác nhau

Google Agentspace có thể được áp dụng trong nhiều ngành khác nhau, từ tài chính, ngân hàng đến bán lẻ, sản xuất và chăm sóc sức khỏe. Một số ví dụ cụ thể:

  • Deloitte: Sử dụng Agentspace để hợp nhất thông tin từ nhiều nguồn khác nhau, giúp các chuyên gia tư vấn tìm kiếm thông tin nhanh chóng và đưa ra giải pháp cho khách hàng. Việc này giúp Deloitte tăng tốc độ cung cấp dịch vụ và nâng cao chất lượng tư vấn.
  • Nokia: Sử dụng Agentspace để kết nối các nhóm làm việc và giúp họ truy cập thông tin quan trọng một cách dễ dàng. Điều này cải thiện sự cộng tác và trao đổi thông tin giữa các bộ phận, giúp Nokia đưa ra quyết định nhanh hơn và hiệu quả hơn.
  • Decathlon: Sử dụng Agentspace để hỗ trợ các nhà thiết kế sản phẩm, nhà tiếp thị và nhà nghiên cứu đưa ra quyết định nhanh chóng và sáng tạo hơn. Nhờ đó, Decathlon có thể rút ngắn thời gian phát triển sản phẩm và đáp ứng nhu cầu của khách hàng tốt hơn.
  • Banco BV: Sử dụng Google Agentspace để tìm kiếm, hỗ trợ, thực hiện các tác vụ trên hệ thống một cách an toàn.
  • Onix: Đang giúp các khách hàng của mình triển khai Google Agentspace.
  • Quantiphi: Đang hợp tác với Google Cloud để mang Google Agentspace đến với khách hàng.
  • FairPrice: Đang xây dựng một nền tảng nghiên cứu và hỗ trợ trên toàn tổ chức với Google Agentspace.

Ngoài ra, các công ty trong lĩnh vực *chăm sóc sức khỏe* có thể sử dụng Agentspace để cải thiện chẩn đoán và điều trị bệnh, *sản xuất* có thể tối ưu hóa quy trình sản xuất và quản lý chuỗi cung ứng, *bán lẻ* có thể cá nhân hóa trải nghiệm khách hàng và *giáo dục* có thể tạo ra các công cụ học tập tương tác.

Bảo mật và quyền riêng tư

Google Agentspace được xây dựng trên nền tảng Google Cloud, đảm bảo tính bảo mật và tuân thủ các quy định về quyền riêng tư dữ liệu. Nó cung cấp các tính năng kiểm soát truy cập chi tiết, tích hợp với các hệ thống quản lý danh tính và truy cập (IAM) hiện có. Google Cloud’s secure by design infrastructure, VPC service controls, and IAM integration đảm bảo dữ liệu của doanh nghiệp luôn được bảo vệ.

Cách truy cập và sử dụng Google Agentspace

Hiện tại, Google Agentspace đang trong giai đoạn thử nghiệm sớm (early access). Các doanh nghiệp quan tâm có thể đăng ký tham gia chương trình thử nghiệm trên trang web của Google Cloud. Để đăng ký, doanh nghiệp cần cung cấp thông tin liên hệ và mô tả về nhu cầu sử dụng Agentspace. Sau khi đăng ký, Google Cloud sẽ liên hệ với doanh nghiệp để cung cấp thêm thông tin và hướng dẫn.

Tương lai của Google Agentspace

Google có kế hoạch tiếp tục phát triển và mở rộng Agentspace trong tương lai. Một trong những tính năng được mong đợi là khả năng cho phép nhân viên tự tạo và tùy chỉnh các AI agents bằng một công cụ trực quan, ít code (low-code). Điều này sẽ giúp các doanh nghiệp dễ dàng tạo ra các giải pháp AI phù hợp với nhu cầu cụ thể của họ. Google cũng có kế hoạch mở rộng hỗ trợ cho nhiều loại tệp và tích hợp sâu hơn với các nhà cung cấp lưu trữ đám mây, cũng như các nền tảng cộng tác và quản lý công việc khác.