Unleashing the Power of Nano Banana: Prompt Guide and Hands-On Experience

Introduction

In September 2025, Google officially launched Nano Banana – a new image generation feature within the Gemini ecosystem. This marks a significant milestone, not only for its speed and lightweight performance, but also for its ability to maintain character consistency, edit details using natural language, and combine multiple image sources into a cohesive final composition.

Unlike platforms such as Midjourney or Stable Diffusion, which lean heavily toward creative artistry, Nano Banana focuses on practical applications: supporting marketing design, visual education, digital content production, and even academic research. Its strength lies in delivering sharp, emotionally rich images with fine control through prompts — all without requiring powerful hardware.

In this article, I — drawing on years of experience researching and deploying AI — will break down Nano Banana’s Prompt Guide, share effective prompting strategies, and present three real-world use cases so readers can quickly grasp and apply them.


Summary of Nano Banana’s Prompt Guide

According to the official documentation, Nano Banana supports three image generation modes:

1. Text-to-Image

Enter a detailed description → AI generates an image from the text.
Best for creating visuals from completely new ideas.

2. Image + Text-to-Image (Editing)

Provide a base image and use a prompt to edit, add, or remove details.
Advantage: Preserves the main layout while changing only the elements you specify.

3. Multi-Image Fusion

Combine multiple images to form a unified composition.
Ideal for illustration design where multiple separate elements need to be merged.

Key Point: Nano Banana does not perform well with fragmented “keyword list” prompts. It works best with contextual, story-like prompts.


Prompting Guide and Strategies

This, in my opinion, is the core of unlocking Nano Banana’s potential. Below are principles and strategies I have distilled — with concrete examples:

1. Describe, Don’t List

Common mistake:
“cat, moon, forest” → results in a disjointed image; AI struggles to infer intent.

Better approach:
“A black cat sitting quietly on a mossy rock under the moonlight, surrounded by a misty forest.”

Why it works: Storytelling prompts help AI understand space, relationships, and produce coherent images.


2. Add Style, Emotion, and Technical Cues

You can “direct” your image by adding:

  • Mood: calm, dramatic, mysterious

  • Art style: ukiyo-e, watercolor, cyberpunk neon

  • Camera cues: 50mm lens, wide-angle, golden-hour lighting

Example:

  • Basic Prompt: “A Vietnamese street at night.”

  • Enhanced Prompt: “A Vietnamese street at night, illuminated by neon signs and glowing lanterns, cinematic cyberpunk style, wide-angle shot, moody atmosphere.”

    The enhanced version produces richer, more visually engaging results.


3. Iterative Prompting

Strategy: Write a basic prompt → generate → analyze result → add or remove details.

Example:

  • First Prompt: “A woman in Ao Dai standing in a rice field.”
    Result: Accurate but plain.

  • Refined Prompt: “A woman in a flowing white Ao Dai standing in a golden rice field at sunrise, soft pastel tones, cinematic feel.”
    Result: Artistic, visually rich, and closer to the desired emotion.


4. Consistency & Control

Nano Banana can keep characters consistent across multiple images.

Technique: Repeat fixed descriptions across prompts (e.g., “a young man with short black hair, wearing a blue jacket”).
This is particularly useful for building character illustrations for stories, games, or brand identity.


5. Negative Prompts

Use these to avoid common issues: distorted hands, random text, watermarks.

Example:
“…, without text, no watermark, hands clearly drawn.”

This keeps the image clean and aligned with your intention.


6. Think Like a Film Director

When writing prompts, imagine describing a film frame for a director.
This leads to better depth, lighting, and emotional clarity in the image.


Three Real-World Prompt Experiments

1. Text-to-Image

Prompt:
A photorealistic shot of an elderly Vietnamese woman sitting in a bamboo chair, sipping herbal tea under the morning sun filtering through wooden window slats, warm and serene mood, soft golden-hour lighting, 50 mm lens.

Expected Result:
A realistic photo-like image, warm lighting, detailed bamboo textures and skin — a touching “photograph.”


2. Image + Text-to-Image (Editing)

Example 1: 

Image: 

Nhộn nhịp chợ đêm phố cổ Hà Nội dịp cuối tuần - Vntrip.vn

Prompt:
Using this image of a modern Vietnamese street market at dusk, enhance it by adding glowing lanterns overhead, neon reflections on wet cobblestones, and a thin layer of mist for atmospheric depth, while preserving all vendors and characters.

Expected Result:
A normal evening market transformed into a cinematic scene — lanterns and neon lights creating a cyberpunk vibe while retaining the authentic Vietnamese market spirit.

Result:

Example 2: 

Image: 

Prompt:

Create a 1/7 scale commercialized figure of the character in the illustration, in a realistic style and environment. Place figure on a computer desk in front of computer screen, using a circular transparent acrylic base without any text. On the computer screen, display the Z-Brush modeling process of the figure. Next to the computer screen, place a BANDAI-style toy packaging box printed with the original artwork.

Expected result: 

A realistic, commercial-style product photo: a 1/7 scale figure placed on a clear circular acrylic base on a computer desk. The monitor shows the Z-Brush modeling process of the figure, and next to it is a BANDAI-style packaging box printed with the original artwork. Soft studio lighting, clean composition, and vivid colors give the impression of an official product advertisement.

Result: 


3. Multi-Image Fusion

     

Prompt:
Combine these images: a rice paddy field at sunrise, a silhouette of a Vietnamese Ao Dai, and a close-up of a traditional bánh chưng. Create a harmonious composition where the Ao Dai figure stands in the foreground, the paddy sunrise forms the background, and the bánh chưng subtly overlays in the bottom corner as a cultural emblem. Soft cinematic lighting, pastel color grading.

Expected Result:
A culturally rich composition: Ao Dai in the morning sun, golden rice fields, and bánh chưng representing tradition.

Result:


Prompt Collection and Examples

Case 1: Hand Drawing Controls Multi-Character Poses

Prompt: Have these two characters fight using the pose from Figure 3. Add appropriate visual backgrounds and scene interactions,Generated image ratio is 16:9

 

Case 2: OOTD Outfit

Prompt: Choose the person in Image 1 and dress them in all the clothing and accessories from Image 2. Shoot a series of realistic OOTD-style photos outdoors, using natural lighting, a stylish street style, and clear full-body shots. Keep the person’s identity and pose from Image 1, but show the complete outfit and accessories from Image 2 in a cohesive, stylish way.

I discovered a helpful GitHub repository that compiles clear examples and detailed prompt guides. You can explore it to find inspiration and learn to use Nano Banana to its fullest:
GitHub Repository


Conclusion

Nano Banana has proven that the new generation of AI image tools go beyond simply “making something pretty” — they bring control, usability, and consistency.

By studying its prompt guide and applying the right strategies — from storytelling instead of listing, adding style and mood, to using negative prompts — we can transform ideas into aesthetically pleasing and practically useful visuals.

From my personal experience, I believe Nano Banana will become an essential tool for content creators, marketers, educators, and researchers. It’s not just about “generating images,” but about expanding the way we think, describe, and communicate with AI.

Posted in AI

Trying the Realtime Prompting Guide for GPT-Realtime: Experiments with Vietnamese Voice Input

Try Realtime Prompting Guide for GPT-Realtime

1.Introduction

OpenAI’s Realtime API enables the creation of interactive voice experiences with ultra-low latency. Instead of waiting for a full text input, the model can “listen” to a user while they are still speaking and respond almost instantly. This makes it a powerful foundation for building voice assistants, audio chatbots, automated customer support, or multimodal creative applications.

To get the best results, writing a clear and well-structured prompt is essential. OpenAI published the Realtime Prompting Guide as a playbook for controlling model behavior in spoken conversations.

References:


2.What is GPT-Realtime

GPT-Realtime is a model/API designed to handle continuous audio input and provide rapid responses. Its key features include:

  • Real-time speech-to-text recognition.

  • Robust handling of noisy, cut-off, or unclear audio.

  • Customizable reactions to imperfect audio, such as asking for repetition, clarifying, or continuing in the user’s language.

  • Support for detailed prompting to ensure safe, natural, and reliable responses.


3.Overview of the Prompting Guide

The Realtime Prompting Guide outlines seven best practices for writing system prompts for voice agents:

1. Be precise, avoid conflicts.
Instructions must be specific and consistent. For example, if you say “ask again when unclear,” don’t also instruct the model to “guess when unsure.”

2. Use bullet points instead of paragraphs.
Models handle lists better than long prose.

3. Handle unclear audio.
Explicitly instruct what to do when input is noisy or incomplete: politely ask the user to repeat and only respond when confident.

4. Pin the language when needed.
If you want the entire conversation in one language (e.g., English only), state it clearly. Otherwise, the model may switch to mirror the user.

5. Provide sample phrases.
Include example greetings, clarifications, or closing lines to teach the model your desired style.

6. Avoid robotic repetition.
Encourage varied phrasing for greetings, confirmations, and closings to keep interactions natural.

7. Use capitalization for emphasis.
For example: “IF AUDIO IS UNCLEAR, ASK THE USER TO REPEAT.”

4.Prompt Examples

Sample Prompt A – Avoid conflicts, be clear

SYSTEM: – Always speak clearly and respond in the same language the user is speaking. – If the user’s audio is unclear, noisy, partial, or unintelligible, politely ask them to repeat. – Never assume what was said if you did not hear it clearly. – Use short, varied phrases; avoid repeating the same sentence. – Provide helpful, concise responses.

USER: “Hello, can you help me with my internet issue?”

ASSISTANT: (responds according to the prompt, asks for clarification if needed)


Sample Prompt B – Handling unclear audio

SYSTEM: – If the audio is not clear, ask: “I’m sorry, I didn’t catch that. Could you please repeat?” – Only respond when you are confident you understood the user’s request. – Continue conversation in the same language as the user. – Use bullet points for clarity.

USER: “Um… internet…” (noisy, unclear audio)

ASSISTANT: (follows the system instructions)


Sample Prompt C – Keep a natural style, avoid repetition

SYSTEM: – Do not respond with the same phrase twice. – Vary greetings, confirmations, closings. – Aim for a warm, helpful tone. – If the user ends the conversation, say something like: “If there’s anything else you need, feel free to ask.”

USER: “Thank you, that’s all.”

ASSISTANT: “You’re welcome! Glad I could help. Take care!” (or another variation)

5.Experiments

For my testing, I deliberately used Vietnamese speech to see how the model would react in different situations.

First Test: Speaking Unclear Without a Prompt

To begin, I tested what would happen if I spoke unclearly in Vietnamese without providing any system prompt.

For example, I said:

USER: “Ư… mệnh của mình không tỏa lại” (unclear Vietnamese speech)

The model responded in Indonesian, saying:

ASSISTANT: “Tentu, aku di sini untuk membantu. Coba ceritakan dulu apa yang lagi kamu rasakan atau alami. Kita bisa cari solusinya bareng-bareng.”

This shows that when no system prompt is defined, the model may guess or switch languages unpredictably, instead of asking for clarification.

Second Test: Adding a System Prompt

Next, I added a system prompt to guide the model’s behavior when the audio is unclear:

SYSTEM:
- If the audio is not clear, ask: “I’m sorry, I didn’t catch that. Could you please repeat?”
- Only respond when you are confident you understood the user’s request.
- Continue conversation in the same language as user.
- Use bullet points for clarity.

Then I spoke unclearly in Vietnamese again, for example:

USER: “Um… internet…” (spoken quietly, unclear audio)

This time, the model followed the system instructions and politely asked me to repeat. Sometimes, it even suggested that I try saying a simple test sentence so it could better check whether my voice was coming through clearly.

This shows how a well-written system prompt can prevent the model from making random guesses or switching languages, ensuring a more reliable and natural conversation flow.

Third Test: Singing to the Model

Finally, I experimented by singing in Vietnamese to see how the model would react.

The model listened carefully and was able to understand the lyrics and emotional tone of my singing. However, when I asked it to repeat the lyrics back to me, it refused due to copyright restrictions.

This shows that while GPT-Realtime can analyze and comment on songs — such as summarizing their meaning, describing the mood, or suggesting new lines in a similar style — it cannot reproduce lyrics verbatim. In practice, this means you should not expect the model to sing or echo back copyrighted content.

6.Conclusion

GPT-Realtime provides smooth and natural voice interactions with minimal latency. However, its effectiveness depends heavily on the prompt.

Key takeaways:

  • Always write a clear, bullet-pointed system prompt.
  • Define explicit behavior for unclear audio.
  • Control language use and discourage robotic repetition.
  • Respect copyright limitations: the model will not repeat lyrics verbatim but can summarize or create new content.

The Realtime Prompting Guide is a practical resource for building high-quality voice agents that are both natural and safe.

Claude Code Spec Workflow: Hướng Dẫn Thực Hành Spec-Driven Development

Claude Code Spec Workflow: Hướng Dẫn Thực Hành Spec-Driven Development

Giới Thiệu

Trong thế giới phát triển phần mềm hiện đại, việc kết hợp AI vào quy trình coding đang trở thành xu hướng không thể tránh khỏi. Tuy nhiên, phương pháp “vibe coding” – viết code dựa trên cảm hứng và prompt ngẫu nhiên – thường dẫn đến kết quả không nhất quán và thiếu cấu trúc. Claude Code Spec Workflow ra đời như một giải pháp để biến việc phát triển phần mềm với AI trở nên có hệ thống và chuyên nghiệp hơn.

1. Spec-Driven Development Là Gì?

Định Nghĩa

Spec-Driven Development (SDD) là một phương pháp phát triển phần mềm mà trong đó specification (đặc tả) trở thành trung tâm của toàn bộ quy trình engineering – từ planning và design đến implementation, testing và documentation. SDD nhấn mạnh việc viết specifications rõ ràng và có cấu trúc trước khi bắt đầu implementation.

Nguyên Lý Cốt Lõi

Thay vì “vibe coding” – phương pháp mô tả mục tiêu và nhận về một khối code có vẻ đúng nhưng thường không hoạt động chính xác, SDD đối xử với coding agents như những pair programmers nghiêm túc. Chúng xuất sắc trong pattern recognition nhưng vẫn cần hướng dẫn rõ ràng và không mơ hồ.

Quy Trình 4 Giai Đoạn

SDD hoạt động qua 4 giai đoạn với các checkpoint rõ ràng:

1. Specify (Đặc Tả): Tạo ra contract về cách code nên hoạt động, trở thành source of truth cho tools và AI agents.

2. Plan (Lập Kế Hoạch): AI agent phân tích spec và tạo ra kế hoạch chi tiết về architecture, constraints và cách tiếp cận.

3. Tasks (Nhiệm Vụ): Chia nhỏ spec và plan thành các công việc cụ thể, có thể review được, mỗi task giải quyết một phần cụ thể của puzzle.

4. Implement (Triển Khai): AI agent thực hiện từng task một cách có hệ thống, với developer review những thay đổi tập trung thay vì những code dump hàng nghìn dòng.

Ưu Điểm Của SDD

  • Giảm đoán mò: Spec rõ ràng giúp giảm thiểu sự bất ngờ và đảm bảo chất lượng code
  • Dễ thay đổi hướng: Chỉ cần update spec, regenerate plan và để AI agent xử lý phần còn lại
  • Phù hợp với dự án phức tạp: Đặc biệt hữu ích cho greenfield projects và feature work trong hệ thống hiện có

2. Claude Code Spec Workflow – Tổng Quan

Giới Thiệu Tool

Claude Code Spec Workflow là một toolkit tự động hóa được phát triển bởi Pimzino, cung cấp quy trình spec-driven development có cấu trúc cho Claude Code. Tool này transform các ý tưởng feature thành implementation hoàn chỉnh thông qua quy trình: Requirements → Design → Tasks → Implementation.

Các Tính Năng Chính

🎯 Quy Trình Phát Triển Có Cấu Trúc

  • Requirements Generation: Tạo user stories và acceptance criteria sử dụng định dạng EARS (WHEN/IF/THEN statements)
  • Design Creation: Tạo technical architecture và design với Mermaid diagrams để visualization
  • Task Breakdown: Chia design thành các atomic coding tasks tập trung vào test-driven development
  • Systematic Implementation: Thực hiện tasks một cách có hệ thống với validation dựa trên requirements

🛠 7 Slash Commands Chính

  • /spec-create <name> <description> – Tạo specification mới cho feature
  • /spec-requirements – Generate requirements document
  • /spec-design – Tạo design document
  • /spec-tasks – Generate implementation tasks
  • /spec-execute <task-number> – Execute specific tasks
  • /spec-status – Check status của specification hiện tại
  • /spec-list – List tất cả specifications

🏗 Cấu Trúc Project Tự Động

Sau khi setup, tool tự động tạo:

  • 📁 .claude/ directory: Chứa commands, templates, specs, và config files
  • 📝 7 slash commands: Để thực hiện complete workflow
  • 📋 Document templates: Đảm bảo formatting nhất quán
  • ⚙️ Configuration files: Cho workflow automation
  • 📖 CLAUDE.md: Với comprehensive workflow instructions

✨ Tính Năng Nâng Cao

  • Triple optimization commands: get-steering-context, get-spec-context, và get-template-context
  • Smart document handling: Bug documents sử dụng direct reading, templates sử dụng bulk loading
  • Session-based caching: Intelligent file change detection và cache invalidation
  • Real-time web dashboard: Monitor specs, tasks, và progress với live updates
  • Bug workflow system: Complete bug reporting và resolution tracking

3. Hướng Dẫn Cài Đặt và Sử Dụng

Yêu Cầu Hệ Thống

  • Node.js: 16.0.0 hoặc cao hơn
  • Claude Code: Đã cài đặt và configure
  • Bất kỳ project directory nào

Cài Đặt Claude Code (Prerequisite)

bash
# Install Claude Code
npm install -g @anthropic-ai/claude-code

# Verify installation
claude doctor

# Navigate to your project
cd your-awesome-project

# Start Claude Code (first time login required)
claude

Cài Đặt Claude Code Spec Workflow

Phương Pháp 1: Cài Đặt Nhanh (Khuyến Nghị)

bash
# Cài đặt trong current directory
npx @pimzino/claude-code-spec-workflow

# Cài đặt trong directory cụ thể  
npx @pimzino/claude-code-spec-workflow --project /path/to/project

# Force overwrite existing files
npx @pimzino/claude-code-spec-workflow --force

# Skip confirmation prompts
npx @pimzino/claude-code-spec-workflow --yes

# Test setup
npx @pimzino/claude-code-spec-workflow test

Phương Pháp 2: Global Installation

bash
# Install globally
npm install -g @pimzino/claude-code-spec-workflow

# Use anywhere
claude-spec-setup

Phương Pháp 3: Development Dependency

bash
# Install as dev dependency
npm install --save-dev @pimzino/claude-code-spec-workflow

# Run via package.json script
npx claude-spec-setup

Cấu Trúc Được Tạo Ra

your-project/
├── .claude/
│   ├── commands/
│   │   ├── spec-create.md
│   │   ├── spec-requirements.md  
│   │   ├── spec-design.md
│   │   ├── spec-tasks.md
│   │   ├── spec-execute.md
│   │   ├── spec-status.md
│   │   └── spec-list.md
│   ├── templates/
│   │   ├── requirements-template.md
│   │   ├── design-template.md
│   │   └── tasks-template.md
│   ├── specs/
│   │   └── (your specs will be created here)
│   └── spec-config.json
└── CLAUDE.md (created/updated)

4. Hướng Dẫn Sử Dụng Chi Tiết

Workflow Cơ Bản

Bước 1: Khởi Tạo Claude Code

bash
cd my-awesome-project
claude

Bước 2: Tạo Specification Mới

bash
# Trong Claude Code terminal
/spec-create user-dashboard "User profile management system"

Bước 3: Generate Requirements

bash
/spec-requirements

Output: User stories với EARS format (WHEN/IF/THEN statements) đảm bảo comprehensive requirement coverage.

Bước 4: Tạo Design Document

bash
/spec-design

Output: Technical architecture với Mermaid diagrams, plans components, interfaces, và data models.

Bước 5: Generate Implementation Tasks

bash
/spec-tasks

Output: Atomic coding tasks với focus vào test-driven development, references specific requirements.

Bước 6: Execute Tasks

bash
/spec-execute 1

Executes tasks systematically với validation against requirements, ensures quality và consistency.

Bước 7: Monitor Progress

bash
# Check current status
/spec-status

# List all specifications  
/spec-list

Web Dashboard (Tính Năng Nâng Cao)

bash
# Basic dashboard
npx -p @pimzino/claude-code-spec-workflow claude-spec-dashboard

# Dashboard with tunnel (share externally) 
npx -p @pimzino/claude-code-spec-workflow claude-spec-dashboard --tunnel

# Full tunnel configuration
npx -p @pimzino/claude-code-spec-workflow claude-spec-dashboard \
  --tunnel \
  --tunnel-password mySecret123 \
  --tunnel-provider cloudflare \
  --port 3000 \
  --open

5. Ví Dụ Thực Hành: Phát Triển Game Asteroids

Mô Tả Dự Án

Một developer đã sử dụng claude-code-spec-workflow để tạo một game 2D đơn giản where player controls spaceship để tránh falling asteroids. Score được tính dựa trên survival time.

Quy Trình Thực Hiện

bash
# 1. Tạo specification
/spec-create asteroids-game "A simple 2D action game where the player controls a spaceship to avoid falling asteroids. The score is based on survival time."

# 2. Generate 3 types of specs
- Requirements document (요구사항 정의서)
- Design document (설계서)  
- Task list (타스크 리스트)

# 3. Implementation using SDD methodology

Kết Quả

Developer đã thành công tạo ra một asteroids avoidance game hoàn chỉnh sử dụng:

  • LLM: Claude Sonnet 4
  • Frontend: HTML, CSS, JavaScript
  • Development Tools: Claude Code, claude-code-spec-workflow

Kỹ Thuật Sử Dụng

Trong video demonstration, developer đã sử dụng:

  • /spec-status để check workflow status
  • /spec-list để view tất cả specifications
  • /spec-create để tạo các specs với detailed content
  • Cuối cùng là gameplay video của completed game

6. Troubleshooting và Best Practices

Common Issues

❓ Command Not Found After NPX

bash
# Make sure you're using correct package name
npx @pimzino/claude-code-spec-workflow

❓ Setup Fails với Permission Errors

bash
# Try with different directory permissions
npx @pimzino/claude-code-spec-workflow --project ~/my-project

❓ Claude Code Not Detected

bash
# Install Claude Code first
npm install -g @anthropic-ai/claude-code

# Show verbose output
DEBUG=* npx @pimzino/claude-code-spec-workflow

# Check package version
npx @pimzino/claude-code-spec-workflow --version

Best Practices

1. Project Setup

bash
# Setup multiple projects efficiently
for dir in project1 project2 project3; do
  npx @pimzino/claude-code-spec-workflow --project $dir --yes
done

2. Testing Setup

bash
# Test setup trong temporary directory
npx @pimzino/claude-code-spec-workflow test

3. Workflow Efficiency

  • Auto-detects project type: Node.js, Python, Java, etc.
  • Beautiful CLI: Với progress indicators
  • Validation: Claude Code installation check
  • Safety: Preserves existing CLAUDE.md content

7. So Sánh Với Các Công Cụ Khác

Claude Code Spec Workflow vs GitHub Spec-Kit

  • GitHub Spec-Kit: Toolkit chính thức từ GitHub cho SDD với support cho multiple AI agents (GitHub Copilot, Claude Code, Gemini CLI)
  • Claude Code Spec Workflow: Chuyên biệt cho Claude Code với workflow tự động hóa và dashboard

Ưu Điểm Của Claude Code Spec Workflow

  • Dễ cài đặt: One-command setup
  • Tự động hóa cao: 7 slash commands có sẵn
  • Dashboard tích hợp: Real-time monitoring
  • TypeScript implementation: Comprehensive error handling

8. Tương Lai và Phát Triển

Xu Hướng SDD

Spec-driven development đang trở thành popular trong developer community như một cách để build software với structure hơn và ít “vibes” hơn. Nó đặc biệt phù hợp với greenfield projects và mid-to-large-sized features.

Limitations

  • UI-heavy work: Non-visual spec không hữu ích cho UI work
  • Small features: Tạo full-blown spec có thể overkill cho small features hoặc bug fixes
  • Overengineering risk: Có thể dẫn đến solutions phức tạp hơn cần thiết

Future of SDD

“Specs are the new code” – Sean Grove từ OpenAI team cho rằng 80-90% công việc của programmers là structured communication, và specs là cách tốt nhất để communicate về software functionality.

9. Kết Luận

Claude Code Spec Workflow đại diện cho bước tiến quan trọng trong việc kết hợp AI vào quy trình phát triển phần mềm một cách có hệ thống. Tool này không chỉ đơn thuần là automation mà còn là methodology giúp developers:

Lợi Ích Chính

  1. Cấu trúc hóa quy trình: Từ vibe coding thành systematic development
  2. Tăng chất lượng code: Thông qua spec-driven approach
  3. Cải thiện collaboration: Giữa developers và AI agents
  4. Giảm rủi ro dự án: Với clear specifications và validation

Khi Nào Nên Sử Dụng

  • Greenfield projects: Starting từ zero với clear vision
  • Feature development: Trong existing complex systems
  • Team collaboration: Cần consistent development approach
  • Quality-focused projects: Khi code quality là priority

Khuyến Nghị

Claude Code Spec Workflow là tool xuất sắc cho developers muốn áp dụng SDD methodology với Claude Code. Tuy nhiên, hãy nhớ rằng tool chỉ là means, methodology và mindset mới là điều quan trọng nhất.

Hãy bắt đầu với những dự án nhỏ, làm quen với workflow, và dần mở rộng sang những dự án phức tạp hơn. Spec-driven development không phải là silver bullet, nhưng chắc chắn là một powerful approach trong arsenal của modern developers.


Demo:

Sử dụng claude cli + claude-code-spec-workflow test tạo workflow cho chức năng  user-authentication

Kết quả :
Tạo ra code và spec cho chức năng  user-authentication

————————————————————————————————————————————————————————————————————————————–

Sử dụng claude cli + claude-code-spec-workflow test 1 game đơn giản bằng html

Kết quả :

 

Installing and Using GPT-OSS 20B Locally with Ollama

In this document, we will explore how to install and run GPT-OSS 20B — a powerful open-weight language model released by OpenAI — locally, with detailed instructions for using it on a Tesla P40 GPU.

1. Quick Introduction to GPT-OSS 20B

  • GPT-OSS 20B is an open-weight language model from OpenAI, released in August 2025—the first since GPT-2—under the Apache 2.0 license, allowing free download, execution, and modification.

  • The model has about 21 billion parameters and can run efficiently on consumer machines with at least 16 GB of RAM or GPU VRAM.

  • GPT-OSS 20B uses a Mixture-of-Experts (MoE) architecture, activating only a subset of parameters (~3.6B) at each step, saving resources and energy.

  • The model supports chain-of-thought reasoning, enabling it to understand and explain reasoning processes step by step.


2. Hardware & Software Preparation

Hardware requirements:

  • RAM or VRAM: minimum 16 GB (can be system RAM or GPU VRAM).

  • Storage: around 12–20 GB for the model and data.

  • Operating system: macOS 11+, Windows, or Ubuntu are supported.

  • GPU (if available): Nvidia or AMD for acceleration. Without a GPU, the model still runs on CPU but very slowly.

Software options:

  • Ollama: the simplest method; quick installation with a convenient CLI.

  • LM Studio: a graphical interface, suitable for beginners.

  • Transformers + vLLM (Python): flexible for developers, integrates well into open-source pipelines.


3. How to Run GPT-OSS 20B with Ollama (GPU Tesla P40)

3.1 Goal and Timeline

  • Goal: successfully run GPT-OSS 20B locally using Ollama, leveraging the Tesla P40 GPU (24GB VRAM).

  • Timeline: the first setup takes about 15–20 minutes to download the model. After that, launching the model takes only a few seconds.

3.2 Environment Preparation

  • GPU: Tesla P40 with 24GB VRAM, sufficient for GPT-OSS 20B.

  • NVIDIA Driver: version 525 or higher recommended. In the sample logs, CUDA 12.0 works fine.

  • RAM: minimum 16GB.

  • Storage: at least 20GB free space; the model itself takes ~13GB plus cache.

  • Operating system: Linux (Ubuntu), macOS, or Windows. The following example uses Ubuntu.

3.3 Install Ollama

The fastest way:

curl -fsSL https://ollama.com/install.sh | sh

Or manually (Linux):

curl -LO https://ollama.com/download/ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

Start the Ollama service:

OLLAMA_HOST=0.0.0.0:8888 ollama serve

When the log shows listening on [::]:8888, the server is ready.

3.4 Download GPT-OSS 20B

Open a new terminal and run:

OLLAMA_HOST=0.0.0.0:8888 ollama pull gpt-oss:20b

The first download is about 13GB. When the log shows success, the model is ready.

3.5 Run the Model

Start the model and try chatting:

OLLAMA_HOST=0.0.0.0:8888 ollama run gpt-oss:20b

Example:

>>> hi
Hello! 👋 How can I help you today?

3.6 Verify GPU Usage

Run:

nvidia-smi

Result: the Tesla P40 (24GB) consumes around 12–13GB VRAM for the process /usr/bin/ollama. The Ollama log also shows “offloading output layer to GPU” and “llama runner started in 8.05 seconds”, proving the model is running on GPU, not CPU.

3.7 Monitor API and Performance

Ollama exposes a REST API at http://127.0.0.1:8888.
Common endpoints include /api/chat and /api/generate.

Response times:

  • Short prompts: about 2–10 seconds.

  • Long or complex prompts: may take tens of seconds to a few minutes.


4. Conclusion

You have successfully run GPT-OSS 20B on a Tesla P40. The initial model download takes some time, but afterward it launches quickly and runs stably. With 24GB VRAM, the GPU can handle the large model without overload. While long prompts may still be slow, it is fully usable for real-world experiments and local project integration.

Claude Code và Tương Lai Lập Trình Với AI Agent

Trong vòng một năm trở lại đây, cách chúng ta viết code đã thay đổi nhanh đến mức chóng mặt. Nếu như trước kia AI chỉ dừng ở mức autocomplete vài dòng trong IDE, thì nay các công cụ như Claude Code đã tiến hóa thành những “người đồng hành” thực sự: có thể đọc hiểu toàn bộ project, viết, sửa, refactor, và thậm chí xây dựng ứng dụng từ đầu đến cuối.

Bài viết này tổng hợp những ý chính từ buổi trò chuyện giữa Alex và Boris (Anthropic) về Claude Code, đồng thời chia sẻ thêm vài góc nhìn cá nhân.

Link video: https://www.youtube.com/watch?v=iF9iV4xponk

Claude Code là gì?

Để hiểu Claude Code, hãy bắt đầu từ Claude. Đây là mô hình ngôn ngữ (LLM) do Anthropic phát triển, nổi tiếng nhờ khả năng suy luận tốt, trả lời an toàn và viết code khá mạnh. Tuy nhiên, nếu chỉ có một mô hình ngôn ngữ thì vẫn còn thiếu nhiều thứ để làm việc trong môi trường lập trình thực tế.

Ví dụ: nếu bạn thả Claude “chay” vào một dự án, nó có thể viết code hoặc trả lời câu hỏi, nhưng sẽ gặp khó khăn khi:

  • Không biết trạng thái repo hiện tại.

  • Không có quyền chỉnh sửa file.

  • Không thể chạy test hoặc commit.

  • Không tích hợp được vào workflow của team.

Đây chính là khoảng trống mà Claude Code ra đời để lấp đầy.

Claude Code = “Agentic IDE”

Anthropic gọi Claude Code là agentic IDE (một môi trường phát triển dựa trên agent). Nó giống một IDE thông minh, nhưng có khả năng tự hành động chứ không chỉ gợi ý.

Cấu trúc Claude Code gồm nhiều thành phần:

  1. Harness – Lớp điều phối giữa mô hình, ngữ cảnh project, và người dùng.

    • Harness giống như “bộ não phụ” để nối Claude với codebase.

    • Nó đảm bảo Claude có cái nhìn đầy đủ về repo, không chỉ một file rời rạc.

  2. Tools & Permissions – Cơ chế kiểm soát.

    • AI có thể thực hiện hành động thực sự: chỉnh sửa file, chạy script, cài dependency, commit.

    • Nhưng mọi hành động đều trong phạm vi cho phép, tránh “AI phá repo”.

  3. MCP Servers (Model Context Protocol) – Hệ thống plugin/API.

    • Cho phép mở rộng Claude Code ra ngoài: kết nối tới database, API, CI/CD, issue tracker (GitHub, Jira…).

    • Đây là điểm giúp Claude Code không chỉ làm code “trên máy”, mà còn tham gia vào toàn bộ pipeline.

  4. Settings, Hooks & Slash Commands – Tùy biến workflow.

    • Dev có thể định nghĩa shortcut (ví dụ: /fix-tests, /deploy) hoặc viết hook để AI làm việc theo cách riêng.

    • Tính năng này khiến Claude Code hackable, khác biệt so với nhiều công cụ AI coding “đóng hộp”.

  5. CLAUDE.md – Tài liệu hướng dẫn dành riêng cho AI.

    • Bạn có thể tạo file này trong repo để mô tả project, convention, style guide.

    • Claude sẽ đọc và hiểu ngữ cảnh như một dev mới join team.


Điểm khác biệt với AI coding khác

So với GitHub Copilot hay Cursor, Claude Code không chỉ dừng ở gợi ý code trong editor, mà là:

  • Có trí nhớ dài: hiểu và thao tác trên codebase lớn.

  • Có quyền hành động: sửa file, chạy lệnh.

  • Có khả năng mở rộng: thông qua MCP và plugins.

  • Có thể hack/tùy biến: lập trình viên điều chỉnh workflow theo ý mình.

Sự tiến hóa: từ autocomplete đến agent

Trong vòng một năm qua, AI coding đã thay đổi nhanh đến mức khó tin. Điểm đáng chú ý là sự tiến hóa không chỉ đến từ bản thân mô hình (model), mà chủ yếu nằm ở cách chúng ta đóng gói và sử dụng nó trong workflow thực tế.

  • Trước đây – thời kỳ autocomplete
    AI chỉ đóng vai trò như một “bộ gợi ý thông minh” trong IDE. GitHub Copilot (ra mắt 2021) là ví dụ điển hình: nó dự đoán vài dòng code tiếp theo, giống như autocomplete trong Gmail, nhưng dành cho lập trình viên. Rất tiện, nhưng vẫn giới hạn trong phạm vi vài dòng code.

  • Hiện tại – AI như đồng nghiệp
    Với các công cụ mới như Claude Code hay Cursor, AI không chỉ gợi ý từng dòng, mà có thể:

    • Đọc và phân tích toàn bộ repo.

    • Sửa lỗi và refactor hàng loạt file.

    • Review Pull Request (PR) và đưa ra nhận xét.

    • Hiểu ngữ cảnh project (nhờ cơ chế long context window như Claude 3.5 Sonnet với 200k tokens).

    Điều này biến AI từ một “công cụ hỗ trợ viết code” thành một trợ lý phát triển phần mềm thực thụ.

  • Tương lai gần – AI hiểu ý định (intent)
    Anthropic mô tả tầm nhìn tiếp theo: AI sẽ không chỉ viết code theo prompt, mà còn quản lý mục tiêu của lập trình viên.
    Ví dụ: bạn nói “Xây API thanh toán với Stripe”, Claude Code sẽ:

    1. Thiết kế cấu trúc.

    2. Tạo endpoint.

    3. Viết test.

    4. Deploy và thông báo kết quả.

    Ở giai đoạn này, AI giống một “agent” thực sự – tự động hóa toàn bộ chu trình dựa trên ý định của con người, thay vì chỉ thao tác cục bộ trên từng file.


Điều gì thúc đẩy sự tiến hóa này?

Theo chia sẻ từ Boris Cherny (Anthropic), chính feedback thực chiến từ dev nội bộ đã dẫn dắt sản phẩm. Anthropic không xây Claude Code trong phòng lab, mà cho chính nhân viên sử dụng hàng ngày để làm việc thật. Model và công cụ đồng tiến hóa:

  • Dev phản hồi về điểm yếu (ví dụ AI refactor chưa sạch → cải tiến).

  • Model mạnh hơn lại mở ra use case mới (ví dụ context dài → đọc cả repo).

Đây là lý do tại sao Claude Code không chỉ “mạnh về lý thuyết”, mà còn thực sự hữu dụng trong quy trình phát triển phần mềm.


Hackability là gì và vì sao quan trọng?

Một trong những điểm khác biệt khiến Claude Code nổi bật so với nhiều công cụ AI coding khác chính là tính hackability – tức khả năng tùy biến, mở rộng, và “bẻ cong” công cụ theo cách mà lập trình viên mong muốn.

Vì sao hackability quan trọng?

Trong thế giới phần mềm, mỗi đội và mỗi dự án có workflow riêng:

  • Có team ưu tiên CI/CD tự động, để code merge là deploy ngay.

  • Có team lại yêu cầu review thủ công và check kỹ lưỡng.

  • Một số lập trình viên thích command-line tool, số khác muốn UI trực quan.

Nếu một công cụ AI bị “đóng khung” theo một quy trình cứng nhắc, nó sẽ không thể đáp ứng được sự đa dạng này. Do đó, tính hackable là yếu tố then chốt giúp AI coding trở thành công cụ thực sự linh hoạt, thay vì chỉ là demo đẹp.

Hackability trong Claude Code

Claude Code được thiết kế để cực kỳ hackable với nhiều cơ chế:

  • CLAUDE.md: file cấu hình cho phép mô tả project, hướng dẫn AI hiểu ngữ cảnh (giống như README nhưng dành riêng cho AI).

  • Configurable workflows: bạn có thể cấu hình lại workflow qua settings, hooks hoặc script tùy chỉnh.

  • MCP servers (Model Context Protocol): cơ chế mở rộng theo kiểu “plugin/API”, cho phép AI tương tác với tool, service hoặc dữ liệu riêng của bạn.

  • Slash commands & sub-agents: tạo lệnh chuyên biệt (ví dụ: /generate-tests, /lint*) hoặc định nghĩa agent con để xử lý tác vụ hẹp.

Ví dụ thực tế

  • Một công ty fintech có thể viết MCP server riêng để Claude trực tiếp đọc dữ liệu từ hệ thống nội bộ, thay vì copy-paste code.

  • Một startup game có thể tạo slash command /render để AI gọi engine dựng hình trong quá trình phát triển.

  • Team backend có thể thêm CLAUDE.md để AI luôn tuân thủ chuẩn code style và kiến trúc microservices của họ.

👉 Chính vì vậy, hackability quan trọng ở chỗ: nó giúp AI không chỉ phù hợp với lập trình nói chung, mà còn thích nghi với phong cách làm việc riêng của từng lập trình viên và từng đội ngũ.


Tương lai của lập trình với AI agent

Bức tranh được Alex và Boris vẽ ra khá rõ:

  • Ngắn hạn: dev vẫn viết code thủ công, nhưng AI sẽ gánh phần “text manipulation” (refactor, đổi tên biến, viết test, v.v.).

  • Trung hạn: AI sẽ review code, đề xuất thay đổi, và có thể merge PR.

  • Dài hạn: dev chỉ cần nói “Xây API thanh toán với Stripe”, AI sẽ tự thiết kế, viết, test, deploy. Lập trình viên sẽ dần trở thành người định hướng, review và tư duy giải pháp thay vì “người gõ từng dòng code”.


Suy nghĩ cá nhân

Thật sự thì khi nhìn vào những gì Claude Code (và các agent AI khác) đang làm được, mình có cảm giác việc viết code không còn khô khan và đã trở nên dễ dàng hơn rất nhiều. Trước đây, để tạo ra một ứng dụng, chúng ta phải bỏ ra hàng tuần hay thậm chí hàng tháng để gõ từng dòng code, fix bug, rồi refactor. Nhưng giờ, AI có thể giúp sinh ra hàng nghìn dòng code chỉ trong vài phút.

Điều đó có nghĩa là: giá trị thật sự không còn nằm ở việc bạn viết được bao nhiêu dòng code, mà nằm ở việc bạn muốn xây dựng cái gì, thiết kế ra sao, và giải quyết vấn đề gì cho người dùng.

Điều này cũng kéo theo sự thay đổi lớn trong kỹ năng mà một developer cần. Thay vì chỉ tập trung vào “gõ code”, lập trình viên trong tương lai sẽ phải biết cách:

  • Đặt câu hỏi và mô tả yêu cầu rõ ràng cho AI. Đây giống như việc ra đề thi: đề càng rõ, đáp án càng đúng.

  • Hiểu và review code mà AI tạo ra, vì cuối cùng trách nhiệm với sản phẩm vẫn là của con người.

  • Kết hợp nhiều công cụ và agent để đạt được mục tiêu nhanh và hiệu quả hơn.

  • Có thể sẽ hình thành 2 nhóm nghề: người phát triển sản phẩm (product developer) và người lập trình ở mức thấp hơn (low-level developer) để xây dựng module cốt lõi.

Nếu nghĩ kỹ thì kỹ năng này khá giống với vai trò của một technical architect hơn là một coder thuần túy: định hình giải pháp, kết nối các mảnh ghép, và đảm bảo hệ thống hoạt động ổn định.

Về cơ hội và thách thức thì mình thấy rõ ràng:

  • Cơ hội: thời gian từ ý tưởng → sản phẩm rút ngắn cực kỳ nhiều. Một cá nhân giờ đây có thể làm được những thứ mà trước kia phải cần cả một team. Điều này mở ra rất nhiều cơ hội cho sáng tạo và khởi nghiệp.

  • Thách thức: nếu chỉ dừng lại ở việc “biết code”, bạn sẽ nhanh chóng bị thay thế. AI có thể viết, sửa, refactor code rất nhanh, nhưng AI chưa thể giao tiếp và thấu hiểu con người. Những kỹ năng như trao đổi với khách hàng, lắng nghe nhu cầu, đàm phán, thuyết phục, hay đơn giản là xây dựng niềm tin vẫn là phần không thể thiếu – và chỉ con người mới làm được.

Running Latent Diffusion Model on Regular Computers via Google Colab and Ngrok

Introduction

In recent years, diffusion models such as the Latent Diffusion Model (LDM) have become the gold standard for text-to-image generation thanks to their high image quality, fast inference speed, and flexible fine-tuning capabilities. However, the biggest barrier for beginners is often the expensive GPU hardware requirement. This article will guide you on how to run LDM on a regular computer by taking advantage of Google Colab—a cloud environment that provides free/affordable GPU access, allowing you to focus on your ideas instead of hardware setup.

Main Content

What is Colab?

Colab is a hosted Jupyter Notebook service that requires no setup to use and provides free access to computing resources, including GPUs and TPUs. Colab is especially well suited to machine learning, data science, and education.

What You Need to Prepare

  1. A Colab account – Getting one is very easy; just search for it and sign up. Colab can be used for free but with limits on memory, GPU, etc. You can also subscribe to a paid plan depending on your needs.

  2. An Ngrok account – Just like the first step, sign up for an account, then get your authtoken, which will be used later.

  3. An example LDM setup for this tutorial – In this article, we’ll use the Stable Diffusion Pipeline in Python. Hugging Face provides a list of text-to-image models ranging from weaker to stronger ones at: https://huggingface.co/models?pipeline_tag=text-to-image&sort=trending.
    Example repo for this article: https://github.com/thangnch/MiAI_StableDiffusion_Flask_Text2Image


Running on a Personal Computer

First, clone the above GitHub repo to your local machine. Then install the required libraries and packages such as pip, PyTorch, and diffusion.

Next, run the svr_model.py file.

Depending on whether your personal computer has GPU support (CUDA or MPS), the model can run on GPU; otherwise, it defaults to CPU—which is much slower.

Since my GPU doesn’t support NVIDIA CUDA, I had to run it on CPU.

After starting the server, the demo web page URL appears in the terminal.

Now we can generate an image from a prompt.

 

  • Speed: quite slow at 4.14s/it

  • Consumes a lot of CPU power

  • But still managed to generate an image successfully with the weakest model

This shows that although it is possible to run locally on your own machine, it is very slow and CPU-intensive, even with the smallest model.


Using Colab with Ngrok

  1. Visit Google Colab: https://colab.research.google.com/

  2. Visit Ngrok: https://dashboard.ngrok.com/get-started/setup/windows

In Colab:

Then:

  • Run another cell to install all required libraries (already listed in the repo)

  • Copy the code from text2image_model.py to start running the model

  • Next, copy the code from svr_model.py

Before running svr_model.py, install Ngrok in the Colab environment by running another code cell.

After installation:

  • Go to your Ngrok dashboard, copy your personal authtoken

  • Back in Colab, paste it into the Secrets section on the left sidebar, name it, and save

Now run svr_model.py.


Ngrok will provide a temporary public URL (my tunnel) that connects to your server running on GPU.

Visit the link, and you’ll get the text-to-image web interface.

Time to generate images!

Example:

  • Prompt: “Cat and dog” – With the lowest model

    • Very fast at 9.9s

    • GPU used effectively

Even with higher-level models, the process still runs smoothly.

  • Prompt: “City landscape” – Model level 6

Still stable and responsive


Conclusion

Through these experiments, we have learned how to use Latent Diffusion Models easily on a personal computer and optimize performance with Colab and Ngrok combined. This provides a smooth and fast user experience. Hopefully, this article will be helpful to readers.

Thank you for reading!

🧑‍💻 Kiro – When the AI IDE Becomes a Software Architect

In recent years, AI coding assistants have reshaped how we build software. From GitHub Copilot to Cursor and Windsurf, developers can now write code faster, debug less, and “vibe code” any idea with just a few prompts.

But alongside the convenience comes a major issue: lack of structure. Prototypes are spun up quickly but are hard to scale. Code lacks documentation, design artifacts, and tests, often leading to technical debt.

Amazon AWS introduced Kiro to solve exactly this. Instead of being just a “coding companion,” Kiro positions itself as an AI software architect – guiding you from requirements to design, implementation, and validation. It marks a shift from prompt-driven development to spec-driven development.

 

🌍 Why Do We Need a “Spec-Driven AI IDE”

Most AI coding tools today focus on speed & productivity for individuals. Cursor, Copilot, and Windsurf enable a single developer to prototype an MVP in days. But when it’s time to scale or work in a team, these prototypes often become liabilities:

  • No clear requirements → miscommunication when tasks are handed off.
  • No design docs → difficult to refactor or onboard new devs.
  • Poor test coverage → bugs slip through QA.
  • Lack of best practices → fragile architectures.

AWS identified this gap and proposed a philosophy: AI should not only be a coding assistant but a software architect. Kiro is designed to follow a full development lifecycle: Requirement → Design → Implementation → Validation.

🔑 Core Features of Kiro

1. Spec-Driven Development

You describe requirements in natural language, and Kiro generates:

  • Requirement documents (user stories, acceptance criteria).
  • Design documents (system architecture, ER diagrams, sequence diagrams).
  • Task lists (implementation steps, tests).

 

2. Agent Hooks – Your “Senior Dev on Autopilot”

Agent hooks in Kiro act like a senior developer running in the background:

  • Automatically generate unit tests when you save files.
  • Check code smells against SOLID principles.
  • Update README and API specs.
  • Scan for accidentally committed secrets or credentials.

3. MCP & Steering Rules – Context Integration

Kiro supports the Model Context Protocol (MCP), allowing AI to access company docs, API specifications, or database schemas for richer context. Steering rules ensure AI stays aligned with project goals.

4. Agentic Chat – Context-Aware Conversations

Beyond inline completions, Kiro’s chat agent understands the entire codebase, requirements, and design docs. You can request:

  • “Add OAuth2 login flow with Google.”
  • “Generate a sequence diagram for password reset.”
  • “Write integration tests with Postgres.”

5. Familiar Foundation

  • Built on Code OSS, fully compatible with VS Code extensions, themes, and settings.
  • Powered by strong models (Claude 3.7, Claude 4.0) with future support for GPT and Gemini.
  • Pricing (Preview): Free tier (50 interactions/month), Pro $19 (1,000 interactions), Pro+ $39 (3,000 interactions).

⚔️ Kiro vs Cursor – A Fascinating Duel

Criteria Kiro – Spec-Driven IDE Cursor – Prompt-Driven IDE
Philosophy Requirement → Design → Code → Test Prompt → Code
Automation Agent Hooks (docs, tests, best practices) Manual, one task at a time
Context Handling MCP: APIs, DBs, external docs Mainly codebase indexing
Output Production-grade, standardized Quick prototypes, vibe coding
IDE Foundation Code OSS (VS Code ecosystem) VS Code fork
Best Fit For Enterprise teams, large-scale development Startups, solo prototyping

 

🛠️ Walkthrough: How Kiro Handles a Requirement

To see Kiro in action, I asked it to:

“Create a REST API for login/signup with JWT. You can use documents accounts for logic login/signup.”

Kiro then generated three artifacts: requirements, design, and tasks — essentially doing the work of a product manager, software architect, and tech lead in one.

You can see more in the folder .kiro in the source code on GitHub

1. Requirements

Kiro produced a requirements.md file describing the system as user stories with acceptance criteria:

  • Signup: Users can register with email and password. Validation rules include unique email, proper format, and a minimum 8-character password. On success, the system returns a JWT and user info.

  • Login: Users log in with valid credentials to receive a JWT. Invalid or non-existent accounts return a 401 Unauthorized.

  • Token Validation: Protected routes require a valid JWT. Expired, missing, or malformed tokens are rejected.

  • Security: Passwords must be hashed with bcrypt, never stored in plain text, and tokens signed with a secure secret.

  • Error Handling: The API must return clear but secure error messages, avoiding user enumeration.

This structured requirements file ensures that the authentication system has a clear scope and testable outcomes before any code is written.


2. Design

Next, Kiro generated a design.md document, laying out the NestJS architecture:

  • Modules & Services: AuthModule, AuthService, AuthController, JwtStrategy, AuthGuard.

  • DTOs for input validation (signup.dto.ts, login.dto.ts).

  • Data Model: An extended AccountSchema with unique userId/userName fields, password hashing middleware, and timestamps.

  • Security Setup: bcrypt with 12 salt rounds, JWTs signed with HS256, 24-hour expiration.

  • REST Endpoints:

    • POST /auth/signup → register new accounts

    • POST /auth/login → authenticate and return token

    • GET /auth/profile → protected endpoint returning current user info

The design document also detailed error handling policies (e.g., generic “Invalid credentials” messages), validation strategies, and a test plan (unit + integration).


3. Tasks

Finally, Kiro produced a tasks.md file — essentially an implementation plan:

  1. Setup dependencies: Install @nestjs/jwt, passport-jwt, bcrypt, and validation libraries.

  2. Create DTOs for signup/login validation.

  3. Enhance the Account model with password hashing and secure comparison methods.

  4. Implement JWT strategy for validating tokens in requests.

  5. Build AuthService methods for signup and login, returning JWTs.

  6. Build AuthController endpoints: /signup, /login, /profile.

  7. Add AuthGuard to protect routes.

  8. Wire everything into AuthModule and integrate with the app.

  9. Error handling via custom exception filters.

  10. Unit & integration tests for flows like signup, login, and token validation.

This task list reads like a well-prepared Jira board — ready for developers to pick up and implement step by step.


✨ The Result

In just one prompt, Kiro produced a requirements spec, a detailed design doc, and an actionable implementation plan.

Instead of jumping straight into code, the system starts with clarity:

  • What needs to be built

  • How it should be structured

  • How to test and validate it

This demonstrates how Kiro goes beyond “AI autocomplete” and into end-to-end engineering workflow automation.

🧪 Real-World Feedback from Early Users

1. Dev.to – Testing Kiro in Real Projects

  • Kiro produced clear design docs and structured task lists.
  • Agent Hooks auto-generated basic tests (though not deep coverage).
  • Strongest feature: spec-first workflow → immediate blueprint for the project.
  • Limitation: complex logic still requires developer intervention.

👉 Takeaway: Kiro feels more like a senior PM + junior dev than a pure coder.

2. Substack – Developing with Kiro

  • After just a few lines of description, Kiro generated detailed user stories broken into assignable tasks.
  • Docs and code stayed in sync — changes to requirements updated design and code automatically.
  • Saved several days of manual documentation work.
  • Still requires developer review for security and performance concerns.

👉 Takeaway: Perfect for small teams or startups without a dedicated product manager.

3. AWS Re:Post – Beyond a Coding Assistant

  • Positions Kiro as a tool for full-stack development from spec to deployment.
  • Biggest strength: reducing communication overhead between devs, PMs, and QA.

👉 Takeaway: The real value lies not just in code generation, but in process standardization.

🎯 Insights from Real Use Cases

  • Biggest Strength: End-to-end sync from requirements → design → code, saving huge time on documentation and planning.
  • Main Limitation: Complex logic still needs developer oversight, especially for security and performance.
  • Ideal Use Cases: Startups that need speed and structure, or enterprise teams looking to minimize technical debt.

📌 Conclusion – Is Kiro the “Future IDE”?

Kiro is not just another AI IDE. It represents a new philosophy: Spec-Driven Development, where AI doesn’t just write code but participates in the entire software development lifecycle.

  • Cursor remains fantastic when you need to code fast and iterate rapidly.
  • Kiro is for when you want to elevate AI from “assistant” to “software architect.”

💡 My take:

Kiro may not replace Cursor immediately. But in the next 2–3 years, as enterprises demand standardized, testable, documented code, spec-driven IDEs like Kiro are likely to become the norm.

👉 Have you tried Kiro yet? Do you think the future of AI IDEs should lean more towards speed (Cursor style) or structure (Kiro style)?

Tăng Hiệu Quả Tuyển Dụng Nhờ Ứng Dụng AI Trong Sàng Lọc Hồ Sơ! Phân Tích Chi Tiết Về Lợi Ích, Các Ví Dụ Thực Tế Và Những Điểm Cần Lưu Ý

Tăng Hiệu Quả Tuyển Dụng Nhờ Ứng Dụng AI Trong Sàng Lọc Hồ Sơ! Phân Tích Chi Tiết Về Lợi Ích, Các Ví Dụ Thực Tế Và Những Điểm Cần Lưu Ý

Xin chào, tôi là Kakeya, đại diện của công ty Scuti.

Công ty chúng tôi chuyên cung cấp các dịch vụ như Phát triển phần mềm offshore và phát triển theo hình thức Labo tại Việt Nam, cũng như Cung cấp giải pháp AI tạo sinh. Gần đây, chúng tôi rất vinh dự khi nhận được nhiều yêu cầu phát triển hệ thống kết hợp với AI tạo sinh.

Sàng lọc hồ sơ là một quy trình tuyển dụng tốn nhiều thời gian và công sức mà nhiều doanh nghiệp đang gặp phải. Đặc biệt khi số lượng ứng viên đông, việc kiểm tra kỹ từng bộ hồ sơ trở nên vô cùng vất vả. Trong bối cảnh đó, công nghệ sàng lọc hồ sơ ứng dụng AI đang thu hút sự chú ý. Công cụ sàng lọc hồ sơ bằng AI được kỳ vọng sẽ giúp xử lý một lượng lớn hồ sơ một cách hiệu quả và giảm đáng kể gánh nặng cho bộ phận tuyển dụng. Tuy nhiên, vẫn có nhiều người băn khoăn về tính hiệu quả cũng như những điểm cần lưu ý khi triển khai AI vào sàng lọc hồ sơ.

Bài viết này sẽ phân tích kỹ lưỡng từ lợi ích khi áp dụng AI trong sàng lọc hồ sơ, các ví dụ thực tế đến những lưu ý quan trọng khi triển khai, nhằm giúp cả những người có kiến thức chuyên sâu cũng hiểu rõ hơn. Nội dung sẽ bao gồm toàn diện từ kiến thức cơ bản về AI trong sàng lọc hồ sơ, ưu – nhược điểm, đến các trường hợp áp dụng thực tế và các lưu ý cần thiết khi bắt đầu triển khai.

Kiến Thức Cơ Bản Về AI Trong Sàng lọc Hồ Sơ

Fundamentals of AI-Powered Resume Screening

Nếu bạn muốn tìm hiểu thêm về AI tạo sinh, hãy xem trước bài viết này.
Bài viết liên quan: Hướng Dẫn Toàn Diện Về Triển Khai AI Tạo Sinh: Từ Kiến Thức Cơ Bản Đến Ứng Dụng Thực Tiễn Và Triển Vọng Tương Lai

Định nghĩa và cơ chế hoạt động của AI trong sàng lọc hồ sơ

AI trong sàng lọc hồ sơ là hệ thống sử dụng trí tuệ nhân tạo (AI) để so sánh hồ sơ ứng viên với hình mẫu ứng viên lý tưởng và điều kiện ứng tuyển mà doanh nghiệp đưa ra, từ đó tự động lựa chọn những ứng viên có khả năng phù hợp cao nhất. Việc ứng dụng AI vào quy trình sàng lọc hồ sơ – vốn trước đây do nhà tuyển dụng thực hiện thủ công – giúp tiết kiệm thời gian đáng kể và nâng cao hiệu quả tuyển dụng.

Hệ thống này gồm ba bước chính sau:

  • Học dữ liệu: AI được huấn luyện bằng dữ liệu về hình mẫu ứng viên mà doanh nghiệp mong muốn, dữ liệu tuyển dụng trong quá khứ và bản mô tả công việc.

  • Đọc và chuyển đổi dữ liệu hồ sơ: AI đọc hồ sơ ứng viên và chuyển thành dữ liệu văn bản.

  • Chấm điểm: Dựa trên dữ liệu đã học, AI đánh giá từng bộ hồ sơ và đưa ra điểm số tương ứng.

CƠ CHẾ HOẠT ĐỘNG CỦA AI TRONG SÀNG LỌC HỒ SƠ

Những Gì AI Có Thể Thực Hiện Trong Sàng Lọc Hồ Sơ

AI trong sàng lọc hồ sơ không chỉ đơn thuần đưa ra kết quả đậu/rớt, mà còn cung cấp nhiều chức năng đa dạng. Cụ thể như sau:

  • Tự động kiểm tra hồ sơ: Tự động phát hiện lỗi chính tả, thiếu sót trong nội dung. Nhờ đó, chất lượng hồ sơ được cải thiện và giảm thiểu sai sót trong giai đoạn sàng lọc ban đầu.

  • Trích xuất kỹ năng và kinh nghiệm: Tự động trích xuất các kỹ năng và kinh nghiệm cần thiết từ hồ sơ, sau đó phân tích dựa trên các tiêu chí đánh giá. Điều này giúp nhà tuyển dụng hiểu chính xác hơn về năng lực của ứng viên.

  • Xếp hạng: Hiển thị danh sách ứng viên theo thứ hạng dựa trên điểm số, làm rõ mức độ ưu tiên. Từ đó, nhà tuyển dụng có thể so sánh và đánh giá ứng viên một cách hiệu quả.

  • Chẩn đoán mức độ phù hợp: Đánh giá mức độ phù hợp giữa ứng viên và hình mẫu nhân sự lý tưởng của doanh nghiệp, giúp xác định được những người có khả năng hòa nhập với văn hóa công ty. Ngoài ra, AI còn có thể phân tích kinh nghiệm làm việc và bộ kỹ năng trong quá khứ của ứng viên để dự đoán tiềm năng phát triển trong tương lai.

NHỮNG GÌ AI CÓ THỂ THỰC HIỆN TRONG SÀNG LỌC HỒ SƠ

Lợi Ích Của Việc Triển Khai AI Trong Sàng Lọc Hồ Sơ

Benefits Of Implementing AI In Resume Screening​

Tối ưu hóa quy trình tuyển dụng

Lợi ích lớn nhất của việc triển khai AI trong sàng lọc hồ sơ là nâng cao hiệu quả công việc tuyển dụng. Nhờ tự động hóa quá trình sàng lọc, AI giúp nhà tuyển dụng giảm tải khối lượng công việc liên quan đến việc kiểm tra số lượng lớn hồ sơ, từ đó tập trung vào các nhiệm vụ sau:

  • Duyệt nhanh hồ sơ ứng viên

  • Trích xuất thông tin cần thiết từ hồ sơ

  • Thực hiện quy trình đánh giá đậu/rớt

TỐI ƯU HÓA QUY TRÌNH SÀNG LỌC HỒ SƠ

Đặc biệt trong các trường hợp số lượng ứng viên lớn hoặc tiêu chí tuyển chọn phức tạp, việc áp dụng AI vào sàng lọc hồ sơ mang lại hiệu quả rút ngắn thời gian rất rõ rệt. Ví dụ, trong các chiến dịch tuyển dụng quy mô lớn với hơn 1.000 ứng viên, quy trình mà trước đây phải mất vài tuần mới hoàn tất bằng thủ công, nay có thể hoàn thành chỉ trong vài ngày.

Hơn nữa, nhờ triển khai AI, bộ phận tuyển dụng có thể tập trung nhiều hơn vào các công việc mang tính chiến lược, từ đó nâng cao chất lượng tổng thể của quy trình tuyển dụng.

Ngăn chặn việc bỏ sót nhân tài

AI trong sàng lọc hồ sơ đánh giá ứng viên dựa trên các tiêu chí khách quan, không bị ảnh hưởng bởi cảm xúc hay định kiến của con người. Nhờ đó, nguy cơ bỏ sót những ứng viên tài năng được giảm thiểu đáng kể.

Bên cạnh đó, AI có khả năng xử lý lượng lớn dữ liệu, nên có thể phát hiện ra các ứng viên tiềm năng mà con người khó nhận biết. Ví dụ, AI có thể phân tích dữ liệu tuyển dụng trong quá khứ để xác định những ứng viên có bộ kỹ năng đặc thù và có khả năng đạt hiệu suất cao trong tương lai. AI cũng có thể đánh giá toàn diện hơn bằng cách xem xét đa dạng nền tảng của ứng viên.

Giảm chi phí tuyển dụng

Việc triển khai AI trong sàng lọc hồ sơ còn giúp giảm chi phí nhân sự cho bộ phận tuyển dụng, thời gian sàng lọc và chi phí in ấn. Ngoài ra, việc rút ngắn thời gian tuyển chọn còn góp phần giảm chi phí tuyển dụng tổng thể.

Chẳng hạn, quy trình truyền thống có thể khiến chi phí tuyển một ứng viên lên đến hàng chục triệu đồng, nhưng với AI, khoản chi phí này có thể được giảm đáng kể. Nhờ vào khả năng xử lý dữ liệu hiệu quả, AI cũng giúp tăng tốc độ tuyển dụng, hỗ trợ doanh nghiệp nhanh chóng tìm được nhân tài phù hợp.

Nhược Điểm Của Việc Triển Khai AI Trong Sàng Lọc Hồ Sơ

Drawbacks Of Implementing AI In Resume Screening

Tính “hộp đen” trong tiêu chí đánh giá của AI

AI trong sàng lọc hồ sơ sử dụng các thuật toán phức tạp để đưa ra quyết định, do đó có thể dẫn đến việc tiêu chí đánh giá trở nên không minh bạch. Nếu lý do vì sao một ứng viên được chấp nhận hoặc bị loại không rõ ràng, sẽ rất khó để thuyết phục nhà tuyển dụng hoặc ứng viên chấp nhận kết quả.

Vì vậy, cần đảm bảo tính minh bạch trong quá trình ra quyết định của AI, và kết hợp thêm đánh giá từ con người khi cần thiết. Ví dụ, thiết lập vòng phản hồi (feedback loop) để cải thiện tiêu chí đánh giá của AI là một giải pháp hiệu quả. Bên cạnh đó, cần xem xét triển khai công nghệ AI có khả năng giải thích được quyết định của mình.

Vấn đề đạo đức

Việc sử dụng AI trong tuyển dụng có thể phát sinh các vấn đề đạo đức như sự công bằng hoặc phân biệt đối xử. Chẳng hạn, nếu dữ liệu học của AI có sự thiên lệch, thì những ứng viên mang đặc điểm cụ thể có thể bị đánh giá bất lợi.

Khi triển khai AI trong sàng lọc hồ sơ, cần đặc biệt chú ý đến yếu tố đạo đức. Phải thường xuyên rà soát dữ liệu học của AI để loại bỏ các thiên lệch. Ví dụ, việc làm sạch dữ liệu nhằm loại bỏ định kiến về giới tính hoặc chủng tộc là rất quan trọng. Ngoài ra, cần đảm bảo sự minh bạch trong cách sử dụng AI và giải thích rõ ràng điều này cho ứng viên.

Chi phí triển khai

Việc triển khai AI vào sàng lọc hồ sơ yêu cầu chi phí cho việc mua hệ thống, triển khai và vận hành. Đặc biệt với những hệ thống có tính năng cao cấp hoặc cần tùy biến, chi phí ban đầu có thể rất cao.

Do đó, trước khi triển khai cần đánh giá kỹ lưỡng hiệu quả chi phí và lựa chọn hệ thống phù hợp với ngân sách. Ví dụ, khoản đầu tư ban đầu có thể lên đến hàng trăm triệu đồng, nên cần cân nhắc lợi ích lâu dài. Ngoài ra, cũng cần tính đến chi phí vận hành và bảo trì sau khi triển khai.

Các Trường Hợp Ứng Dụng AI Trong Sàng Lọc Hồ Sơ

Use Cases Of AI In Resume Screening

Thẩm định pháp lý tại các văn phòng luật

Trong các hoạt động sáp nhập, mua lại doanh nghiệp hoặc ký kết hợp đồng đối tác, văn phòng luật cần kiểm tra một khối lượng lớn tài liệu để đánh giá rủi ro về pháp lý, tài chính và vận hành. AI trong sàng lọc hồ sơ giúp tối ưu hóa quy trình này thông qua phân loại tài liệu tự động, trích xuất dữ liệu thông minh và phân tích rủi ro nâng cao.

Nhờ đó, các đội ngũ pháp lý có thể nhanh chóng nắm bắt các thông tin quan trọng ẩn trong hợp đồng, báo cáo tài chính hoặc các tài liệu nộp cho cơ quan chức năng, từ đó tiến hành thẩm định một cách hiệu quả và toàn diện hơn. Ví dụ, những quy trình thủ công trước đây cần vài tuần thì nay có thể hoàn thành chỉ trong vài ngày nhờ AI.

Tuân thủ quy định tại các tổ chức tài chính (KYC/AML)

Các tổ chức tài chính phải tuân thủ quy định “Hiểu khách hàng của bạn” (KYC) và “Chống rửa tiền” (AML), điều này đòi hỏi việc rà soát khối lượng lớn hồ sơ khách hàng. AI trong sàng lọc hồ sơ giúp hợp lý hóa quy trình tuân thủ này bằng cách cung cấp các chức năng phân loại tài liệu tự động, trích xuất dữ liệu thông minh và đánh giá rủi ro.

Nhờ đó, hệ thống có thể phân tích hiệu quả các giấy tờ tùy thân, báo cáo tài chính và hồ sơ doanh nghiệp, giúp duy trì hồ sơ khách hàng chính xác đồng thời đảm bảo tuân thủ quy định một cách liên tục. Ví dụ, nhờ ứng dụng AI, quy trình vốn cần vài ngày xử lý thủ công giờ đây có thể hoàn tất chỉ trong vài giờ.

Thẩm định khách hàng tại các công ty bảo hiểm

Khi phát hành hợp đồng bảo hiểm nhân thọ, sức khỏe hoặc tài sản, các công ty bảo hiểm cần xác minh cẩn thận thông tin khách hàng để tuân thủ quy định và giảm thiểu rủi ro gian lận. AI trong sàng lọc hồ sơ giúp tự động hóa phân loại tài liệu, trích xuất dữ liệu và phân tích rủi ro, cho phép xác minh nhanh chóng các biểu mẫu đăng ký, hồ sơ y tế và tài liệu tài chính.

Nhờ đó, công ty bảo hiểm có thể thực hiện điều tra lý lịch toàn diện một cách hiệu quả, đánh giá chính xác hồ sơ rủi ro và đảm bảo tuân thủ quy định. Ví dụ, nhờ ứng dụng AI, quy trình từng cần vài ngày xử lý thủ công giờ chỉ mất vài giờ.

Rà soát tài liệu tài chính tại các công ty kế toán

Các công ty kiểm toán và kế toán cần rà soát kỹ lưỡng khối lượng lớn tài liệu tài chính để đảm bảo tính chính xác và tuân thủ chuẩn mực kế toán. AI tự động hóa phân loại tài liệu, trích xuất dữ liệu và phát hiện bất thường nâng cao, cho phép phân tích nhanh bảng cân đối kế toán, báo cáo kết quả hoạt động và hóa đơn.

Nhờ vậy, các công ty kiểm toán có thể thực hiện kiểm toán hiệu quả, phát hiện sớm các sai lệch tiềm ẩn và đảm bảo tính lành mạnh tài chính của khách hàng trong khi giảm thiểu rủi ro. Ví dụ, quy trình vốn cần vài tuần giờ đây có thể hoàn tất trong vài ngày nhờ AI.

Nghiên cứu dược phẩm và tuân thủ quy định

Các công ty dược phẩm và đơn vị tư vấn cần xử lý khối lượng lớn dữ liệu để đảm bảo độ an toàn, hiệu quả và tuân thủ quy định ngày càng thay đổi. AI trong sàng lọc tài liệu hỗ trợ xử lý nhanh dữ liệu thử nghiệm lâm sàng, hồ sơ giám sát dược và tài liệu khoa học, thực hiện trích xuất dữ liệu thông minh, phân tích nâng cao và lọc chất lượng.

Nhờ đó, nhóm nghiên cứu có thể nhanh chóng đưa ra các phân tích, hỗ trợ tuân thủ quy định và nâng cao độ chính xác khi đánh giá an toàn và hiệu quả trong từng giai đoạn phát triển thuốc. Ví dụ, quy trình từng cần vài tháng giờ có thể rút ngắn còn vài tuần nhờ AI.

Thẩm định trong hoạt động M&A

Thẩm định (Due Diligence) là một quy trình vô cùng quan trọng trong hoạt động mua bán – sáp nhập (M&A). Doanh nghiệp cần rà soát khối lượng lớn tài liệu liên quan đến đối tượng mua lại để đánh giá rủi ro và cơ hội. AI trong sàng lọc tài liệu giúp tối ưu hóa quy trình này như sau:

  • Tự động trích xuất thông tin quan trọng: Tự động trích xuất dữ liệu then chốt từ hợp đồng, báo cáo tài chính, hồ sơ nhân sự, v.v.

  • Phát hiện rủi ro: Phát hiện các điều khoản rủi ro hoặc số liệu bất thường, giúp sớm nhận diện các vấn đề tiềm ẩn trong quá trình tích hợp sau M&A.

  • Phân tích dữ liệu: Phân tích dữ liệu M&A trước đây và dữ liệu thị trường để đánh giá tính hợp lý của mức giá mua và dự đoán hiệu quả cộng hưởng sau sáp nhập.

Ví dụ, nhờ ứng dụng AI, các quy trình vốn mất vài tháng xử lý thủ công giờ đây có thể hoàn tất chỉ trong vài tuần. Hơn nữa, việc sử dụng AI giúp nâng cao độ chính xác trong quá trình thẩm định, từ đó cho phép đánh giá rủi ro một cách chính xác hơn.

THẨM ĐỊNH TRONG HOẠT ĐỘNG M&A

Những Điểm Cần Lưu Ý Khi Triển Khai AI Trong Sàng Lọc Hồ Sơ

Key Considerations When Implementing AI In Resume Screening

Không nên hoàn toàn phụ thuộc vào AI

AI trong sàng lọc hồ sơ là một công cụ hữu ích, nhưng quyết định cuối cùng nên được đưa ra bởi con người. Nhà tuyển dụng cần trực tiếp xem xét hồ sơ ứng viên và đánh giá tổng thể thay vì chỉ tin tưởng hoàn toàn vào kết quả do AI đưa ra.

Nhờ đó, nhà tuyển dụng có thể bổ sung những yếu tố mang tính cảm nhận và phán đoán mà AI dễ bỏ sót. Ví dụ, con người có thể phát hiện ra những kinh nghiệm đặc biệt hoặc kỹ năng nổi bật của ứng viên mà AI không nhận ra, từ đó giúp lựa chọn ứng viên phù hợp hơn.

Lựa chọn hệ thống phù hợp

Hiện có nhiều hệ thống AI hỗ trợ sàng lọc hồ sơ với chức năng và mức giá khác nhau. Việc lựa chọn hệ thống phù hợp với quy mô tuyển dụng, tiêu chí đánh giá và ngân sách của doanh nghiệp là rất quan trọng. Trước khi triển khai, nên so sánh nhiều hệ thống khác nhau và chọn ra giải pháp phù hợp nhất với nhu cầu thực tế. Chẳng hạn, việc thực hiện demo hệ thống và kiểm tra cảm nhận khi sử dụng thực tế là một cách rất hiệu quả.

Cân nhắc đến vấn đề đạo đức

Khi sử dụng AI để sàng lọc, cần đặc biệt lưu ý đến các rủi ro về tính công bằng và phân biệt đối xử. Doanh nghiệp cần thường xuyên rà soát dữ liệu học của AI và các tiêu chí tuyển chọn, đảm bảo không có sự thiên lệch, đồng thời điều chỉnh kịp thời khi cần thiết.

Ngoài ra, việc duy trì tính minh bạch và giải thích rõ ràng cho ứng viên về việc sử dụng AI cũng rất quan trọng. Ví dụ, doanh nghiệp có thể công khai tiêu chí đánh giá và quy trình ra quyết định của AI để tăng tính tin cậy.

Tương Lai Của AI Trong Sàng Lọc Hồ Sơ

The Future Of AI In Resume Screening

Sự tiến bộ của công nghệ AI

Công nghệ AI không ngừng phát triển từng ngày, và độ chính xác cũng như tính năng của AI trong sàng lọc hồ sơ cũng ngày càng được cải thiện. Trong tương lai, AI có thể đảm nhiệm vai trò phỏng vấn thay cho con người, hoặc lập kế hoạch đào tạo sau tuyển dụng, qua đó hỗ trợ toàn diện cho quy trình tuyển dụng.

Nhờ vậy, một quy trình tuyển dụng toàn diện và tiên tiến hơn sẽ trở thành hiện thực. Ví dụ, AI có thể tạo ra câu hỏi phỏng vấn và phân tích câu trả lời của ứng viên trong thời gian thực.

Góp phần cải cách phong cách làm việc

Việc triển khai AI trong sàng lọc hồ sơ không chỉ giúp giảm tải công việc cho bộ phận tuyển dụng mà còn đóng góp vào công cuộc cải cách phong cách làm việc của cả doanh nghiệp. Nhờ đó, nhân sự tuyển dụng có thể tập trung hơn vào các công việc sáng tạo, góp phần nâng cao năng suất cho tổ chức.

Ngoài ra, việc ứng dụng AI còn thúc đẩy mô hình làm việc linh hoạt và tuyển dụng từ xa. Chẳng hạn, thông qua các buổi phỏng vấn từ xa sử dụng AI, doanh nghiệp có thể thực hiện tuyển dụng vượt qua mọi giới hạn về vị trí địa lý.

Tổng kết: AI trong sàng lọc hồ sơ đang thúc đẩy sự tiến hóa của hoạt động tuyển dụng

Conclusion: AI in Resume Screening Accelerates the Evolution of Recruitment

AI trong sàng lọc hồ sơ mang lại nhiều lợi ích cho hoạt động tuyển dụng như nâng cao hiệu quả, ngăn ngừa việc bỏ sót nhân tài và giảm chi phí tuyển dụng. Tuy nhiên, không nên phụ thuộc hoàn toàn vào AI mà cần có sự vận hành phù hợp kèm theo yếu tố đạo đức. Với vai trò là một công cụ mạnh mẽ thúc đẩy sự phát triển của hoạt động tuyển dụng, AI trong sàng lọc hồ sơ chắc chắn sẽ ngày càng nhận được nhiều sự quan tâm trong thời gian tới.

Improved Hiring Efficiency through the Use of AI in Resume Screening! A Detailed Explanation of Benefits, Case Studies, and Key Considerations

Improved Hiring Efficiency through The Use Of AI In Resume Screening! A Detailed Explanation Of Benefits, Case Studies, And Key Considerations

Hello, I am Kakeya, the representative of Scuti.

Our company specializes in services such as Offshore Development And Lab-type Development in Vietnam, as well as Generative AI Consulting. Recently, we have been fortunate to receive numerous requests for system development in collaboration with generative AI.

Resume screening is a time-consuming and labor-intensive part of the hiring process that many companies struggle with. Especially when there are a large number of applicants, carefully reviewing each document becomes a daunting task. This is where AI-powered resume screening is attracting attention. AI-based resume screening tools are expected to significantly reduce the workload of recruiters by efficiently processing a large volume of application documents. However, many still have questions about the effectiveness and considerations involved in implementing AI for resume screening.

In this article, we provide a thorough explanation—from the benefits of implementing AI in resume screening to real-life use cases and potential pitfalls—so even those already well-versed in the topic can deepen their understanding. We comprehensively cover the fundamentals of AI-powered resume screening, its pros and cons, practical use cases, and key points to consider during implementation.

Fundamentals Of AI-Powered Resume Screening

Fundamentals of AI-Powered Resume Screening

If you want to learn more about Generative AI, be sure to check out this article first.
Related article: Comprehensive Guide To Implementing Generative AI: From Basic Knowledge To Practical Applications And Future Prospects

Definition and Mechanism of AI-Powered Resume Screening

AI-powered resume screening refers to a system that uses artificial intelligence (AI) to automatically select candidates who are most likely to match a company’s desired candidate profile and application criteria. By taking over the resume screening task that was traditionally performed manually by recruiters, AI enables significant time savings and operational efficiency.

The system generally operates through the following three steps:

  • Data Training: The AI is trained using data such as the company’s ideal candidate profiles, past hiring data, and job descriptions.

  • Document Parsing: The AI reads applicant documents and converts them into text data.

  • Scoring: Based on the learned data, the AI evaluates each resume and assigns a score.

MECHANISM OF AI-POWERED RESUME SCREENING

What AI-Powered Resume Screening Can Do

AI-powered resume screening goes beyond simple pass/fail judgments and offers a wide range of functionalities. Specifically, it provides the following capabilities:

  • Automatic Document Checks: Detects typographical errors and missing information automatically. This helps improve the quality of submitted documents and reduces errors in the initial screening phase.

  • Skill and Experience Extraction: Automatically extracts relevant skills and work experience from resumes and analyzes them based on evaluation criteria. This enables a more accurate understanding of a candidate’s capabilities.

  • Ranking: Displays candidates in a ranked list based on their scores, clarifying their priority levels. This allows recruiters to efficiently compare and assess applicants.

  • Aptitude Assessment: Evaluates how well a candidate matches the company’s ideal profile, helping to identify those who align with the corporate culture. In addition, the AI can analyze applicants’ past work history and skill sets to forecast their potential for future growth.

WHAT AI-POWERED RESUME SCREENING CAN DO

Benefits Of Implementing AI In Resume Screening

Benefits Of Implementing AI In Resume Screening​

Streamlining Recruitment Operations

The greatest benefit of implementing AI in resume screening is the improvement in recruitment efficiency. By automating the screening process, AI frees recruiters from the time-consuming task of reviewing a massive number of applications, allowing them to focus on the following tasks:

  • Quickly reviewing applicant documents

  • Extracting necessary information from resumes

  • Making pass/fail decisions

Streamlining Recruitment Operations

Especially in cases where there are a large number of applicants or the selection criteria are complex, AI-powered resume screening delivers significant time-saving effects. For instance, in large-scale hiring campaigns with over 1,000 applicants, a process that would traditionally take several weeks to complete manually can now be finished within just a few days.

Moreover, with the introduction of AI, recruiters can allocate more time to strategic tasks, thereby enhancing the overall quality of the hiring process.

Preventing Overlooked Talent

AI in resume screening evaluates applications based on objective criteria, unaffected by human emotions or biases. As a result, the risk of overlooking talented candidates is significantly reduced.

Additionally, because AI can process vast amounts of data, it has the potential to discover candidates with hidden potential that humans might miss. For example, through AI analysis based on past hiring data, it is possible to identify candidates with specific skill sets who are likely to perform at a high level in the future. Furthermore, AI can take into account candidates’ diverse backgrounds and provide a more inclusive evaluation.

Reduction of Hiring Costs

Implementing AI in resume screening also contributes to cost reduction, including recruiter labor costs, time spent on screening, and printing expenses. In addition, the shortened selection period further reduces overall hiring costs.

For example, traditional processes can result in hiring costs of several hundred thousand yen per person, but with AI, these costs can be significantly lowered. The efficient data processing capabilities of AI also improve the overall speed of recruitment, enabling faster talent acquisition.

Drawbacks Of Implementing AI In Resume Screening

Drawbacks Of Implementing AI In Resume Screening

Black Box Nature of AI Decision-Making

AI in resume screening relies on complex algorithms to make decisions, which can lead to a “black box” issue where the reasoning behind decisions is unclear. If the reasons why certain candidates pass or fail are not transparent, it can be difficult for both recruiters and applicants to accept the outcomes.

Therefore, it is important to increase the transparency of AI decision-making and supplement it with human judgment when necessary. For example, implementing a feedback loop to review AI decisions can help refine evaluation criteria. It is also advisable to adopt explainable AI technologies that clarify the basis of AI judgments.

Ethical Concerns

AI-based screening may raise ethical issues such as fairness and discrimination. If the training data used by AI contains biases, there is a risk that applicants with certain attributes may be unfairly disadvantaged.

Ethical considerations are essential when implementing AI in resume screening. It is necessary to regularly review training data to eliminate bias. For instance, data cleansing to remove gender or racial bias is crucial. Moreover, it is important to ensure transparency in how AI is used and clearly communicate this to applicants.

Implementation Costs

Introducing AI for resume screening involves costs such as system acquisition, implementation, and operational expenses. Particularly for systems with advanced features or requiring customization, initial costs can be high.

It is important to thoroughly evaluate cost-effectiveness before implementation and choose a system that fits within the budget. For example, initial investments may reach several million yen, so long-term return on investment should be considered. Additionally, post-implementation operational and maintenance costs must also be factored in.

Use Cases Of AI In Resume Screening

Use Cases Of AI In Resume Screening

Due Diligence in Law Firms

During mergers, acquisitions, or partnership agreements, law firms must review a large volume of documents to assess legal, financial, and operational risks. AI-powered resume screening can streamline this process by enabling automated document classification, intelligent data extraction, and advanced risk analysis.

This allows legal teams to quickly identify critical information hidden in contracts, financial statements, and regulatory filings, facilitating more thorough due diligence. For example, what used to take several weeks with manual review can now be completed in just a few days using AI.

Customer Compliance in Financial Institutions (KYC/AML)

Financial institutions are required to comply with Know Your Customer (KYC) and Anti-Money Laundering (AML) regulations, which involves reviewing a vast amount of customer documents. AI in resume screening helps streamline this compliance process by providing automated document categorization, intelligent data extraction, and risk assessment functionalities.

This enables efficient analysis of IDs, financial statements, and corporate records, helping to maintain accurate customer profiles while ensuring ongoing regulatory compliance. For example, with AI, processes that previously took days by hand can now be completed in just a few hours.

Customer Due Diligence in Insurance Companies

When issuing life, health, or property insurance policies, insurers must carefully verify customer information to comply with regulations and reduce fraud risk. AI in resume screening automates document classification, data extraction, and risk analysis, allowing quick verification of application forms, medical records, and financial documents.

This enables insurance companies to efficiently conduct comprehensive background checks, accurately assess risk profiles, and ensure regulatory compliance. For example, AI can reduce processes that previously required days of manual work to just a few hours.

Financial Document Review in Accounting Firms

Auditors and accounting firms must thoroughly review a large volume of financial documents to ensure accuracy in accounting standards and compliance. AI automates document classification, data extraction, and advanced anomaly detection, enabling rapid analysis of balance sheets, income statements, and invoices.

As a result, audit firms can perform efficient audits, detect discrepancies early, and ensure clients’ financial integrity while mitigating risk. With AI, tasks that previously took weeks can now be completed within days.

Pharmaceutical Research and Compliance

Pharmaceutical companies and consultants need to process massive amounts of data to ensure drug safety, efficacy, and compliance with evolving regulations. AI-powered document screening facilitates rapid processing of clinical trial data, pharmacovigilance documents, and scientific literature, offering intelligent data extraction, advanced analysis, and quality filtering.

This allows pharma teams to gain faster insights, support regulatory compliance, and improve the accuracy of safety and efficacy assessments at every stage of drug development. For instance, AI can reduce a process that once took several months to just a few weeks.

Due Diligence in Mergers and Acquisitions

Due diligence is a critical process in mergers and acquisitions (M&A). It requires reviewing a vast amount of documentation about the target company to evaluate risks and opportunities. AI-powered screening enhances this process in several ways:

  • Automated Extraction of Key Information: Extracts important data from a variety of documents, including contracts, financial statements, and employee records.

  • Risk Detection: Identifies risk-related clauses and abnormal figures to uncover potential issues early in the post-merger integration process.

  • Data Analysis: Analyzes historical M&A data and market trends to assess the appropriateness of the purchase price and predict post-merger synergies.

For example, by utilizing AI, processes that previously took several months to complete manually can now be finished within just a few weeks. Moreover, the use of AI enhances the accuracy of due diligence, enabling more precise risk assessments.

DUE DILIGENCE IN MERGERS AND ACQUISITIONS

Key Considerations When Implementing AI In Resume Screening

Key Considerations When Implementing AI In Resume Screening

Don’t Rely Solely on AI

AI for resume screening is a powerful tool, but the final decision should be made by humans. It is important for recruiters to review application documents themselves and make comprehensive judgments, rather than blindly accepting the AI’s evaluations.

This allows recruiters to capture subtle nuances or unique human insights that AI might overlook. For example, a recruiter may identify distinctive experiences or skills in a candidate that the AI missed, leading to better hiring decisions.

Choose the Right System

There are various types of AI resume screening systems, each with different features and pricing. It is essential to choose the most suitable system based on the size of your hiring needs, evaluation criteria, and budget. Before implementation, compare multiple systems and select the one that best meets your requirements. For instance, conducting a system demo and evaluating its usability in real scenarios is highly effective.

Consider Ethical Issues

When using AI for screening, it is crucial to address risks related to fairness and discrimination. Regularly review the training data and selection criteria to ensure they are free from bias and make adjustments as needed.

Moreover, maintaining transparency and clearly explaining the use of AI to applicants is also important. For example, disclosing the AI’s evaluation criteria and decision-making process to candidates can help build trust.

The Future Of AI In Resume Screening

The Future Of AI In Resume Screening

Advancement of AI Technology

AI technology continues to evolve daily, and the accuracy and functionality of AI in resume screening are also improving. In the future, AI may be able to conduct interviews on behalf of recruiters or even create post-hiring training plans, expanding its role in supporting the entire recruitment process.

This will likely lead to a more comprehensive and sophisticated hiring process. For example, AI could generate interview questions and analyze candidates’ responses in real time.

Contribution to Work Style Reform

Implementing AI in resume screening not only reduces the burden on recruiters but also contributes to broader work style reforms across the organization. Recruiters will be able to focus more on creative tasks, which can lead to increased productivity for the company.

Furthermore, AI can help promote flexible work arrangements and remote hiring. For example, AI-powered remote interviews can enable recruitment activities that go beyond geographical constraints.

Conclusion: AI in Resume Screening Accelerates the Evolution of Recruitment

Conclusion: AI in Resume Screening Accelerates the Evolution of Recruitment

AI-powered resume screening offers numerous benefits in recruitment activities, including improved efficiency, prevention of overlooked talent, and reduced hiring costs. However, it is important not to rely solely on AI and to ensure ethical considerations and proper operation. As a powerful tool that accelerates the evolution of hiring practices, AI in resume screening is expected to attract even greater attention in the future.

GPT-5: A Quantum Leap in Artificial Intelligence

OpenAI officially launched GPT-5, the most advanced model in its history. This wasn’t just a routine upgrade—it represented a bold leap toward a unified AI system capable of adapting seamlessly between fast, lightweight responses and deep, expert-level reasoning. With GPT-5, OpenAI introduced a model that could dynamically route between different reasoning modes, process multimodal inputs, and deliver results that rival (or even surpass) human experts in areas like coding, healthcare, mathematics, and complex reasoning.

1. From GPT-1 to GPT-5: The Rise of Smarter, Safer, and More Human AI

When OpenAI introduced GPT-1 in 2018, it was a relatively small model with 117 million parameters, capable only of handling basic natural language tasks. Yet, it planted the seed for what would later become a technological revolution.

In 2019, GPT-2 took a giant leap forward. With 1.5 billion parameters, it could generate surprisingly coherent and contextually relevant text. At that time, the public release was even delayed due to concerns over misuse—a sign of how powerful it was compared to what existed before.

Evolution of GPT Models

Then came GPT-3 (2020) with 175 billion parameters. This version made AI accessible to the world. From writing essays, generating code, to assisting in creative tasks, GPT-3 became the first version that truly entered daily workflows. It also laid the foundation for the rise of ChatGPT, which quickly became a household name.

By 2023, GPT-4 introduced multimodal capabilities—understanding not just text but also images, and later, even audio. This turned ChatGPT into a versatile tool: analyzing documents, describing pictures, and holding voice conversations. GPT-4 became the standard for AI in business, education, and creative industries.

In August 2025, OpenAI unveiled GPT-5, marking the next big chapter in this evolution. This wasn’t just a routine upgrade—it represented a bold leap toward a unified AI system capable of adapting seamlessly between fast, lightweight responses and deep, expert-level reasoning.

With GPT-5, OpenAI introduced a model that could dynamically route between different reasoning modes, process multimodal inputs, and deliver results that rival (or even surpass) human experts in areas like coding, healthcare, mathematics, and complex reasoning.

Unlike earlier generations where users had to choose between models (e.g., GPT-4 Turbo, GPT-4o, etc.), GPT-5 introduces a unified architecture:

  • Fast, efficient models for everyday, lightweight tasks.

  • Deep reasoning “thinking” models for complex queries requiring logical, multi-step analysis.

  • A real-time router that automatically determines which model (and reasoning mode) to invoke, based on query complexity, user intent, and even explicit instructions in the prompt like “think deeply about this.”

The user no longer has to make the choice—the model adapts dynamically, delivering both speed and quality without sacrificing one for the other.

GPT-5 handles more than just text. It processes images, code, structured data, and in some cases audio and video, depending on the platform and API integration. Early reports indicate GPT-5 can work with extremely large context windows—up to 1 million tokens—allowing it to analyze entire books, long meeting transcripts, or massive codebases in one go.

This makes GPT-5 especially valuable in fields that rely on long-form reasoning: research, law, education, and enterprise knowledge management.

2. Key Performance Gains

2.1. Coding and Software Development

GPT-5 achieves state-of-the-art results in software development tasks. It not only writes accurate code but also explains design decisions, reviews existing codebases, and suggests improvements. With larger context windows, developers can now feed entire repositories for refactoring or bug-fixing at once. This drastically reduces development cycles.

GPT-5 sets new records across programming tasks:

  • 74.9% on SWE-Bench Verified (up from GPT-4’s ~49%).

  • 88% on Aider Polyglot multi-language coding benchmark.

Developers using tools like Cursor, Windsurf, and Vercel AI SDK report GPT-5 is more “intuitive, coachable, and reliable” in generating, refactoring, and debugging code.

Developers now have more fine-grained control over outputs with new API parameters:

  • verbosity (low, medium, high) – adjust response length and detail

  • reasoning_effort (minimal, low, medium, high) – choose between deep reasoning or faster execution

Additionally, GPT-5 introduces custom tools that accept plain-text input instead of JSON and supports context-free grammar (CFG) constraints for structured outputs.

GPT-5 comes in multiple sizes via API—gpt-5, gpt-5-mini, and gpt-5-nano—allowing developers to balance performance, cost, and latency. There’s also a gpt-5-chat-latest variant (without reasoning) available in both ChatGPT and the API.

Compared to prior models, GPT-5 is more reliable in developer environments. It makes fewer errors, communicates its capabilities more honestly, and produces safer, more useful outputs.

2.2. Enterprise Integration

In enterprises, GPT-5 can summarize thousands of documents, generate compliance reports, or extract insights from structured and unstructured data. Early adopters report that tasks which took hours of manual effort can now be completed in minutes, enabling employees to focus on higher-value work.

Large organizations—including Amgen, BNY, California State University, Figma, Intercom, Lowe’s, Morgan Stanley, SoftBank, and T-Mobile—are integrating GPT-5 into workflows. The model helps reduce bottlenecks, automate repetitive knowledge tasks, and enable rapid analysis across documents, datasets, and customer interactions.

GPT-5 powers conversational agents that handle millions of customer queries with higher accuracy and empathy. It adapts tone based on context, offering professional responses for business and more casual ones for retail or lifestyle brands. Companies using GPT-5 in customer support have reported reduced ticket backlog and improved satisfaction scores.

2.3. Reduced Hallucinations

One of the biggest leaps is GPT-5’s dramatic reduction in hallucinations. Compared to GPT-4, the model is far less likely to invent citations, fabricate data, or misinterpret instructions.

Instead of flat refusals for sensitive queries, GPT-5 provides “safe completions”: careful, measured answers that maintain compliance without leaving the user frustrated.

2.4. Personalized Interaction

GPT-5 offers multiple interaction “modes”:

  • Fast — lightweight, quick responses.

  • Thinking — deliberate, structured, multi-step reasoning.

  • Pro — research-oriented responses at near-expert level.

In ChatGPT, OpenAI even added personalities like “Cynic,” “Listener,” and “Nerd,” allowing the model to engage in different tones and styles depending on the user’s preference.

2.5. Pricing and Access

  • Free users: GPT-5 is available with usage limits.

  • ChatGPT Plus ($20/month): expanded usage, including access to the reasoning modes.

  • ChatGPT Pro ($200/month): unlimited access to GPT-5 Pro, designed for heavy workloads like enterprise analytics, R&D, and coding at scale.

This tiered system allows accessibility for casual users while scaling to professional and enterprise needs.


3. Real-World Applications

3.1. Education and Research

GPT-5 introduces a “Study Mode” that helps students and educators plan lessons, explain complex concepts, and generate research outlines. Its expanded context window allows it to analyze large syllabi, research papers, or even historical archives in a single conversation.

It’s no exaggeration to say GPT-5 could become a “personal tutor at scale.”

3.2. Agentic Tasks

The model is designed for agent-like behavior: it can manage email, interact with Google Calendar, or execute workflows by connecting with external tools. Platforms like Botpress have already integrated GPT-5 to enable no-code AI agent creation, allowing businesses to deploy assistants without technical expertise.

3.3. Healthcare

On medical and scientific tasks, GPT-5 demonstrates expert-level reasoning. It can read radiology scans, summarize clinical guidelines, and even assist in drug discovery by analyzing molecular data. Compared to earlier models, GPT-5 shows fewer critical errors, making it more reliable as a decision-support system.

On medical benchmarks like MedQA, MedXpertQA, USMLE, and VQA-RAD, GPT-5 outperforms human experts and earlier models. It can analyze radiology images, provide diagnostic reasoning, and summarize clinical guidelines—all while adhering to strict safety and compliance protocols.

For the first time, an AI system is showing signs of being a trustworthy medical co-pilot.

4. Market Feedback

The launch of GPT-5 received significant attention across industries. While many praised its performance in technical benchmarks and enterprise adoption, some users noted that the model initially felt more “robotic” and less personable compared to GPT-4o. This created mixed impressions during the first weeks after release.

Among developers, GPT-5 was widely embraced thanks to its larger context window, reduced hallucinations, and flexible reasoning modes. Many open-source projects and AI startups quickly integrated it into workflows, citing massive productivity gains. However, some developers raised concerns about increased API costs when using higher reasoning levels.

Enterprises have been particularly positive, with companies like Microsoft and Oracle integrating GPT-5 into their flagship products. Reports indicate that customer support efficiency improved, compliance reporting became faster, and analytics workloads were streamlined. For many organizations, GPT-5 is now seen as a strategic investment in AI transformation.

For everyday users, GPT-5 was received with both excitement and skepticism. Many appreciated the deeper reasoning in education, coding help, and creative writing. Still, some preferred GPT-4o’s warmth and conversational style, pushing OpenAI to update GPT-5 with improved “human-like” interaction over time.

4.1. Positive Reception

  • Expert-level reasoning: Sam Altman described GPT-5 as “PhD-level expert intelligence.

  • Smooth UX: Reviewers compare GPT-5’s unified routing to the iPhone’s Retina display moment—a breakthrough that users didn’t know they needed until they experienced it.

4.2. Constructive Criticism

  • Some users feel GPT-5 lacks warmth and personality compared to GPT-4o, which had more conversational charm.

  • Others argue it’s an incremental upgrade rather than a radical breakthrough in creativity—especially in literature and artistic writing, where rivals like Anthropic’s Claude 4 show more flair.

  • The rollout faced hiccups: early bugs, occasional routing failures, and inconsistent access for some users created frustration.

5. The Road Ahead

GPT-5 is not the end, but a milestone. OpenAI has already signaled that work on GPT-6 and other specialized models is underway. The focus will likely be on deeper reasoning, multimodal integration across video, audio, and sensor data, and even more robust safeguards for safety and alignment.

For all its raw power, GPT-5 still struggles with emotional tone and creativity. Users want AI that feels alive and empathetic, not just efficient. The future may lie in combining reasoning with emotional intelligence.

Currently, GPT-5 does not “learn in real-time.” Updating its knowledge requires retraining, limiting its ability to adapt instantly. The next frontier for AGI will be continuous, safe online learning.

OpenAI faces rivals like Anthropic’s Claude 4, xAI’s Grok 4 Heavy, and Google DeepMind’s Gemini Ultra. To stay ahead, GPT-5 must balance cost, speed, creativity, and safety while expanding real-world impact.

6. Conclusion

GPT-5 isn’t just another model—it’s a system: fast when needed, deeply analytical when required, and adaptive across tasks from coding to healthcare. It marks OpenAI’s boldest move yet toward AGI.

But technology alone won’t decide GPT-5’s success. The real test lies in whether users feel trust, warmth, and creativity in their interactions. For AI to truly integrate into daily life, it must not only think like an expert but also connect like a human.

In the coming months and years, GPT-5 may well become the invisible engine powering education, business, and healthcare. And if OpenAI succeeds in blending intelligence with empathy, GPT-5 could be remembered as the moment AI became not just useful—but indispensable.