Cách Mọi Người Sử Dụng ChatGPT: Nghiên Cứu Toàn Diện

Tóm Tắt Executive

Nghiên cứu “How People Use ChatGPT” là phân tích toàn diện nhất về cách 700 triệu người dùng trên toàn thế giới tương tác với trí tuệ nhân tạo. Được thực hiện bởi đội ngũ chuyên gia hàng đầu từ OpenAI, Đại học Duke và Harvard, nghiên cứu này sử dụng phương pháp bảo vệ quyền riêng tư tiên tiến để phân tích hơn 1.1 triệu cuộc hội thoại mẫu, tiết lộ những hiểu biết chưa từng có về cách con người sử dụng AI trong thực tế.

Con Số Ấn Tượng

  • 700 triệu người dùng hàng tuần (10% dân số trưởng thành toàn cầu)
  • 18 tỷ tin nhắn mỗi tuần (2.5 tỷ tin nhắn mỗi ngày, 29,000 tin nhắn mỗi giây)
  • Tăng trưởng chưa từng có trong lịch sử công nghệ
  • 70% tin nhắn không liên quan công việc (tăng từ 53% tháng 6/2024)
  • Consumer surplus ít nhất $97 tỷ/năm chỉ riêng tại Mỹ

1. Giới Thiệu và Bối Cảnh

ChatGPT: Công Nghệ Đột Phá

ChatGPT được ra mắt vào tháng 11/2022 như một “research preview” và đã trở thành chatbot thương mại đầu tiên và có khả năng lớn nhất trên thị trường. Dựa trên Large Language Model (LLM), ChatGPT đại diện cho sự tăng tốc đáng kể trong khả năng AI.

Tốc Độ Phát Triển Lịch Sử

Timeline phát triển:

  • 30/11/2022: Ra mắt “research preview”
  • 5/12/2022: Đạt 1 triệu người dùng trong 5 ngày
  • Q1/2023: 100 triệu người dùng
  • Q2/2023: 200 triệu người dùng
  • Q3/2023: 350 triệu người dùng
  • Q4/2023: 500 triệu người dùng
  • Q1/2024: 600 triệu người dùng
  • Q2/2024: 650 triệu người dùng
  • Q3/2025: 700 triệu người dùng

So Sánh Với Các Nền Tảng Khác

ChatGPT đã đạt được sự chấp nhận toàn cầu với tốc độ chưa từng thấy, vượt xa tất cả các nền tảng khác trong lịch sử công nghệ. Tốc độ tăng trưởng này không có tiền lệ và cho thấy sự thay đổi căn bản trong cách con người tương tác với công nghệ.


2. Phương Pháp Nghiên Cứu và Bảo Vệ Quyền Riêng Tư

Datasets Sử Dụng

1. Growth Dataset:

  • Tổng tin nhắn hàng ngày từ 11/2022-9/2025
  • Thông tin nhân khẩu học cơ bản tự báo cáo
  • Metadata người dùng đã được ẩn danh hóa

2. Classified Messages:

  • Mẫu ngẫu nhiên ~1.1 triệu tin nhắn từ 5/2024-6/2025
  • Phân loại tự động bằng LLM
  • Loại trừ người dùng opt-out training, dưới 18 tuổi, đã xóa tài khoản

3. Employment Dataset:

  • Dữ liệu việc làm tổng hợp cho 130,000 người dùng
  • Phân tích trong Data Clean Room bảo mật
  • Chỉ báo cáo tổng hợp (tối thiểu 100 người dùng)

Bảo Vệ Quyền Riêng Tư

Automated Classification:

  • Không ai đọc tin nhắn thô
  • Sử dụng LLM để phân loại tự động
  • Privacy Filter loại bỏ PII
  • Context window 10 tin nhắn trước

Data Clean Room:

  • Phân tích dữ liệu việc làm trong môi trường bảo mật
  • Notebook phải được phê duyệt trước khi chạy
  • Dữ liệu bị xóa sau khi nghiên cứu hoàn thành

Validation:

  • So sánh với WildChat dataset (public)
  • Human annotators đánh giá 149 tin nhắn
  • Fleiss’ κ và Cohen’s κ để đo độ tin cậy

3. Tăng Trưởng và Phát Triển

Tăng Trưởng Tổng Thể

Số liệu tăng trưởng:

  • Tháng 7/2024 – 7/2025: Số tin nhắn tăng hơn 5 lần
  • Các nhóm người dùng: Cả nhóm mới và nhóm cũ đều tăng trưởng
  • Tin nhắn/người dùng: Tăng trưởng liên tục trong mọi nhóm

Phân Tích Theo Nhóm Người Dùng

Nhóm đầu tiên (Q4/2022-Q1/2023):

  • Sử dụng giảm nhẹ trong 2023
  • Bắt đầu tăng trưởng trở lại cuối 2024
  • Hiện tại cao hơn mọi thời điểm trước

Các nhóm sau:

  • Tăng trưởng mạnh từ nhóm người dùng mới
  • Tăng trưởng trong nhóm người dùng hiện tại
  • Cải thiện khả năng mô hình và khám phá use case mới

4. Cách Sử Dụng ChatGPT

Phân Loại Công Việc vs. Cá Nhân

Bảng 1: Tăng Trưởng Tin Nhắn Hàng Ngày (Triệu)

Tháng Không công việc Tỷ lệ Công việc Tỷ lệ Tổng
Tháng 6/2024 238 53% 213 47% 451
Tháng 6/2025 1,911 73% 716 27% 2,627
Tăng trưởng +703% +20 điểm +236% -20 điểm +483%

Phát hiện quan trọng:

  • Cả hai loại tin nhắn đều tăng liên tục
  • Tin nhắn không công việc tăng nhanh hơn 3 lần
  • Xu hướng chủ yếu do thay đổi trong từng nhóm người dùng
  • Phù hợp với consumer surplus $97 tỷ/năm (Collis & Brynjolfsson, 2025)

Ba Chủ Đề Chính (80% Sử Dụng)

1. Practical Guidance (Hướng Dẫn Thực Tiễn) – 29%

Phân loại chi tiết:

  • Tutoring/Teaching: 10.2% tổng tin nhắn (36% trong Practical Guidance)
  • How-to Advice: 8.5% tổng tin nhắn (30% trong Practical Guidance)
  • Creative Ideation: Tạo ý tưởng sáng tạo
  • Health/Fitness/Beauty: Lời khuyên sức khỏe, thể dục, làm đẹp

Đặc điểm:

  • Ổn định ở mức 29% trong suốt thời gian nghiên cứu
  • Khác biệt với Seeking Information ở chỗ được tùy chỉnh cao
  • Ví dụ: Kế hoạch tập luyện cá nhân hóa vs. Thông tin chung về marathon Boston

2. Writing (Viết Lách) – 24% (Giảm từ 36% tháng 7/2024)

Phân loại chi tiết:

  • Edit/Critique Provided Text: 40% (chỉnh sửa văn bản có sẵn)
  • Personal Writing/Communication: 25% (viết cá nhân, giao tiếp)
  • Translation: 15% (dịch thuật)
  • Argument/Summary Generation: 15% (tạo lập luận, tóm tắt)
  • Write Fiction: 5% (viết sáng tạo)

Đặc điểm quan trọng:

  • 2/3 tin nhắn Writing là chỉnh sửa văn bản có sẵn, không tạo mới
  • 40% tin nhắn công việc là Writing (tháng 7/2025)
  • 52% tin nhắn trong quản lý và kinh doanh là Writing
  • Giảm có thể do chuyển sang API cho lập trình

3. Seeking Information (Tìm Kiếm Thông Tin) – 24% (Tăng từ 14% tháng 7/2024)

Phân loại chi tiết:

  • Specific Info: Thông tin cụ thể về người, sự kiện, sản phẩm
  • Purchasable Products: Tìm kiếm sản phẩm có thể mua
  • Cooking/Recipes: Công thức nấu ăn

Đặc điểm:

  • Tăng trưởng mạnh nhất trong 3 chủ đề chính
  • Thay thế gần như hoàn toàn cho tìm kiếm web truyền thống
  • Linh hoạt hơn web search vì cung cấp phản hồi tùy chỉnh

Các Chủ Đề Khác

Technical Help – 5% (Giảm từ 12% tháng 7/2024)

  • Computer Programming: 4.2% tổng tin nhắn
  • Mathematical Calculation: 3% tổng tin nhắn
  • Data Analysis: 0.4% tổng tin nhắn

Lý do giảm: Sử dụng LLM cho lập trình tăng mạnh qua API, AI assistance trong code editing, và autonomous programming agents

Multimedia – 7% (Tăng từ 2% tháng 7/2024)

  • Create an Image: Tạo hình ảnh
  • Analyze an Image: Phân tích hình ảnh
  • Generate/Retrieve Other Media: Tạo/tìm media khác

Spike tháng 4/2025: Sau khi ChatGPT ra mắt tính năng tạo hình ảnh mới

Self-Expression – 2.4% (Thấp hơn dự kiến)

  • Relationships/Personal Reflection: 1.9% tổng tin nhắn
  • Games/Role Play: 0.4% tổng tin nhắn

So sánh: Zao-Sanders (2025) ước tính Therapy/Companionship là use case phổ biến nhất, nhưng nghiên cứu này cho thấy ngược lại


5. Phân Tích Mục Đích Sử Dụng: Asking/Doing/Expressing

Phân Loại Chi Tiết

Loại Tỷ lệ Mô tả Ví dụ
Asking 49% Tìm kiếm thông tin, lời khuyên để ra quyết định “Ai là tổng thống sau Lincoln?”, “Làm sao tạo ngân sách quý này?”
Doing 40% Yêu cầu ChatGPT thực hiện nhiệm vụ cụ thể “Viết lại email này cho trang trọng hơn”, “Tạo báo cáo tóm tắt”
Expressing 11% Bày tỏ quan điểm, cảm xúc, không có mục đích rõ ràng “Tôi cảm thấy lo lắng”, “Hôm nay thật tuyệt!”

Xu Hướng Thay Đổi Theo Thời Gian

Tháng 7/2024:

  • Asking: 50%
  • Doing: 50%
  • Expressing: 8%

Tháng 6/2025:

  • Asking: 51.6%
  • Doing: 34.6%
  • Expressing: 13.8%

Phân tích:

  • Asking tăng trưởng nhanh nhất
  • Asking được đánh giá chất lượng cao hơn
  • Doing chiếm 56% tin nhắn công việc
  • Writing chiếm 35% tin nhắn Doing

Phân Tích Theo Chủ Đề

Asking phổ biến hơn trong:

  • Practical Guidance
  • Seeking Information

Doing phổ biến hơn trong:

  • Writing
  • Multimedia

Expressing phổ biến hơn trong:

  • Self-Expression

6. Hoạt Động Công Việc (O*NET)

7 Hoạt Động Chính (77% Tổng Tin Nhắn)

Xếp hạng Hoạt động Tỷ lệ Mô tả
1 Getting Information 19.3% Thu thập thông tin từ nhiều nguồn
2 Interpreting Information 13.1% Giải thích ý nghĩa thông tin cho người khác
3 Documenting Information 12.8% Ghi chép, lưu trữ thông tin
4 Providing Consultation 9.2% Cung cấp tư vấn và lời khuyên
5 Thinking Creatively 9.1% Tư duy sáng tạo, đổi mới
6 Making Decisions 8.5% Ra quyết định và giải quyết vấn đề
7 Working with Computers 4.9% Làm việc với máy tính

Phân Tích Theo Nghề Nghiệp

Bảng 2: Xếp Hạng Hoạt Động Theo Nghề (1 = Phổ Biến Nhất)

Nghề Documenting Making Decisions Thinking Creatively Working with Computers Interpreting Getting Info Consultation
Management 2 1 3 6 4 5 8
Business 2 1 3 6 4 5 7
Computer/Math 4 2 5 1 3 6 7
Engineering 3 1 5 2 4 6 7
Science 2 1 4 3 6 5 7
Education 1 2 3 4 6 5 7
Health Professionals 1 2 3 X 5 4 6
Legal 1 X X X X X X

Phát hiện quan trọng:

  • Making Decisions luôn trong top 2 của mọi nghề
  • Documenting Information luôn trong top 4
  • Thinking Creatively xếp thứ 3 trong 10/13 nhóm nghề
  • Tương đồng cao giữa các nghề nghiệp khác nhau
  • ChatGPT chủ yếu hỗ trợ tìm kiếm thông tin và ra quyết định

7. Đặc Điểm Nhân Khẩu Học

Khoảng Cách Giới Tính Đã Thu Hẹp Đáng Kể

Timeline thay đổi:

  • Q4/2022 – Q1/2023: 80% người dùng có tên nam giới
  • Q2/2023: 70% nam giới, 30% nữ giới
  • Q3/2023: 65% nam giới, 35% nữ giới
  • Q4/2023: 60% nam giới, 40% nữ giới
  • Q1/2024: 56% nam giới, 44% nữ giới
  • Q2/2024: 54% nam giới, 46% nữ giới
  • Q2/2025: 48% nam giới, 52% nữ giới

Yếu tố ảnh hưởng:

  1. Marketing và PR: Chiến dịch hướng đến nữ giới
  2. Tính năng mới: Phù hợp với sở thích nữ giới
  3. Ứng dụng giáo dục: Nữ giới sử dụng nhiều hơn cho học tập
  4. Tích hợp xã hội: Chia sẻ kinh nghiệm trong cộng đồng

Phân Bố Theo Độ Tuổi

Tỷ lệ tin nhắn theo nhóm tuổi:

  • 18-25 tuổi: 46% tổng tin nhắn
  • 26-35 tuổi: 28% tổng tin nhắn
  • 36-45 tuổi: 16% tổng tin nhắn
  • 46-55 tuổi: 7% tổng tin nhắn
  • 56+ tuổi: 3% tổng tin nhắn

Tỷ lệ công việc theo tuổi:

  • Dưới 26: 23% tin nhắn công việc
  • 26-35: 35% tin nhắn công việc
  • 36-45: 42% tin nhắn công việc
  • 46-55: 45% tin nhắn công việc
  • 56-65: 38% tin nhắn công việc
  • 66+: 16% tin nhắn công việc

Tăng Trưởng Theo Quốc Gia và GDP

Phân tích GDP per capita (tháng 5/2024 vs tháng 5/2025):

GDP Decile Median GDP (USD) May 2024 May 2025 Tăng trưởng
1 (Thấp nhất) $1,200 2.1% 8.3% +296%
2 $2,800 3.2% 12.1% +278%
3 $4,500 4.1% 15.8% +285%
4 $6,200 5.3% 18.9% +257%
5 $8,100 6.8% 22.4% +229%
6 $10,500 8.2% 26.1% +218%
7 $13,800 9.1% 28.7% +215%
8 $18,200 10.3% 31.2% +203%
9 $25,600 11.8% 33.9% +187%
10 (Cao nhất) $45,200 13.2% 36.4% +176%

Phát hiện: Tăng trưởng cao nhất ở các nước thu nhập thấp-trung bình ($10,000-$40,000)


8. Phân Tích Theo Giáo Dục và Nghề Nghiệp

Giáo Dục

Tỷ lệ tin nhắn công việc theo học vấn:

  • Dưới cử nhân: 37%
  • Cử nhân: 46%
  • Sau đại học: 48%

Phân tích hồi quy (kiểm soát tuổi, giới tính, nghề nghiệp, cấp bậc, quy mô công ty, ngành):

  • Cử nhân vs Dưới cử nhân: +4.5 điểm phần trăm (p < 0.01)
  • Sau đại học vs Dưới cử nhân: +6.8 điểm phần trăm (p < 0.01)

Asking vs Doing theo học vấn:

  • Asking: Ít thay đổi theo học vấn (khoảng 49%)
  • Sau đại học: +2 điểm phần trăm Asking (p < 0.05)
  • Doing: Giảm theo học vấn
  • Sau đại học: -1.6 điểm phần trăm Doing (p < 0.10)

Nghề Nghiệp

Tỷ lệ tin nhắn công việc theo nghề:

Nghề Tỷ lệ công việc Đặc điểm chính
Computer/Math 57% Nhiều Technical Help (37%)
Management 50% Nhiều Writing (52%)
Business 50% Nhiều Writing (52%)
Engineering 48% Cân bằng Asking/Doing
Science 48% Cân bằng Asking/Doing
Other Professional 44% Đa dạng chủ đề
Non-professional 40% Ít sử dụng cho công việc

Asking vs Doing trong công việc:

  • Computer/Math: 47% Asking, 53% Doing
  • Engineering: 45% Asking, 55% Doing
  • Science: 44% Asking, 56% Doing
  • Management: 38% Asking, 62% Doing
  • Business: 35% Asking, 65% Doing
  • Non-professional: 32% Asking, 68% Doing

9. Chất Lượng Tương Tác

Xu Hướng Cải Thiện Theo Thời Gian

Tỷ lệ Good/Bad/Unknown:

  • Tháng 12/2024: Good 60%, Bad 20%, Unknown 20%
  • Tháng 7/2025: Good 80%, Bad 15%, Unknown 5%

Tỷ lệ Good/Bad:

  • Tháng 12/2024: 3:1
  • Tháng 7/2025: 5.3:1

Chất Lượng Theo Chủ Đề

Chủ đề Tỷ lệ Good/Bad Ghi chú
Self-Expression 7.0:1 Cao nhất
Practical Guidance 4.2:1 Cao
Writing 3.8:1 Trung bình cao
Seeking Information 3.5:1 Trung bình
Technical Help 2.7:1 Thấp
Multimedia 1.7:1 Thấp nhất

Chất Lượng Theo Mục Đích

Mục đích Tỷ lệ Good/Bad Ghi chú
Asking 4.5:1 Cao nhất
Doing 3.2:1 Trung bình
Expressing 2.8:1 Thấp nhất

Validation với User Feedback

Phân tích 60,000 tin nhắn có feedback trực tiếp:

  • Thumbs-up: 86% tổng feedback
  • Thumbs-down: 14% tổng feedback

Tương quan với Interaction Quality:

  • Thumbs-up + Good: 9.5 lần cao hơn Thumbs-down + Good
  • Thumbs-down: Tương đương Good và Bad
  • Unknown: Chia đều giữa thumbs-up và thumbs-down

10. Ý Nghĩa Kinh Tế và Xã Hội

Giá Trị Kinh Tế

Decision Support (Hỗ trợ Ra Quyết Định):

  • Đặc biệt quan trọng trong công việc tri thức
  • Giải thích tại sao Asking phổ biến hơn ở người có học vấn cao
  • Phù hợp với mô hình của Ide & Talamas (2025) về AI co-pilot

Consumer Surplus:

  • Collis & Brynjolfsson (2025): Ít nhất $97 tỷ/năm chỉ riêng Mỹ
  • Willingness-to-pay: $98 để từ bỏ sử dụng AI trong 1 tháng
  • Tác động ngoài công việc: Có thể lớn hơn tác động trong công việc

Đặc Điểm Độc Đáo của Generative AI

So với Web Search:

  • Khả năng tạo nội dung: Viết, code, spreadsheet, media
  • Tùy chỉnh cao: Phản hồi cá nhân hóa
  • Linh hoạt: Xử lý nhiều loại yêu cầu
  • Follow-up: Có thể tiếp tục cuộc hội thoại

Ví dụ cụ thể:

  • Web Search: “Boston Marathon qualifying times by age”
  • ChatGPT: “Tạo kế hoạch tập luyện cá nhân hóa cho marathon Boston dựa trên tuổi 35, kinh nghiệm 2 năm, mục tiêu 3:30”

Tác Động Xã Hội

Dân Chủ Hóa Tri Thức:

  • 10% dân số trưởng thành toàn cầu đã sử dụng
  • Tăng trưởng mạnh ở các nước thu nhập thấp-trung bình
  • Khoảng cách giới tính đã thu hẹp đáng kể

Giáo Dục:

  • 10.2% tin nhắn là yêu cầu dạy học
  • 36% Practical Guidance là tutoring/teaching
  • Hỗ trợ học tập suốt đời

11. Kết Luận và Triển Vọng

8 Phát Hiện Chính

  1. 70% tin nhắn không liên quan công việc (tăng từ 53%)
  2. 3 chủ đề chính chiếm 78% sử dụng: Practical Guidance, Writing, Seeking Information
  3. Writing chiếm 40% tin nhắn công việc, 2/3 là chỉnh sửa văn bản có sẵn
  4. Asking (49%) tăng nhanh hơn Doing (40%), chất lượng cao hơn
  5. Khoảng cách giới tính đã thu hẹp: 52% nữ giới hiện tại
  6. 46% tin nhắn từ người dùng 18-25 tuổi
  7. Tăng trưởng mạnh ở các nước thu nhập thấp-trung bình
  8. Người có học vấn cao sử dụng nhiều hơn cho công việc và Asking

Ý Nghĩa Kinh Tế

ChatGPT cung cấp giá trị kinh tế thông qua:

  • Decision Support: Hỗ trợ ra quyết định trong công việc tri thức
  • Consumer Surplus: Ít nhất $97 tỷ/năm chỉ riêng Mỹ
  • Tác động ngoài công việc: Có thể lớn hơn tác động trong công việc
  • Dân chủ hóa tri thức: 10% dân số trưởng thành toàn cầu

Triển Vọng Tương Lai

Với tốc độ tăng trưởng hiện tại:

  • ChatGPT sẽ tiếp tục định hình cách con người học tập, làm việc
  • AI sẽ trở thành công cụ không thể thiếu trong cuộc sống hàng ngày
  • Tác động xã hội sẽ ngày càng sâu sắc và rộng rãi

Thách thức:

  • Cần đảm bảo AI được sử dụng có trách nhiệm
  • Cân bằng giữa tự động hóa và việc làm con người
  • Giảm thiểu khoảng cách số và bất bình đẳng

Tài Liệu Tham Khảo

Nghiên cứu gốc: Aaron Chatterji (OpenAI, Duke University), Tom Cunningham (OpenAI), David Deming (Harvard University), Zoë Hitzig (OpenAI, Harvard University), Christopher Ong (OpenAI, Harvard University), Carl Shan (OpenAI), Kevin Wadman (OpenAI)

Tổ chức: OpenAI, Đại học Duke, Đại học Harvard

Nguồn chính: How People Use ChatGPT

Tài liệu tham khảo chính được sử dụng trong nghiên cứu:

Nghiên cứu kinh tế và AI:

  • Acemoglu, D. (2024). “The Simple Macroeconomics of AI.” NBER Working Paper 32487.
  • Autor, D. H., Levy, F., & Murnane, R. J. (2003). “The Skill Content of Recent Technological Change: An Empirical Exploration.” Quarterly Journal of Economics, 118(4), 1279-1333.
  • Bick, A., Blandin, A., & Deming, D. J. (2024). “The Rapid Adoption of Generative AI.” NBER Working Paper 32966.
  • Caplin, A., Deming, D. J., Leth-Petersen, S., & Weidmann, B. (2023). “Economic Decision-Making Skill Predicts Income in Two Countries.” NBER Working Paper 31674.
  • Carnehl, C., & Schneider, J. (2025). “A Quest for Knowledge.” Econometrica, 93(2), 623-659.
  • Collis, A., & Brynjolfsson, E. (2025). “AI’s Overlooked $97 Billion Contribution to the Economy.” Wall Street Journal.
  • Deming, D. J. (2021). “The Growing Importance of Decision-Making on the Job.” NBER Working Paper 28733.
  • Ide, E., & Talamas, E. (2025). “Artificial Intelligence in the Knowledge Economy.” Journal of Political Economy, 9(122).

Nghiên cứu về ChatGPT và LLM:

  • Handa, K., Tamkin, A., McCain, M., Huang, S., Durmus, E., Heck, S., Mueller, J., Hong, J., Ritchie, S., Belonax, T., Troy, K. K., Amodei, D., Kaplan, J., Clark, J., & Ganguli, D. (2025). “Which Economic Tasks are Performed with AI? Evidence from Millions of Claude Conversations.”
  • Tomlinson, K., Jaffe, S., Wang, W., Counts, S., & Suri, S. (2025). “Working with AI: Measuring the Occupational Implications of Generative AI.”
  • Zao-Sanders, M. (2025). “How People Are Really Using Gen AI in 2025.” Harvard Business Review.
  • Zhao, W., Ren, X., Hessel, J., Cardie, C., Choi, Y., & Deng, Y. (2024). “WildChat: 1M ChatGPT Interaction Logs in the Wild.”

Nghiên cứu về tác động xã hội:

  • Humlum, A., & Vestergaard, E. (2025a). “Large Language Models, Small Labor Market Effects.” University of Chicago Working Paper 2025-56.
  • Humlum, A., & Vestergaard, E. (2025b). “The Unequal Adoption of ChatGPT Exacerbates Existing Inequalities among Workers.” Proceedings of the National Academy of Sciences, 122(1), e2414972121.
  • Ling, Y., & Imas, A. (2025). “Underreporting of AI use: The role of social desirability bias.” SSRN Working Paper.

Nghiên cứu kỹ thuật và phương pháp:

  • Bengio, Y., Courville, A., & Vincent, P. (2014). “Representation Learning: A Review and New Perspectives.”
  • Chiang, W.-L., Zheng, L., Sheng, Y., Angelopoulos, A. N., Li, T., Li, D., Zhu, B., Zhang, H., Jordan, M. I., Gonzalez, J. E., & Stoica, I. (2024). “Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference.” Proceedings of ICML 2024.
  • Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., & Steinhardt, J. (2021). “Measuring Massive Multitask Language Understanding.” Proceedings of ICLR 2021.
  • Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). “Training Language Models to Follow Instructions with Human Feedback.”
  • Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). “Attention Is All You Need.” Advances in Neural Information Processing Systems.

Nghiên cứu về tổ chức và lao động:

  • Garicano, L. (2000). “Hierarchies and the Organization of Knowledge in Production.” Journal of Political Economy, 108(5), 874-904.
  • Garicano, L., & Rossi-Hansberg, E. (2006). “Organization and Inequality in a Knowledge Economy.” Quarterly Journal of Economics, 121(4), 1383-1435.
  • National Association of Colleges and Employers. (2024). “Competencies for a Career-Ready Workforce.”

Nghiên cứu về bình đẳng giới:

  • Hofstra, B., Kulkarni, V. V., Munoz-Najar Galvez, S., He, B., Jurafsky, D., & McFarland, D. A. (2020). “The Diversity–Innovation Paradox in Science.” Proceedings of the National Academy of Sciences, 117(17), 9284-9291.
  • West, J. D., Jacquet, J., King, M. M., Correll, S. J., & Bergstrom, C. T. (2013). “The Role of Gender in Scholarly Authorship.” PLoS ONE, 8(7), e66212.

Nguồn tin tức và báo cáo:

  • Pew Research Center. (2025). “U.S. adults’ use of ChatGPT (June 2025 report).”
  • Reuters. (2025). “OpenAI hits $12 billion in annualized revenue, The Information reports.”
  • Roth, E. (2025). “OpenAI says ChatGPT users send over 2.5 billion prompts every day.”
  • Wiggers, K. (2025). “ChatGPT Isn’t the Only Chatbot That’s Gaining Users.” TechCrunch.

Tài liệu kỹ thuật OpenAI:

  • OpenAI. (2023). “GPT-4 Technical Report.” arXiv preprint.
  • OpenAI. (2024a). “GPT-4o System Card.”
  • OpenAI. (2024b). “OpenAI o1 System Card.” System Card / Technical Report.
  • OpenAI. (2025a). “Expanding on What We Missed with Sycophancy.” Blog Post / Technical Report.
  • OpenAI. (2025b). “GPT-5 System Card.” System Card / Technical Report.
  • OpenAI. (2025c). “Privacy Policy.”

Nghiên cứu về tác động cảm xúc:

  • Phang, J., Lampe, M., Ahmad, L., Agarwal, S., Fang, C. M., Liu, A. R., Danry, V., Lee, E., Chan, S. W. T., Pataranutaporn, P., & Maes, P. (2025). “Investigating Affective Use and Emotional Well-being on ChatGPT.”

Nghiên cứu về công bằng:

  • Eloundou, T., Beutel, A., Robinson, D. G., Gu, K., Brakman, A.-L., Mishkin, P., Shah, M., Heidecke, J., Weng, L., & Kalai, A. T. (2025). “First-Person Fairness in Chatbots.” Proceedings of ICLR 2024.

Nghiên cứu về rủi ro AI:

  • Korinek, A., & Suh, D. (2024). “Scenarios for the Transition to AI.” NBER Working Paper 32255.
  • Kulveit, J., Douglas, R., Ammann, N., Turan, D., Krueger, D., & Duvenaud, D. (2025). “Gradual Disempowerment: Systemic Existential Risks from Incremental AI Development.”

Nghiên cứu về tác động lao động:

  • Hartley, J., Jolevski, F., Melo, V., & Moore, B. (2025). “The Labor Market Effects of Generative Artificial Intelligence.” SSRN Working Paper.

Nghiên cứu về dữ liệu xã hội:

  • Chetty, R., Jackson, M. O., Kuchler, T., Stroebel, J., Hendren, N., Fluegge, R. B., Gong, S., Gonzalez, F., Grondin, A., Jacob, M., Johnston, D., Koenen, M., Laguna-Muggenburg, E., Mudekereza, F., Rutter, T., Thor, N., Townsend, W., Zhang, R., Bailey, M., Barberá, P., Bhole, M., & Wernerfelt, N. (2022). “Social Capital I: Measurement and Associations with Economic Mobility.” Nature, 608(7923), 108-121.

Nghiên cứu kỹ thuật bổ sung:

  • Lambert, N., Morrison, J., Pyatkin, V., Huang, S., Ivison, H., Brahman, F., Miranda, L. J. V., Liu, A., Dziri, N., Lyu, S., et al. (2024). “Tulu 3: Pushing frontiers in open language model post-training.” arXiv preprint.
  • Liu, N. F., Lin, K., Hewitt, J., Paranjape, A., Bevilacqua, M., Petroni, F., & Liang, P. (2023). “Lost in the Middle: How Language Models Use Long Contexts.”

Bài viết này cung cấp tóm tắt toàn diện về nghiên cứu “How People Use ChatGPT” – một trong những nghiên cứu quan trọng nhất về việc sử dụng AI trong thực tế. Nghiên cứu không chỉ cung cấp dữ liệu quan trọng về hiện tại mà còn mở ra những câu hỏi thú vị về tương lai của AI trong cuộc sống con người.

Azure Live Interpreter API: Revolutionizing Multilingual Communication

Introduction

In our globalized world, language barriers remain one of the biggest challenges in international communication. Microsoft has launched the Azure Live Interpreter API – a breakthrough technology that enables real-time voice translation without requiring pre-specified input languages. This article explores the features, functionality, and real-world applications of this revolutionary technology.

What is Azure Live Interpreter API?

Azure Live Interpreter API is a new feature in Azure Speech Translation, currently in Public Preview. This API enables real-time voice translation with automatic language detection, supporting 76 languages and 143 different locales.

Key Features

  • Zero Configuration: No need to set up input language
  • Real-time Processing: Process and translate in real-time
  • Voice Preservation: Maintains original speaker’s voice and characteristics
  • Multi-language Switching: Seamlessly handles language switching within the same session

Core Features

🎯 1. Auto Language Detection

Breakthrough Capabilities:

  • Automatically detects 76 input languages
  • Supports 143 different locales
  • No pre-configuration required
  • Handles language switching within the same conversation

Real-world Example:

Speaker: "Hello, I need help" (English)
API: Auto-detects → Translates to Vietnamese → "Xin chào, tôi cần giúp đỡ"

Speaker: "Merci beaucoup" (French)
API: Auto-switches → Translates to Vietnamese → "Cảm ơn rất nhiều"

⚡ 2. Real-time Translation

Outstanding Features:

  • Low latency, comparable to professional interpreters
  • Continuous streaming audio processing
  • High translation accuracy
  • Context and semantic understanding

Performance Comparison: | Method | Latency | Accuracy | Cost | |——–|———|———-|——| | Human Interpreter | 2-3 seconds | 95% | High | | Traditional API | 5-8 seconds | 85% | Medium | | Azure Live Interpreter | 2-4 seconds | 92% | Low |

🎵 3. Voice Synthesis

Advanced Capabilities:

  • Neural Voice Synthesis technology
  • Preserves speaker’s voice characteristics
  • Maintains tone and speaking pace
  • Natural-sounding output

How It Works

Step 1: Audio Capture

  • Real-time voice recording
  • Continuous audio stream processing
  • Audio quality optimization

Step 2: Language Detection

  • Analyze audio to identify language
  • Use machine learning models
  • Process context and semantics

Step 3: Translation

  • Translate content to target language
  • Use neural machine translation
  • Process context and semantic meaning

Step 4: Voice Synthesis

  • Generate voice with original speaker’s characteristics
  • Use Neural Voice Synthesis
  • Maintain intonation and pace

Step 5: Audio Output

  • Playback translation with low latency
  • Ensure high audio quality
  • Support multiple output formats

Real-World Applications

🏢 Business & Enterprise

1. International Meetings

Problem: Global teams struggle with language barriers in meetings

Solution:

  • Real-time translation during video calls
  • Preserve natural conversation flow
  • Support multiple languages
  • Increase meeting effectiveness

Return on Investment (ROI):

  • 300% increase in meeting participation
  • 200% improvement in decision-making speed
  • 150% increase in team collaboration

2. Customer Support

Problem: Support teams can’t communicate with international customers

Solution:

  • Real-time translation for support calls
  • Maintain customer experience quality
  • Support multiple languages
  • Reduce support costs

Return on Investment (ROI):

  • 400% increase in customer satisfaction
  • 250% reduction in support costs
  • 500% increase in global reach

3. Sales & Marketing

Problem: Sales teams can’t effectively communicate with international prospects

Solution:

  • Real-time translation during sales calls
  • Maintain relationship quality
  • Support multiple languages
  • Increase conversion rates

Return on Investment (ROI):

  • 350% increase in international sales
  • 200% improvement in conversion rates
  • 400% increase in market reach

🏥 Healthcare

4. Medical Consultations

Problem: Doctors can’t communicate with international patients

Solution:

  • Accurate medical translation in real-time
  • Support multiple languages
  • Reduce medical errors
  • Increase accessibility

Return on Investment (ROI):

  • Save many lives
  • 90% reduction in language-related medical errors
  • 500% increase in patient satisfaction

5. Emergency Services

Problem: Emergency responders can’t communicate with foreign victims

Solution:

  • Real-time emergency translation
  • Support multiple languages
  • Reduce response time
  • Save many lives

Return on Investment (ROI):

  • Save many lives
  • 95% reduction in response time
  • 300% increase in effectiveness

🎬 Content & Media

6. Live Streaming & Social Media

Problem: Content creators want to reach global audiences

Solution:

  • Live translation while maintaining personality
  • Support multiple languages
  • Increase global reach
  • Increase engagement

Return on Investment (ROI):

  • 500% increase in global reach
  • 300% increase in engagement
  • 400% increase in revenue

7. Podcast & Audio Content

Problem: Podcasts can only reach single-language audiences

Solution:

  • Automatically create multiple language versions
  • Maintain personality
  • Increase potential audience
  • Increase revenue

Return on Investment (ROI):

  • 1000% increase in potential audience
  • 400% increase in revenue
  • 200% increase in listener engagement

Creative Use Cases (Future-Ready)

8. Metaverse & VR Communication

Potential: Communicate in virtual worlds with people from everywhere Solution: Real-time translation in VR environments Impact: Create truly global virtual communities

9. AI-Powered Language Learning

Potential: Language learning requires practice with native speakers Solution: AI tutor with voice translation Impact: Personalized language learning experience

10. Smart Cities & IoT

Potential: Communicate with smart devices in native language Solution: Voice translation for IoT devices Impact: Increase accessibility for smart cities

Technical Implementation

🛠️ Installation and Setup Guide

Step 1: Install Azure Speech SDK

pip install azure-cognitiveservices-speech

Step 2: Create Azure Speech Service

  1. Sign in to Azure Portal
  2. Create “Speech Services” resource
  3. Choose appropriate region (e.g., East US)
  4. Get API Key and Region from resource

Step 3: Configure Code

import azure.cognitiveservices.speech as speechsdk

# Configure Azure Speech Service
SPEECH_KEY = "YOUR_API_KEY"
SERVICE_REGION = "eastus"
TARGET_LANGUAGE = "vi-VN"

# Create translation config
translation_config = speechsdk.translation.SpeechTranslationConfig(
    subscription=SPEECH_KEY,
    region=SERVICE_REGION
)

# Configure languages
translation_config.speech_recognition_language = "en-US"
translation_config.add_target_language(TARGET_LANGUAGE)

Step 4: Live Demo

Screenshot 1: Installation

Screenshot 2: Configuration

 

Screenshot 3: Running demo script

Screenshot 4: Translation results

Demo Results

🔧 Configuring Azure Speech Service...
✅ Configured:
   - Region: eastus
   - Source Language: en-US
   - Target Language: vi-VN

🎯 Listening... Speak now!

==================================================
📊 RESULTS:
✅ Success!
   🌍 Source Language: en-US
   📝 Original Text: Hello I am LTP
   🇻🇳 Translation: Xin chào, tôi là LTP
   ⏱️  Processing Time: 5.4s

Performance Analysis

Accuracy Comparison

Feature Human Interpreter Traditional API Azure Live Interpreter
Accuracy 95% 85% 92%
Latency 2-3 seconds 5-8 seconds 2-4 seconds
Cost High Medium Low
Scalability Low High High
Availability 24/7 24/7 24/7
Voice Quality Natural Basic Natural
Multi-language Limited Limited High

Implementation Recommendations

🚀 Step 1: Pilot Projects

  • Start with simple use cases
  • Test with small groups
  • Measure performance and user feedback
  • Iterate and improve

🎯 Step 2: Focus on High-Value Scenarios

  • Prioritize high Return on Investment (ROI) situations
  • Customer support
  • International meetings
  • Healthcare applications

🔧 Step 3: Invest in Integration

  • Need to invest in technical integration
  • Team training
  • Infrastructure setup
  • Security implementation

📈 Step 4: Monitor Performance

  • Track accuracy
  • User satisfaction
  • Cost effectiveness
  • Technical performance

📊 Step 5: Scale Gradually

  • Expand gradually after validation
  • Add more languages
  • Increase usage volume
  • Expand use cases

Conclusion

Azure Live Interpreter API represents a major breakthrough in real-time translation technology. With automatic language detection, high translation accuracy, and voice preservation, this technology has the potential to revolutionize how we communicate in our globalized world.

Why Use Azure Live Interpreter API?

  1. Break Language Barriers: Make international communication easier
  2. Increase Productivity: Reduce time and costs for translation
  3. Improve Experience: Create natural communication experiences
  4. Expand Markets: Reach global customers
  5. Gain Competitive Advantage: Have competitive edge in international markets

Final Recommendations

Azure Live Interpreter API is not just a translation tool, but an enabler for global connectivity. Organizations should:

  • Start early with pilot projects
  • Focus on value rather than technology
  • Invest in integration and training
  • Monitor and optimize continuously
  • Scale gradually based on results

With the continuous development of AI and machine learning, Azure Live Interpreter API will continue to improve and open up new possibilities in the future. This is the perfect time to start exploring and leveraging this technology!


References


 

Posted in AI

Using Nano Banana to Create Quick Mockups

1. Introduction

In software product development, creating mockups (draft UI layouts) is an important step to:

  • Align ideas between developers, designers, and business teams.
  • Help clients visualize the product early in the presales phase.

Traditionally, this requires a designer and tools such as Figma or Adobe XD, which takes time if we only want to illustrate an idea quickly.

Recently, Google Gemini introduced a new experimental feature, codenamed Nano Banana. This feature allows you to generate mockups or visual layouts directly from a natural language prompt.

We will investigate how Nano Banana works, try it with practical prompts, and evaluate how it can be applied for presales or early draft designs.

2. What is Nano Banana?

Nano Banana is the codename for Gemini 2.5 Flash Image Editing/Generation, an AI feature by Google DeepMind.

It allows users to generate and edit images based on text prompts:

  • Create visuals from scratch.
  • Edit backgrounds, styles, and blend multiple images.
  • Maintain consistency of subjects across edits.

In our context, it can be used to generate UI mockups quickly.

👉 Reference: Unleashing the Power of Nano Banana: Prompt Guide and Hands-On Experience

3. How to Use Nano Banana for Mockups

Step 1: Access

  • Open the Google Gemini app (latest version with Nano Banana support).
  • Or try community demos like the Zenn article.

Step 2: Write a Prompt

Boutique E-commerce App — 4-screen user journey

Prompt:
Create a professional iOS app mockup figure
Show exactly 4 iPhone screens arranged horizontally in a single high-resolution image. The screens show discovery, product detail, cart, and order confirmation for a boutique e-commerce app.

APP SPECIFIC CUSTOMIZATION
Application Core: Curated boutique shopping with editorial content, product stories, and premium checkout.
Primary Features:
1. Discover / Editorial - Curated collections, editorial banners, shoppable images.
2. Product Detail - High-res photos, size guide, reviews, add-to-cart.
3. Cart & Shipping - Cart items, shipping options, gift wrap.
4. Order Confirmation - Order summary, tracking, recommended complementary items.
Visual Theme: Premium minimal (off-white, charcoal, gold accents), elegant typography, large photography.
Target Audience: Style-conscious buyers aged 25-45.
Design Notes: Use full-bleed photography on product page, size selector, recommended items carousel in confirmation screen. Export at 3840×960 px, PNG.
END CUSTOMIZATION

Step 3: Generate the Mockup

Gemini will return a basic mockup layout.

👉 Result:
The generated mockup shows four screens (Discovery, Product Detail, Cart, Order Confirmation). The overall layout matches the request, but the color scheme is not fully aligned with the “premium minimal” theme.

Step 4: Refine the Prompt

Refine the boutique e-commerce app mockup with:
- Four iPhone screens aligned horizontally
- Higher resolution output (3840×960 px, PNG)
- Consistent premium minimal theme: off-white background, charcoal text, gold accent elements, elegant typography
- Screen 1: Discover — editorial banner with curated collections and shoppable images
- Screen 2: Product Detail — full-bleed product photo, size selector, reviews, add-to-cart button
- Screen 3: Cart & Shipping — list of items with thumbnails, shipping options, gift wrap toggle
- Screen 4: Order Confirmation — order summary, delivery tracking, and a carousel of recommended complementary products

👉 Result:
The output is much clearer this time: the four screens are consistent with the off-white + charcoal + gold accents theme. The Discover screen shows an editorial banner, the Product Detail page includes a full-bleed photo, and the Order Confirmation screen contains a carousel of recommended products.

4. Practical Examples

Example 1: Mental Health & Wellness App — 4-screen user journey

Prompt:
Create a professional iOS app mockup figure
Show exactly 4 iPhone screens arranged horizontally in a single high-resolution image. The screens demonstrate onboarding, daily check-in, guided session, and mood analytics for a mental wellness app.

APP SPECIFIC CUSTOMIZATION
Application Core: Mental wellness with daily check-ins, guided meditations, and mood analytics.
Primary Features:
1. Onboarding - Quick mood assessment, preferences, goals.
2. Daily Check-in - Mood slider, short journaling prompt, recommended micro-actions.
3. Guided Session - Audio player for meditation with session length control.
4. Analytics - Mood trends, triggers, recommended exercises.
Visual Theme: Calm muted tones (sage green, soft blue), lots of white space, soothing illustrations.
Target Audience: Adults seeking daily wellbeing support aged 20-55.
Design Notes: Show mood trend chart on analytics screen, audio progress bar for guided session, gentle microcopy. Export at 3840×960 px, PNG.
END CUSTOMIZATION

👉 Result:
Gemini generates four screens correctly (Onboarding, Daily Check-in, Guided Session, Analytics). The mood trend chart and audio progress bar are displayed, with sage green and soft blue as the main tones.

Example 2: Project Management App — 4-screen user journey

Prompt:
Create a professional iOS app mockup figure
Show exactly 4 iPhone screens arranged horizontally in a single high-resolution image. The screens demonstrate task creation, board view, task detail, and timeline for a project management app.

APP SPECIFIC CUSTOMIZATION
Application Core: Lightweight project management with kanban, timeline, and team chat.
Primary Features:
1. Dashboard - Active projects, quick add task, team status.
2. Board View - Columns for To Do / Doing / Done, drag handles, avatars.
3. Task Detail - Description, attachments, subtasks, assignees, comments.
4. Timeline / Gantt - Tasks mapped on a timeline with dependencies.
Visual Theme: Professional cool grays with accent colors per project, clear typography, minimal chrome.
Target Audience: Small teams and freelancers aged 24-50.
Design Notes: Show drag handles and avatars, task priority tags, interactive timeline markers. Export at 3840×960 px, PNG.
END CUSTOMIZATION

👉 Result:
The mockup shows a board view with To Do / Doing / Done columns, complete with avatars and drag handles. The timeline is presented in a simple form, enough to illustrate the project management concept.

Example 3: Language Learning App — 4-screen user journey

Prompt:
Create a professional iOS app mockup figure
Show exactly 4 iPhone screens arranged horizontally in a single high-resolution image. The screens illustrate onboarding, lesson player, practice exercises, and progress dashboard for a language learning app.

APP SPECIFIC CUSTOMIZATION
Application Core: Personalized language learning with micro-lessons, spaced repetition, and AI pronunciation feedback.
Primary Features:
1. Onboarding & Level Test - Quick placement test, goals selection.
2. Lesson Player - Short interactive lesson with audio, text, and replay controls.
3. Practice / Quiz - Flashcards, multiple choice, speaking practice with waveform and scoring.
4. Progress Dashboard - Streak, XP, fluency estimate, recommended next lessons.
Visual Theme: Friendly pastel palette (mint, soft purple), playful icons, clear progress bars.
Target Audience: Learners aged 16-45 learning a second language.
Design Notes: Emphasize audio controls and speaking feedback UI; show streak badges and recommendation chips. Export at 3840×960 px, PNG.
END CUSTOMIZATION

 

👉 Result:
Gemini outputs four accurate screens: Onboarding, Lesson Player, Practice, and Dashboard. Streak badges, progress bars, and waveform feedback are included as described.

5. Real-World Applications

✅ Presales

  • Quickly present ideas to clients without needing polished designs.
  • Saves preparation time for proposals and demos.

✅ Internal brainstorming

  • Helps teams align on initial UI/UX direction.
  • Use as a draft before refining in Figma.

❌ Limitations

  • Cannot export directly to design tools or code.
  • Results are still rough compared to professional mockups.
  • Highly dependent on prompt quality (prompt engineering).

6. Comparison with Traditional Tools

CriteriaNano BananaFigma / Adobe XD
SpeedVery fast (1 min mockup)Requires manual design
Detail levelBasic wireframe/layoutPixel-perfect, reusable components
Use casePresales, brainstormingOfficial design, developer handoff
Required skillWriting promptsUI/UX design expertise

7. Conclusion

Nano Banana (Google Gemini feature) does not replace designers, but it’s an excellent assistant for presales and early drafts.

  • If you need quick concepts → Nano Banana is perfect.
  • If you need production-ready UI → still use Figma, Sketch, or XD.
 
Posted in AI

Unleashing the Power of Nano Banana: Prompt Guide and Hands-On Experience

Introduction

In September 2025, Google officially launched Nano Banana – a new image generation feature within the Gemini ecosystem. This marks a significant milestone, not only for its speed and lightweight performance, but also for its ability to maintain character consistency, edit details using natural language, and combine multiple image sources into a cohesive final composition.

Unlike platforms such as Midjourney or Stable Diffusion, which lean heavily toward creative artistry, Nano Banana focuses on practical applications: supporting marketing design, visual education, digital content production, and even academic research. Its strength lies in delivering sharp, emotionally rich images with fine control through prompts — all without requiring powerful hardware.

In this article, I — drawing on years of experience researching and deploying AI — will break down Nano Banana’s Prompt Guide, share effective prompting strategies, and present three real-world use cases so readers can quickly grasp and apply them.


Summary of Nano Banana’s Prompt Guide

According to the official documentation, Nano Banana supports three image generation modes:

1. Text-to-Image

Enter a detailed description → AI generates an image from the text.
Best for creating visuals from completely new ideas.

2. Image + Text-to-Image (Editing)

Provide a base image and use a prompt to edit, add, or remove details.
Advantage: Preserves the main layout while changing only the elements you specify.

3. Multi-Image Fusion

Combine multiple images to form a unified composition.
Ideal for illustration design where multiple separate elements need to be merged.

Key Point: Nano Banana does not perform well with fragmented “keyword list” prompts. It works best with contextual, story-like prompts.


Prompting Guide and Strategies

This, in my opinion, is the core of unlocking Nano Banana’s potential. Below are principles and strategies I have distilled — with concrete examples:

1. Describe, Don’t List

Common mistake:
“cat, moon, forest” → results in a disjointed image; AI struggles to infer intent.

Better approach:
“A black cat sitting quietly on a mossy rock under the moonlight, surrounded by a misty forest.”

Why it works: Storytelling prompts help AI understand space, relationships, and produce coherent images.


2. Add Style, Emotion, and Technical Cues

You can “direct” your image by adding:

  • Mood: calm, dramatic, mysterious

  • Art style: ukiyo-e, watercolor, cyberpunk neon

  • Camera cues: 50mm lens, wide-angle, golden-hour lighting

Example:

  • Basic Prompt: “A Vietnamese street at night.”

  • Enhanced Prompt: “A Vietnamese street at night, illuminated by neon signs and glowing lanterns, cinematic cyberpunk style, wide-angle shot, moody atmosphere.”

    The enhanced version produces richer, more visually engaging results.


3. Iterative Prompting

Strategy: Write a basic prompt → generate → analyze result → add or remove details.

Example:

  • First Prompt: “A woman in Ao Dai standing in a rice field.”
    Result: Accurate but plain.

  • Refined Prompt: “A woman in a flowing white Ao Dai standing in a golden rice field at sunrise, soft pastel tones, cinematic feel.”
    Result: Artistic, visually rich, and closer to the desired emotion.


4. Consistency & Control

Nano Banana can keep characters consistent across multiple images.

Technique: Repeat fixed descriptions across prompts (e.g., “a young man with short black hair, wearing a blue jacket”).
This is particularly useful for building character illustrations for stories, games, or brand identity.


5. Negative Prompts

Use these to avoid common issues: distorted hands, random text, watermarks.

Example:
“…, without text, no watermark, hands clearly drawn.”

This keeps the image clean and aligned with your intention.


6. Think Like a Film Director

When writing prompts, imagine describing a film frame for a director.
This leads to better depth, lighting, and emotional clarity in the image.


Three Real-World Prompt Experiments

1. Text-to-Image

Prompt:
A photorealistic shot of an elderly Vietnamese woman sitting in a bamboo chair, sipping herbal tea under the morning sun filtering through wooden window slats, warm and serene mood, soft golden-hour lighting, 50 mm lens.

Expected Result:
A realistic photo-like image, warm lighting, detailed bamboo textures and skin — a touching “photograph.”


2. Image + Text-to-Image (Editing)

Example 1: 

Image: 

Nhộn nhịp chợ đêm phố cổ Hà Nội dịp cuối tuần - Vntrip.vn

Prompt:
Using this image of a modern Vietnamese street market at dusk, enhance it by adding glowing lanterns overhead, neon reflections on wet cobblestones, and a thin layer of mist for atmospheric depth, while preserving all vendors and characters.

Expected Result:
A normal evening market transformed into a cinematic scene — lanterns and neon lights creating a cyberpunk vibe while retaining the authentic Vietnamese market spirit.

Result:

Example 2: 

Image: 

Prompt:

Create a 1/7 scale commercialized figure of the character in the illustration, in a realistic style and environment. Place figure on a computer desk in front of computer screen, using a circular transparent acrylic base without any text. On the computer screen, display the Z-Brush modeling process of the figure. Next to the computer screen, place a BANDAI-style toy packaging box printed with the original artwork.

Expected result: 

A realistic, commercial-style product photo: a 1/7 scale figure placed on a clear circular acrylic base on a computer desk. The monitor shows the Z-Brush modeling process of the figure, and next to it is a BANDAI-style packaging box printed with the original artwork. Soft studio lighting, clean composition, and vivid colors give the impression of an official product advertisement.

Result: 


3. Multi-Image Fusion

     

Prompt:
Combine these images: a rice paddy field at sunrise, a silhouette of a Vietnamese Ao Dai, and a close-up of a traditional bánh chưng. Create a harmonious composition where the Ao Dai figure stands in the foreground, the paddy sunrise forms the background, and the bánh chưng subtly overlays in the bottom corner as a cultural emblem. Soft cinematic lighting, pastel color grading.

Expected Result:
A culturally rich composition: Ao Dai in the morning sun, golden rice fields, and bánh chưng representing tradition.

Result:


Prompt Collection and Examples

Case 1: Hand Drawing Controls Multi-Character Poses

Prompt: Have these two characters fight using the pose from Figure 3. Add appropriate visual backgrounds and scene interactions,Generated image ratio is 16:9

 

Case 2: OOTD Outfit

Prompt: Choose the person in Image 1 and dress them in all the clothing and accessories from Image 2. Shoot a series of realistic OOTD-style photos outdoors, using natural lighting, a stylish street style, and clear full-body shots. Keep the person’s identity and pose from Image 1, but show the complete outfit and accessories from Image 2 in a cohesive, stylish way.

I discovered a helpful GitHub repository that compiles clear examples and detailed prompt guides. You can explore it to find inspiration and learn to use Nano Banana to its fullest:
GitHub Repository


Conclusion

Nano Banana has proven that the new generation of AI image tools go beyond simply “making something pretty” — they bring control, usability, and consistency.

By studying its prompt guide and applying the right strategies — from storytelling instead of listing, adding style and mood, to using negative prompts — we can transform ideas into aesthetically pleasing and practically useful visuals.

From my personal experience, I believe Nano Banana will become an essential tool for content creators, marketers, educators, and researchers. It’s not just about “generating images,” but about expanding the way we think, describe, and communicate with AI.

Posted in AI

Trying the Realtime Prompting Guide for GPT-Realtime: Experiments with Vietnamese Voice Input

Try Realtime Prompting Guide for GPT-Realtime

1.Introduction

OpenAI’s Realtime API enables the creation of interactive voice experiences with ultra-low latency. Instead of waiting for a full text input, the model can “listen” to a user while they are still speaking and respond almost instantly. This makes it a powerful foundation for building voice assistants, audio chatbots, automated customer support, or multimodal creative applications.

To get the best results, writing a clear and well-structured prompt is essential. OpenAI published the Realtime Prompting Guide as a playbook for controlling model behavior in spoken conversations.

References:


2.What is GPT-Realtime

GPT-Realtime is a model/API designed to handle continuous audio input and provide rapid responses. Its key features include:

  • Real-time speech-to-text recognition.

  • Robust handling of noisy, cut-off, or unclear audio.

  • Customizable reactions to imperfect audio, such as asking for repetition, clarifying, or continuing in the user’s language.

  • Support for detailed prompting to ensure safe, natural, and reliable responses.


3.Overview of the Prompting Guide

The Realtime Prompting Guide outlines seven best practices for writing system prompts for voice agents:

1. Be precise, avoid conflicts.
Instructions must be specific and consistent. For example, if you say “ask again when unclear,” don’t also instruct the model to “guess when unsure.”

2. Use bullet points instead of paragraphs.
Models handle lists better than long prose.

3. Handle unclear audio.
Explicitly instruct what to do when input is noisy or incomplete: politely ask the user to repeat and only respond when confident.

4. Pin the language when needed.
If you want the entire conversation in one language (e.g., English only), state it clearly. Otherwise, the model may switch to mirror the user.

5. Provide sample phrases.
Include example greetings, clarifications, or closing lines to teach the model your desired style.

6. Avoid robotic repetition.
Encourage varied phrasing for greetings, confirmations, and closings to keep interactions natural.

7. Use capitalization for emphasis.
For example: “IF AUDIO IS UNCLEAR, ASK THE USER TO REPEAT.”

4.Prompt Examples

Sample Prompt A – Avoid conflicts, be clear

SYSTEM: – Always speak clearly and respond in the same language the user is speaking. – If the user’s audio is unclear, noisy, partial, or unintelligible, politely ask them to repeat. – Never assume what was said if you did not hear it clearly. – Use short, varied phrases; avoid repeating the same sentence. – Provide helpful, concise responses.

USER: “Hello, can you help me with my internet issue?”

ASSISTANT: (responds according to the prompt, asks for clarification if needed)


Sample Prompt B – Handling unclear audio

SYSTEM: – If the audio is not clear, ask: “I’m sorry, I didn’t catch that. Could you please repeat?” – Only respond when you are confident you understood the user’s request. – Continue conversation in the same language as the user. – Use bullet points for clarity.

USER: “Um… internet…” (noisy, unclear audio)

ASSISTANT: (follows the system instructions)


Sample Prompt C – Keep a natural style, avoid repetition

SYSTEM: – Do not respond with the same phrase twice. – Vary greetings, confirmations, closings. – Aim for a warm, helpful tone. – If the user ends the conversation, say something like: “If there’s anything else you need, feel free to ask.”

USER: “Thank you, that’s all.”

ASSISTANT: “You’re welcome! Glad I could help. Take care!” (or another variation)

5.Experiments

For my testing, I deliberately used Vietnamese speech to see how the model would react in different situations.

First Test: Speaking Unclear Without a Prompt

To begin, I tested what would happen if I spoke unclearly in Vietnamese without providing any system prompt.

For example, I said:

USER: “Ư… mệnh của mình không tỏa lại” (unclear Vietnamese speech)

The model responded in Indonesian, saying:

ASSISTANT: “Tentu, aku di sini untuk membantu. Coba ceritakan dulu apa yang lagi kamu rasakan atau alami. Kita bisa cari solusinya bareng-bareng.”

This shows that when no system prompt is defined, the model may guess or switch languages unpredictably, instead of asking for clarification.

Second Test: Adding a System Prompt

Next, I added a system prompt to guide the model’s behavior when the audio is unclear:

SYSTEM:
- If the audio is not clear, ask: “I’m sorry, I didn’t catch that. Could you please repeat?”
- Only respond when you are confident you understood the user’s request.
- Continue conversation in the same language as user.
- Use bullet points for clarity.

Then I spoke unclearly in Vietnamese again, for example:

USER: “Um… internet…” (spoken quietly, unclear audio)

This time, the model followed the system instructions and politely asked me to repeat. Sometimes, it even suggested that I try saying a simple test sentence so it could better check whether my voice was coming through clearly.

This shows how a well-written system prompt can prevent the model from making random guesses or switching languages, ensuring a more reliable and natural conversation flow.

Third Test: Singing to the Model

Finally, I experimented by singing in Vietnamese to see how the model would react.

The model listened carefully and was able to understand the lyrics and emotional tone of my singing. However, when I asked it to repeat the lyrics back to me, it refused due to copyright restrictions.

This shows that while GPT-Realtime can analyze and comment on songs — such as summarizing their meaning, describing the mood, or suggesting new lines in a similar style — it cannot reproduce lyrics verbatim. In practice, this means you should not expect the model to sing or echo back copyrighted content.

6.Conclusion

GPT-Realtime provides smooth and natural voice interactions with minimal latency. However, its effectiveness depends heavily on the prompt.

Key takeaways:

  • Always write a clear, bullet-pointed system prompt.
  • Define explicit behavior for unclear audio.
  • Control language use and discourage robotic repetition.
  • Respect copyright limitations: the model will not repeat lyrics verbatim but can summarize or create new content.

The Realtime Prompting Guide is a practical resource for building high-quality voice agents that are both natural and safe.

Claude Code Spec Workflow: Hướng Dẫn Thực Hành Spec-Driven Development

Claude Code Spec Workflow: Hướng Dẫn Thực Hành Spec-Driven Development

Giới Thiệu

Trong thế giới phát triển phần mềm hiện đại, việc kết hợp AI vào quy trình coding đang trở thành xu hướng không thể tránh khỏi. Tuy nhiên, phương pháp “vibe coding” – viết code dựa trên cảm hứng và prompt ngẫu nhiên – thường dẫn đến kết quả không nhất quán và thiếu cấu trúc. Claude Code Spec Workflow ra đời như một giải pháp để biến việc phát triển phần mềm với AI trở nên có hệ thống và chuyên nghiệp hơn.

1. Spec-Driven Development Là Gì?

Định Nghĩa

Spec-Driven Development (SDD) là một phương pháp phát triển phần mềm mà trong đó specification (đặc tả) trở thành trung tâm của toàn bộ quy trình engineering – từ planning và design đến implementation, testing và documentation. SDD nhấn mạnh việc viết specifications rõ ràng và có cấu trúc trước khi bắt đầu implementation.

Nguyên Lý Cốt Lõi

Thay vì “vibe coding” – phương pháp mô tả mục tiêu và nhận về một khối code có vẻ đúng nhưng thường không hoạt động chính xác, SDD đối xử với coding agents như những pair programmers nghiêm túc. Chúng xuất sắc trong pattern recognition nhưng vẫn cần hướng dẫn rõ ràng và không mơ hồ.

Quy Trình 4 Giai Đoạn

SDD hoạt động qua 4 giai đoạn với các checkpoint rõ ràng:

1. Specify (Đặc Tả): Tạo ra contract về cách code nên hoạt động, trở thành source of truth cho tools và AI agents.

2. Plan (Lập Kế Hoạch): AI agent phân tích spec và tạo ra kế hoạch chi tiết về architecture, constraints và cách tiếp cận.

3. Tasks (Nhiệm Vụ): Chia nhỏ spec và plan thành các công việc cụ thể, có thể review được, mỗi task giải quyết một phần cụ thể của puzzle.

4. Implement (Triển Khai): AI agent thực hiện từng task một cách có hệ thống, với developer review những thay đổi tập trung thay vì những code dump hàng nghìn dòng.

Ưu Điểm Của SDD

  • Giảm đoán mò: Spec rõ ràng giúp giảm thiểu sự bất ngờ và đảm bảo chất lượng code
  • Dễ thay đổi hướng: Chỉ cần update spec, regenerate plan và để AI agent xử lý phần còn lại
  • Phù hợp với dự án phức tạp: Đặc biệt hữu ích cho greenfield projects và feature work trong hệ thống hiện có

2. Claude Code Spec Workflow – Tổng Quan

Giới Thiệu Tool

Claude Code Spec Workflow là một toolkit tự động hóa được phát triển bởi Pimzino, cung cấp quy trình spec-driven development có cấu trúc cho Claude Code. Tool này transform các ý tưởng feature thành implementation hoàn chỉnh thông qua quy trình: Requirements → Design → Tasks → Implementation.

Các Tính Năng Chính

🎯 Quy Trình Phát Triển Có Cấu Trúc

  • Requirements Generation: Tạo user stories và acceptance criteria sử dụng định dạng EARS (WHEN/IF/THEN statements)
  • Design Creation: Tạo technical architecture và design với Mermaid diagrams để visualization
  • Task Breakdown: Chia design thành các atomic coding tasks tập trung vào test-driven development
  • Systematic Implementation: Thực hiện tasks một cách có hệ thống với validation dựa trên requirements

🛠 7 Slash Commands Chính

  • /spec-create <name> <description> – Tạo specification mới cho feature
  • /spec-requirements – Generate requirements document
  • /spec-design – Tạo design document
  • /spec-tasks – Generate implementation tasks
  • /spec-execute <task-number> – Execute specific tasks
  • /spec-status – Check status của specification hiện tại
  • /spec-list – List tất cả specifications

🏗 Cấu Trúc Project Tự Động

Sau khi setup, tool tự động tạo:

  • 📁 .claude/ directory: Chứa commands, templates, specs, và config files
  • 📝 7 slash commands: Để thực hiện complete workflow
  • 📋 Document templates: Đảm bảo formatting nhất quán
  • ⚙️ Configuration files: Cho workflow automation
  • 📖 CLAUDE.md: Với comprehensive workflow instructions

✨ Tính Năng Nâng Cao

  • Triple optimization commands: get-steering-context, get-spec-context, và get-template-context
  • Smart document handling: Bug documents sử dụng direct reading, templates sử dụng bulk loading
  • Session-based caching: Intelligent file change detection và cache invalidation
  • Real-time web dashboard: Monitor specs, tasks, và progress với live updates
  • Bug workflow system: Complete bug reporting và resolution tracking

3. Hướng Dẫn Cài Đặt và Sử Dụng

Yêu Cầu Hệ Thống

  • Node.js: 16.0.0 hoặc cao hơn
  • Claude Code: Đã cài đặt và configure
  • Bất kỳ project directory nào

Cài Đặt Claude Code (Prerequisite)

bash
# Install Claude Code
npm install -g @anthropic-ai/claude-code

# Verify installation
claude doctor

# Navigate to your project
cd your-awesome-project

# Start Claude Code (first time login required)
claude

Cài Đặt Claude Code Spec Workflow

Phương Pháp 1: Cài Đặt Nhanh (Khuyến Nghị)

bash
# Cài đặt trong current directory
npx @pimzino/claude-code-spec-workflow

# Cài đặt trong directory cụ thể  
npx @pimzino/claude-code-spec-workflow --project /path/to/project

# Force overwrite existing files
npx @pimzino/claude-code-spec-workflow --force

# Skip confirmation prompts
npx @pimzino/claude-code-spec-workflow --yes

# Test setup
npx @pimzino/claude-code-spec-workflow test

Phương Pháp 2: Global Installation

bash
# Install globally
npm install -g @pimzino/claude-code-spec-workflow

# Use anywhere
claude-spec-setup

Phương Pháp 3: Development Dependency

bash
# Install as dev dependency
npm install --save-dev @pimzino/claude-code-spec-workflow

# Run via package.json script
npx claude-spec-setup

Cấu Trúc Được Tạo Ra

your-project/
├── .claude/
│   ├── commands/
│   │   ├── spec-create.md
│   │   ├── spec-requirements.md  
│   │   ├── spec-design.md
│   │   ├── spec-tasks.md
│   │   ├── spec-execute.md
│   │   ├── spec-status.md
│   │   └── spec-list.md
│   ├── templates/
│   │   ├── requirements-template.md
│   │   ├── design-template.md
│   │   └── tasks-template.md
│   ├── specs/
│   │   └── (your specs will be created here)
│   └── spec-config.json
└── CLAUDE.md (created/updated)

4. Hướng Dẫn Sử Dụng Chi Tiết

Workflow Cơ Bản

Bước 1: Khởi Tạo Claude Code

bash
cd my-awesome-project
claude

Bước 2: Tạo Specification Mới

bash
# Trong Claude Code terminal
/spec-create user-dashboard "User profile management system"

Bước 3: Generate Requirements

bash
/spec-requirements

Output: User stories với EARS format (WHEN/IF/THEN statements) đảm bảo comprehensive requirement coverage.

Bước 4: Tạo Design Document

bash
/spec-design

Output: Technical architecture với Mermaid diagrams, plans components, interfaces, và data models.

Bước 5: Generate Implementation Tasks

bash
/spec-tasks

Output: Atomic coding tasks với focus vào test-driven development, references specific requirements.

Bước 6: Execute Tasks

bash
/spec-execute 1

Executes tasks systematically với validation against requirements, ensures quality và consistency.

Bước 7: Monitor Progress

bash
# Check current status
/spec-status

# List all specifications  
/spec-list

Web Dashboard (Tính Năng Nâng Cao)

bash
# Basic dashboard
npx -p @pimzino/claude-code-spec-workflow claude-spec-dashboard

# Dashboard with tunnel (share externally) 
npx -p @pimzino/claude-code-spec-workflow claude-spec-dashboard --tunnel

# Full tunnel configuration
npx -p @pimzino/claude-code-spec-workflow claude-spec-dashboard \
  --tunnel \
  --tunnel-password mySecret123 \
  --tunnel-provider cloudflare \
  --port 3000 \
  --open

5. Ví Dụ Thực Hành: Phát Triển Game Asteroids

Mô Tả Dự Án

Một developer đã sử dụng claude-code-spec-workflow để tạo một game 2D đơn giản where player controls spaceship để tránh falling asteroids. Score được tính dựa trên survival time.

Quy Trình Thực Hiện

bash
# 1. Tạo specification
/spec-create asteroids-game "A simple 2D action game where the player controls a spaceship to avoid falling asteroids. The score is based on survival time."

# 2. Generate 3 types of specs
- Requirements document (요구사항 정의서)
- Design document (설계서)  
- Task list (타스크 리스트)

# 3. Implementation using SDD methodology

Kết Quả

Developer đã thành công tạo ra một asteroids avoidance game hoàn chỉnh sử dụng:

  • LLM: Claude Sonnet 4
  • Frontend: HTML, CSS, JavaScript
  • Development Tools: Claude Code, claude-code-spec-workflow

Kỹ Thuật Sử Dụng

Trong video demonstration, developer đã sử dụng:

  • /spec-status để check workflow status
  • /spec-list để view tất cả specifications
  • /spec-create để tạo các specs với detailed content
  • Cuối cùng là gameplay video của completed game

6. Troubleshooting và Best Practices

Common Issues

❓ Command Not Found After NPX

bash
# Make sure you're using correct package name
npx @pimzino/claude-code-spec-workflow

❓ Setup Fails với Permission Errors

bash
# Try with different directory permissions
npx @pimzino/claude-code-spec-workflow --project ~/my-project

❓ Claude Code Not Detected

bash
# Install Claude Code first
npm install -g @anthropic-ai/claude-code

# Show verbose output
DEBUG=* npx @pimzino/claude-code-spec-workflow

# Check package version
npx @pimzino/claude-code-spec-workflow --version

Best Practices

1. Project Setup

bash
# Setup multiple projects efficiently
for dir in project1 project2 project3; do
  npx @pimzino/claude-code-spec-workflow --project $dir --yes
done

2. Testing Setup

bash
# Test setup trong temporary directory
npx @pimzino/claude-code-spec-workflow test

3. Workflow Efficiency

  • Auto-detects project type: Node.js, Python, Java, etc.
  • Beautiful CLI: Với progress indicators
  • Validation: Claude Code installation check
  • Safety: Preserves existing CLAUDE.md content

7. So Sánh Với Các Công Cụ Khác

Claude Code Spec Workflow vs GitHub Spec-Kit

  • GitHub Spec-Kit: Toolkit chính thức từ GitHub cho SDD với support cho multiple AI agents (GitHub Copilot, Claude Code, Gemini CLI)
  • Claude Code Spec Workflow: Chuyên biệt cho Claude Code với workflow tự động hóa và dashboard

Ưu Điểm Của Claude Code Spec Workflow

  • Dễ cài đặt: One-command setup
  • Tự động hóa cao: 7 slash commands có sẵn
  • Dashboard tích hợp: Real-time monitoring
  • TypeScript implementation: Comprehensive error handling

8. Tương Lai và Phát Triển

Xu Hướng SDD

Spec-driven development đang trở thành popular trong developer community như một cách để build software với structure hơn và ít “vibes” hơn. Nó đặc biệt phù hợp với greenfield projects và mid-to-large-sized features.

Limitations

  • UI-heavy work: Non-visual spec không hữu ích cho UI work
  • Small features: Tạo full-blown spec có thể overkill cho small features hoặc bug fixes
  • Overengineering risk: Có thể dẫn đến solutions phức tạp hơn cần thiết

Future of SDD

“Specs are the new code” – Sean Grove từ OpenAI team cho rằng 80-90% công việc của programmers là structured communication, và specs là cách tốt nhất để communicate về software functionality.

9. Kết Luận

Claude Code Spec Workflow đại diện cho bước tiến quan trọng trong việc kết hợp AI vào quy trình phát triển phần mềm một cách có hệ thống. Tool này không chỉ đơn thuần là automation mà còn là methodology giúp developers:

Lợi Ích Chính

  1. Cấu trúc hóa quy trình: Từ vibe coding thành systematic development
  2. Tăng chất lượng code: Thông qua spec-driven approach
  3. Cải thiện collaboration: Giữa developers và AI agents
  4. Giảm rủi ro dự án: Với clear specifications và validation

Khi Nào Nên Sử Dụng

  • Greenfield projects: Starting từ zero với clear vision
  • Feature development: Trong existing complex systems
  • Team collaboration: Cần consistent development approach
  • Quality-focused projects: Khi code quality là priority

Khuyến Nghị

Claude Code Spec Workflow là tool xuất sắc cho developers muốn áp dụng SDD methodology với Claude Code. Tuy nhiên, hãy nhớ rằng tool chỉ là means, methodology và mindset mới là điều quan trọng nhất.

Hãy bắt đầu với những dự án nhỏ, làm quen với workflow, và dần mở rộng sang những dự án phức tạp hơn. Spec-driven development không phải là silver bullet, nhưng chắc chắn là một powerful approach trong arsenal của modern developers.


Demo:

Sử dụng claude cli + claude-code-spec-workflow test tạo workflow cho chức năng  user-authentication

Kết quả :
Tạo ra code và spec cho chức năng  user-authentication

————————————————————————————————————————————————————————————————————————————–

Sử dụng claude cli + claude-code-spec-workflow test 1 game đơn giản bằng html

Kết quả :

 

Installing and Using GPT-OSS 20B Locally with Ollama

In this document, we will explore how to install and run GPT-OSS 20B — a powerful open-weight language model released by OpenAI — locally, with detailed instructions for using it on a Tesla P40 GPU.

1. Quick Introduction to GPT-OSS 20B

  • GPT-OSS 20B is an open-weight language model from OpenAI, released in August 2025—the first since GPT-2—under the Apache 2.0 license, allowing free download, execution, and modification.

  • The model has about 21 billion parameters and can run efficiently on consumer machines with at least 16 GB of RAM or GPU VRAM.

  • GPT-OSS 20B uses a Mixture-of-Experts (MoE) architecture, activating only a subset of parameters (~3.6B) at each step, saving resources and energy.

  • The model supports chain-of-thought reasoning, enabling it to understand and explain reasoning processes step by step.


2. Hardware & Software Preparation

Hardware requirements:

  • RAM or VRAM: minimum 16 GB (can be system RAM or GPU VRAM).

  • Storage: around 12–20 GB for the model and data.

  • Operating system: macOS 11+, Windows, or Ubuntu are supported.

  • GPU (if available): Nvidia or AMD for acceleration. Without a GPU, the model still runs on CPU but very slowly.

Software options:

  • Ollama: the simplest method; quick installation with a convenient CLI.

  • LM Studio: a graphical interface, suitable for beginners.

  • Transformers + vLLM (Python): flexible for developers, integrates well into open-source pipelines.


3. How to Run GPT-OSS 20B with Ollama (GPU Tesla P40)

3.1 Goal and Timeline

  • Goal: successfully run GPT-OSS 20B locally using Ollama, leveraging the Tesla P40 GPU (24GB VRAM).

  • Timeline: the first setup takes about 15–20 minutes to download the model. After that, launching the model takes only a few seconds.

3.2 Environment Preparation

  • GPU: Tesla P40 with 24GB VRAM, sufficient for GPT-OSS 20B.

  • NVIDIA Driver: version 525 or higher recommended. In the sample logs, CUDA 12.0 works fine.

  • RAM: minimum 16GB.

  • Storage: at least 20GB free space; the model itself takes ~13GB plus cache.

  • Operating system: Linux (Ubuntu), macOS, or Windows. The following example uses Ubuntu.

3.3 Install Ollama

The fastest way:

curl -fsSL https://ollama.com/install.sh | sh

Or manually (Linux):

curl -LO https://ollama.com/download/ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

Start the Ollama service:

OLLAMA_HOST=0.0.0.0:8888 ollama serve

When the log shows listening on [::]:8888, the server is ready.

3.4 Download GPT-OSS 20B

Open a new terminal and run:

OLLAMA_HOST=0.0.0.0:8888 ollama pull gpt-oss:20b

The first download is about 13GB. When the log shows success, the model is ready.

3.5 Run the Model

Start the model and try chatting:

OLLAMA_HOST=0.0.0.0:8888 ollama run gpt-oss:20b

Example:

>>> hi
Hello! 👋 How can I help you today?

3.6 Verify GPU Usage

Run:

nvidia-smi

Result: the Tesla P40 (24GB) consumes around 12–13GB VRAM for the process /usr/bin/ollama. The Ollama log also shows “offloading output layer to GPU” and “llama runner started in 8.05 seconds”, proving the model is running on GPU, not CPU.

3.7 Monitor API and Performance

Ollama exposes a REST API at http://127.0.0.1:8888.
Common endpoints include /api/chat and /api/generate.

Response times:

  • Short prompts: about 2–10 seconds.

  • Long or complex prompts: may take tens of seconds to a few minutes.


4. Conclusion

You have successfully run GPT-OSS 20B on a Tesla P40. The initial model download takes some time, but afterward it launches quickly and runs stably. With 24GB VRAM, the GPU can handle the large model without overload. While long prompts may still be slow, it is fully usable for real-world experiments and local project integration.

Claude Code và Tương Lai Lập Trình Với AI Agent

Trong vòng một năm trở lại đây, cách chúng ta viết code đã thay đổi nhanh đến mức chóng mặt. Nếu như trước kia AI chỉ dừng ở mức autocomplete vài dòng trong IDE, thì nay các công cụ như Claude Code đã tiến hóa thành những “người đồng hành” thực sự: có thể đọc hiểu toàn bộ project, viết, sửa, refactor, và thậm chí xây dựng ứng dụng từ đầu đến cuối.

Bài viết này tổng hợp những ý chính từ buổi trò chuyện giữa Alex và Boris (Anthropic) về Claude Code, đồng thời chia sẻ thêm vài góc nhìn cá nhân.

Link video: https://www.youtube.com/watch?v=iF9iV4xponk

Claude Code là gì?

Để hiểu Claude Code, hãy bắt đầu từ Claude. Đây là mô hình ngôn ngữ (LLM) do Anthropic phát triển, nổi tiếng nhờ khả năng suy luận tốt, trả lời an toàn và viết code khá mạnh. Tuy nhiên, nếu chỉ có một mô hình ngôn ngữ thì vẫn còn thiếu nhiều thứ để làm việc trong môi trường lập trình thực tế.

Ví dụ: nếu bạn thả Claude “chay” vào một dự án, nó có thể viết code hoặc trả lời câu hỏi, nhưng sẽ gặp khó khăn khi:

  • Không biết trạng thái repo hiện tại.

  • Không có quyền chỉnh sửa file.

  • Không thể chạy test hoặc commit.

  • Không tích hợp được vào workflow của team.

Đây chính là khoảng trống mà Claude Code ra đời để lấp đầy.

Claude Code = “Agentic IDE”

Anthropic gọi Claude Code là agentic IDE (một môi trường phát triển dựa trên agent). Nó giống một IDE thông minh, nhưng có khả năng tự hành động chứ không chỉ gợi ý.

Cấu trúc Claude Code gồm nhiều thành phần:

  1. Harness – Lớp điều phối giữa mô hình, ngữ cảnh project, và người dùng.

    • Harness giống như “bộ não phụ” để nối Claude với codebase.

    • Nó đảm bảo Claude có cái nhìn đầy đủ về repo, không chỉ một file rời rạc.

  2. Tools & Permissions – Cơ chế kiểm soát.

    • AI có thể thực hiện hành động thực sự: chỉnh sửa file, chạy script, cài dependency, commit.

    • Nhưng mọi hành động đều trong phạm vi cho phép, tránh “AI phá repo”.

  3. MCP Servers (Model Context Protocol) – Hệ thống plugin/API.

    • Cho phép mở rộng Claude Code ra ngoài: kết nối tới database, API, CI/CD, issue tracker (GitHub, Jira…).

    • Đây là điểm giúp Claude Code không chỉ làm code “trên máy”, mà còn tham gia vào toàn bộ pipeline.

  4. Settings, Hooks & Slash Commands – Tùy biến workflow.

    • Dev có thể định nghĩa shortcut (ví dụ: /fix-tests, /deploy) hoặc viết hook để AI làm việc theo cách riêng.

    • Tính năng này khiến Claude Code hackable, khác biệt so với nhiều công cụ AI coding “đóng hộp”.

  5. CLAUDE.md – Tài liệu hướng dẫn dành riêng cho AI.

    • Bạn có thể tạo file này trong repo để mô tả project, convention, style guide.

    • Claude sẽ đọc và hiểu ngữ cảnh như một dev mới join team.


Điểm khác biệt với AI coding khác

So với GitHub Copilot hay Cursor, Claude Code không chỉ dừng ở gợi ý code trong editor, mà là:

  • Có trí nhớ dài: hiểu và thao tác trên codebase lớn.

  • Có quyền hành động: sửa file, chạy lệnh.

  • Có khả năng mở rộng: thông qua MCP và plugins.

  • Có thể hack/tùy biến: lập trình viên điều chỉnh workflow theo ý mình.

Sự tiến hóa: từ autocomplete đến agent

Trong vòng một năm qua, AI coding đã thay đổi nhanh đến mức khó tin. Điểm đáng chú ý là sự tiến hóa không chỉ đến từ bản thân mô hình (model), mà chủ yếu nằm ở cách chúng ta đóng gói và sử dụng nó trong workflow thực tế.

  • Trước đây – thời kỳ autocomplete
    AI chỉ đóng vai trò như một “bộ gợi ý thông minh” trong IDE. GitHub Copilot (ra mắt 2021) là ví dụ điển hình: nó dự đoán vài dòng code tiếp theo, giống như autocomplete trong Gmail, nhưng dành cho lập trình viên. Rất tiện, nhưng vẫn giới hạn trong phạm vi vài dòng code.

  • Hiện tại – AI như đồng nghiệp
    Với các công cụ mới như Claude Code hay Cursor, AI không chỉ gợi ý từng dòng, mà có thể:

    • Đọc và phân tích toàn bộ repo.

    • Sửa lỗi và refactor hàng loạt file.

    • Review Pull Request (PR) và đưa ra nhận xét.

    • Hiểu ngữ cảnh project (nhờ cơ chế long context window như Claude 3.5 Sonnet với 200k tokens).

    Điều này biến AI từ một “công cụ hỗ trợ viết code” thành một trợ lý phát triển phần mềm thực thụ.

  • Tương lai gần – AI hiểu ý định (intent)
    Anthropic mô tả tầm nhìn tiếp theo: AI sẽ không chỉ viết code theo prompt, mà còn quản lý mục tiêu của lập trình viên.
    Ví dụ: bạn nói “Xây API thanh toán với Stripe”, Claude Code sẽ:

    1. Thiết kế cấu trúc.

    2. Tạo endpoint.

    3. Viết test.

    4. Deploy và thông báo kết quả.

    Ở giai đoạn này, AI giống một “agent” thực sự – tự động hóa toàn bộ chu trình dựa trên ý định của con người, thay vì chỉ thao tác cục bộ trên từng file.


Điều gì thúc đẩy sự tiến hóa này?

Theo chia sẻ từ Boris Cherny (Anthropic), chính feedback thực chiến từ dev nội bộ đã dẫn dắt sản phẩm. Anthropic không xây Claude Code trong phòng lab, mà cho chính nhân viên sử dụng hàng ngày để làm việc thật. Model và công cụ đồng tiến hóa:

  • Dev phản hồi về điểm yếu (ví dụ AI refactor chưa sạch → cải tiến).

  • Model mạnh hơn lại mở ra use case mới (ví dụ context dài → đọc cả repo).

Đây là lý do tại sao Claude Code không chỉ “mạnh về lý thuyết”, mà còn thực sự hữu dụng trong quy trình phát triển phần mềm.


Hackability là gì và vì sao quan trọng?

Một trong những điểm khác biệt khiến Claude Code nổi bật so với nhiều công cụ AI coding khác chính là tính hackability – tức khả năng tùy biến, mở rộng, và “bẻ cong” công cụ theo cách mà lập trình viên mong muốn.

Vì sao hackability quan trọng?

Trong thế giới phần mềm, mỗi đội và mỗi dự án có workflow riêng:

  • Có team ưu tiên CI/CD tự động, để code merge là deploy ngay.

  • Có team lại yêu cầu review thủ công và check kỹ lưỡng.

  • Một số lập trình viên thích command-line tool, số khác muốn UI trực quan.

Nếu một công cụ AI bị “đóng khung” theo một quy trình cứng nhắc, nó sẽ không thể đáp ứng được sự đa dạng này. Do đó, tính hackable là yếu tố then chốt giúp AI coding trở thành công cụ thực sự linh hoạt, thay vì chỉ là demo đẹp.

Hackability trong Claude Code

Claude Code được thiết kế để cực kỳ hackable với nhiều cơ chế:

  • CLAUDE.md: file cấu hình cho phép mô tả project, hướng dẫn AI hiểu ngữ cảnh (giống như README nhưng dành riêng cho AI).

  • Configurable workflows: bạn có thể cấu hình lại workflow qua settings, hooks hoặc script tùy chỉnh.

  • MCP servers (Model Context Protocol): cơ chế mở rộng theo kiểu “plugin/API”, cho phép AI tương tác với tool, service hoặc dữ liệu riêng của bạn.

  • Slash commands & sub-agents: tạo lệnh chuyên biệt (ví dụ: /generate-tests, /lint*) hoặc định nghĩa agent con để xử lý tác vụ hẹp.

Ví dụ thực tế

  • Một công ty fintech có thể viết MCP server riêng để Claude trực tiếp đọc dữ liệu từ hệ thống nội bộ, thay vì copy-paste code.

  • Một startup game có thể tạo slash command /render để AI gọi engine dựng hình trong quá trình phát triển.

  • Team backend có thể thêm CLAUDE.md để AI luôn tuân thủ chuẩn code style và kiến trúc microservices của họ.

👉 Chính vì vậy, hackability quan trọng ở chỗ: nó giúp AI không chỉ phù hợp với lập trình nói chung, mà còn thích nghi với phong cách làm việc riêng của từng lập trình viên và từng đội ngũ.


Tương lai của lập trình với AI agent

Bức tranh được Alex và Boris vẽ ra khá rõ:

  • Ngắn hạn: dev vẫn viết code thủ công, nhưng AI sẽ gánh phần “text manipulation” (refactor, đổi tên biến, viết test, v.v.).

  • Trung hạn: AI sẽ review code, đề xuất thay đổi, và có thể merge PR.

  • Dài hạn: dev chỉ cần nói “Xây API thanh toán với Stripe”, AI sẽ tự thiết kế, viết, test, deploy. Lập trình viên sẽ dần trở thành người định hướng, review và tư duy giải pháp thay vì “người gõ từng dòng code”.


Suy nghĩ cá nhân

Thật sự thì khi nhìn vào những gì Claude Code (và các agent AI khác) đang làm được, mình có cảm giác việc viết code không còn khô khan và đã trở nên dễ dàng hơn rất nhiều. Trước đây, để tạo ra một ứng dụng, chúng ta phải bỏ ra hàng tuần hay thậm chí hàng tháng để gõ từng dòng code, fix bug, rồi refactor. Nhưng giờ, AI có thể giúp sinh ra hàng nghìn dòng code chỉ trong vài phút.

Điều đó có nghĩa là: giá trị thật sự không còn nằm ở việc bạn viết được bao nhiêu dòng code, mà nằm ở việc bạn muốn xây dựng cái gì, thiết kế ra sao, và giải quyết vấn đề gì cho người dùng.

Điều này cũng kéo theo sự thay đổi lớn trong kỹ năng mà một developer cần. Thay vì chỉ tập trung vào “gõ code”, lập trình viên trong tương lai sẽ phải biết cách:

  • Đặt câu hỏi và mô tả yêu cầu rõ ràng cho AI. Đây giống như việc ra đề thi: đề càng rõ, đáp án càng đúng.

  • Hiểu và review code mà AI tạo ra, vì cuối cùng trách nhiệm với sản phẩm vẫn là của con người.

  • Kết hợp nhiều công cụ và agent để đạt được mục tiêu nhanh và hiệu quả hơn.

  • Có thể sẽ hình thành 2 nhóm nghề: người phát triển sản phẩm (product developer) và người lập trình ở mức thấp hơn (low-level developer) để xây dựng module cốt lõi.

Nếu nghĩ kỹ thì kỹ năng này khá giống với vai trò của một technical architect hơn là một coder thuần túy: định hình giải pháp, kết nối các mảnh ghép, và đảm bảo hệ thống hoạt động ổn định.

Về cơ hội và thách thức thì mình thấy rõ ràng:

  • Cơ hội: thời gian từ ý tưởng → sản phẩm rút ngắn cực kỳ nhiều. Một cá nhân giờ đây có thể làm được những thứ mà trước kia phải cần cả một team. Điều này mở ra rất nhiều cơ hội cho sáng tạo và khởi nghiệp.

  • Thách thức: nếu chỉ dừng lại ở việc “biết code”, bạn sẽ nhanh chóng bị thay thế. AI có thể viết, sửa, refactor code rất nhanh, nhưng AI chưa thể giao tiếp và thấu hiểu con người. Những kỹ năng như trao đổi với khách hàng, lắng nghe nhu cầu, đàm phán, thuyết phục, hay đơn giản là xây dựng niềm tin vẫn là phần không thể thiếu – và chỉ con người mới làm được.

Running Latent Diffusion Model on Regular Computers via Google Colab and Ngrok

Introduction

In recent years, diffusion models such as the Latent Diffusion Model (LDM) have become the gold standard for text-to-image generation thanks to their high image quality, fast inference speed, and flexible fine-tuning capabilities. However, the biggest barrier for beginners is often the expensive GPU hardware requirement. This article will guide you on how to run LDM on a regular computer by taking advantage of Google Colab—a cloud environment that provides free/affordable GPU access, allowing you to focus on your ideas instead of hardware setup.

Main Content

What is Colab?

Colab is a hosted Jupyter Notebook service that requires no setup to use and provides free access to computing resources, including GPUs and TPUs. Colab is especially well suited to machine learning, data science, and education.

What You Need to Prepare

  1. A Colab account – Getting one is very easy; just search for it and sign up. Colab can be used for free but with limits on memory, GPU, etc. You can also subscribe to a paid plan depending on your needs.

  2. An Ngrok account – Just like the first step, sign up for an account, then get your authtoken, which will be used later.

  3. An example LDM setup for this tutorial – In this article, we’ll use the Stable Diffusion Pipeline in Python. Hugging Face provides a list of text-to-image models ranging from weaker to stronger ones at: https://huggingface.co/models?pipeline_tag=text-to-image&sort=trending.
    Example repo for this article: https://github.com/thangnch/MiAI_StableDiffusion_Flask_Text2Image


Running on a Personal Computer

First, clone the above GitHub repo to your local machine. Then install the required libraries and packages such as pip, PyTorch, and diffusion.

Next, run the svr_model.py file.

Depending on whether your personal computer has GPU support (CUDA or MPS), the model can run on GPU; otherwise, it defaults to CPU—which is much slower.

Since my GPU doesn’t support NVIDIA CUDA, I had to run it on CPU.

After starting the server, the demo web page URL appears in the terminal.

Now we can generate an image from a prompt.

 

  • Speed: quite slow at 4.14s/it

  • Consumes a lot of CPU power

  • But still managed to generate an image successfully with the weakest model

This shows that although it is possible to run locally on your own machine, it is very slow and CPU-intensive, even with the smallest model.


Using Colab with Ngrok

  1. Visit Google Colab: https://colab.research.google.com/

  2. Visit Ngrok: https://dashboard.ngrok.com/get-started/setup/windows

In Colab:

Then:

  • Run another cell to install all required libraries (already listed in the repo)

  • Copy the code from text2image_model.py to start running the model

  • Next, copy the code from svr_model.py

Before running svr_model.py, install Ngrok in the Colab environment by running another code cell.

After installation:

  • Go to your Ngrok dashboard, copy your personal authtoken

  • Back in Colab, paste it into the Secrets section on the left sidebar, name it, and save

Now run svr_model.py.


Ngrok will provide a temporary public URL (my tunnel) that connects to your server running on GPU.

Visit the link, and you’ll get the text-to-image web interface.

Time to generate images!

Example:

  • Prompt: “Cat and dog” – With the lowest model

    • Very fast at 9.9s

    • GPU used effectively

Even with higher-level models, the process still runs smoothly.

  • Prompt: “City landscape” – Model level 6

Still stable and responsive


Conclusion

Through these experiments, we have learned how to use Latent Diffusion Models easily on a personal computer and optimize performance with Colab and Ngrok combined. This provides a smooth and fast user experience. Hopefully, this article will be helpful to readers.

Thank you for reading!

🧑‍💻 Kiro – When the AI IDE Becomes a Software Architect

In recent years, AI coding assistants have reshaped how we build software. From GitHub Copilot to Cursor and Windsurf, developers can now write code faster, debug less, and “vibe code” any idea with just a few prompts.

But alongside the convenience comes a major issue: lack of structure. Prototypes are spun up quickly but are hard to scale. Code lacks documentation, design artifacts, and tests, often leading to technical debt.

Amazon AWS introduced Kiro to solve exactly this. Instead of being just a “coding companion,” Kiro positions itself as an AI software architect – guiding you from requirements to design, implementation, and validation. It marks a shift from prompt-driven development to spec-driven development.

 

🌍 Why Do We Need a “Spec-Driven AI IDE”

Most AI coding tools today focus on speed & productivity for individuals. Cursor, Copilot, and Windsurf enable a single developer to prototype an MVP in days. But when it’s time to scale or work in a team, these prototypes often become liabilities:

  • No clear requirements → miscommunication when tasks are handed off.
  • No design docs → difficult to refactor or onboard new devs.
  • Poor test coverage → bugs slip through QA.
  • Lack of best practices → fragile architectures.

AWS identified this gap and proposed a philosophy: AI should not only be a coding assistant but a software architect. Kiro is designed to follow a full development lifecycle: Requirement → Design → Implementation → Validation.

🔑 Core Features of Kiro

1. Spec-Driven Development

You describe requirements in natural language, and Kiro generates:

  • Requirement documents (user stories, acceptance criteria).
  • Design documents (system architecture, ER diagrams, sequence diagrams).
  • Task lists (implementation steps, tests).

 

2. Agent Hooks – Your “Senior Dev on Autopilot”

Agent hooks in Kiro act like a senior developer running in the background:

  • Automatically generate unit tests when you save files.
  • Check code smells against SOLID principles.
  • Update README and API specs.
  • Scan for accidentally committed secrets or credentials.

3. MCP & Steering Rules – Context Integration

Kiro supports the Model Context Protocol (MCP), allowing AI to access company docs, API specifications, or database schemas for richer context. Steering rules ensure AI stays aligned with project goals.

4. Agentic Chat – Context-Aware Conversations

Beyond inline completions, Kiro’s chat agent understands the entire codebase, requirements, and design docs. You can request:

  • “Add OAuth2 login flow with Google.”
  • “Generate a sequence diagram for password reset.”
  • “Write integration tests with Postgres.”

5. Familiar Foundation

  • Built on Code OSS, fully compatible with VS Code extensions, themes, and settings.
  • Powered by strong models (Claude 3.7, Claude 4.0) with future support for GPT and Gemini.
  • Pricing (Preview): Free tier (50 interactions/month), Pro $19 (1,000 interactions), Pro+ $39 (3,000 interactions).

⚔️ Kiro vs Cursor – A Fascinating Duel

Criteria Kiro – Spec-Driven IDE Cursor – Prompt-Driven IDE
Philosophy Requirement → Design → Code → Test Prompt → Code
Automation Agent Hooks (docs, tests, best practices) Manual, one task at a time
Context Handling MCP: APIs, DBs, external docs Mainly codebase indexing
Output Production-grade, standardized Quick prototypes, vibe coding
IDE Foundation Code OSS (VS Code ecosystem) VS Code fork
Best Fit For Enterprise teams, large-scale development Startups, solo prototyping

 

🛠️ Walkthrough: How Kiro Handles a Requirement

To see Kiro in action, I asked it to:

“Create a REST API for login/signup with JWT. You can use documents accounts for logic login/signup.”

Kiro then generated three artifacts: requirements, design, and tasks — essentially doing the work of a product manager, software architect, and tech lead in one.

You can see more in the folder .kiro in the source code on GitHub

1. Requirements

Kiro produced a requirements.md file describing the system as user stories with acceptance criteria:

  • Signup: Users can register with email and password. Validation rules include unique email, proper format, and a minimum 8-character password. On success, the system returns a JWT and user info.

  • Login: Users log in with valid credentials to receive a JWT. Invalid or non-existent accounts return a 401 Unauthorized.

  • Token Validation: Protected routes require a valid JWT. Expired, missing, or malformed tokens are rejected.

  • Security: Passwords must be hashed with bcrypt, never stored in plain text, and tokens signed with a secure secret.

  • Error Handling: The API must return clear but secure error messages, avoiding user enumeration.

This structured requirements file ensures that the authentication system has a clear scope and testable outcomes before any code is written.


2. Design

Next, Kiro generated a design.md document, laying out the NestJS architecture:

  • Modules & Services: AuthModule, AuthService, AuthController, JwtStrategy, AuthGuard.

  • DTOs for input validation (signup.dto.ts, login.dto.ts).

  • Data Model: An extended AccountSchema with unique userId/userName fields, password hashing middleware, and timestamps.

  • Security Setup: bcrypt with 12 salt rounds, JWTs signed with HS256, 24-hour expiration.

  • REST Endpoints:

    • POST /auth/signup → register new accounts

    • POST /auth/login → authenticate and return token

    • GET /auth/profile → protected endpoint returning current user info

The design document also detailed error handling policies (e.g., generic “Invalid credentials” messages), validation strategies, and a test plan (unit + integration).


3. Tasks

Finally, Kiro produced a tasks.md file — essentially an implementation plan:

  1. Setup dependencies: Install @nestjs/jwt, passport-jwt, bcrypt, and validation libraries.

  2. Create DTOs for signup/login validation.

  3. Enhance the Account model with password hashing and secure comparison methods.

  4. Implement JWT strategy for validating tokens in requests.

  5. Build AuthService methods for signup and login, returning JWTs.

  6. Build AuthController endpoints: /signup, /login, /profile.

  7. Add AuthGuard to protect routes.

  8. Wire everything into AuthModule and integrate with the app.

  9. Error handling via custom exception filters.

  10. Unit & integration tests for flows like signup, login, and token validation.

This task list reads like a well-prepared Jira board — ready for developers to pick up and implement step by step.


✨ The Result

In just one prompt, Kiro produced a requirements spec, a detailed design doc, and an actionable implementation plan.

Instead of jumping straight into code, the system starts with clarity:

  • What needs to be built

  • How it should be structured

  • How to test and validate it

This demonstrates how Kiro goes beyond “AI autocomplete” and into end-to-end engineering workflow automation.

🧪 Real-World Feedback from Early Users

1. Dev.to – Testing Kiro in Real Projects

  • Kiro produced clear design docs and structured task lists.
  • Agent Hooks auto-generated basic tests (though not deep coverage).
  • Strongest feature: spec-first workflow → immediate blueprint for the project.
  • Limitation: complex logic still requires developer intervention.

👉 Takeaway: Kiro feels more like a senior PM + junior dev than a pure coder.

2. Substack – Developing with Kiro

  • After just a few lines of description, Kiro generated detailed user stories broken into assignable tasks.
  • Docs and code stayed in sync — changes to requirements updated design and code automatically.
  • Saved several days of manual documentation work.
  • Still requires developer review for security and performance concerns.

👉 Takeaway: Perfect for small teams or startups without a dedicated product manager.

3. AWS Re:Post – Beyond a Coding Assistant

  • Positions Kiro as a tool for full-stack development from spec to deployment.
  • Biggest strength: reducing communication overhead between devs, PMs, and QA.

👉 Takeaway: The real value lies not just in code generation, but in process standardization.

🎯 Insights from Real Use Cases

  • Biggest Strength: End-to-end sync from requirements → design → code, saving huge time on documentation and planning.
  • Main Limitation: Complex logic still needs developer oversight, especially for security and performance.
  • Ideal Use Cases: Startups that need speed and structure, or enterprise teams looking to minimize technical debt.

📌 Conclusion – Is Kiro the “Future IDE”?

Kiro is not just another AI IDE. It represents a new philosophy: Spec-Driven Development, where AI doesn’t just write code but participates in the entire software development lifecycle.

  • Cursor remains fantastic when you need to code fast and iterate rapidly.
  • Kiro is for when you want to elevate AI from “assistant” to “software architect.”

💡 My take:

Kiro may not replace Cursor immediately. But in the next 2–3 years, as enterprises demand standardized, testable, documented code, spec-driven IDEs like Kiro are likely to become the norm.

👉 Have you tried Kiro yet? Do you think the future of AI IDEs should lean more towards speed (Cursor style) or structure (Kiro style)?