Fine-Tuning GPT-OSS-20B on Google Colab Using Unsloth and LoRA

Posted on October 19, 2025 by Hieu Pham Pro

1. Introduction

In today’s rapidly advancing field of AI, the use of AI models — or more specifically, running them on personal computers — has become more common than ever.
However, some AI models have become increasingly difficult to use because the training data required for them is massive, often involving millions of parameters.
This makes it nearly impossible for low-end computers to use them effectively for work or projects.

Therefore, in this article, we will explore Google Colab together with Unsloth’s fine-tuning tool, combined with LoRA, to fine-tune and use gpt-oss-20b according to our own needs.

Quick Navigation
2. Main Content
3. Using Colab to Train gpt-oss-20b
4. Conclusion & Next Steps

2. Main Content

a. What is Unsloth?

Unsloth is a modern Python library designed to speed up and optimize the fine-tuning of large language models (LLMs) such as LLaMA, Mistral, Mixtral, and others.
It makes model training and fine-tuning extremely fast, memory-efficient, and easy — even on limited hardware like a single GPU or consumer-grade machines.

b. What is Colab?

Colab is a hosted Jupyter Notebook service that requires no setup and provides free access to computing resources, including GPUs and TPUs.
It is particularly well-suited for machine learning, data science, and education purposes.

c. What is LoRA?

Low-Rank Adaptation (LoRA) is a technique for quickly adapting machine learning models to new contexts.
LoRA helps make large and complex models more suitable for specific tasks. It works by adding lightweight layers to the original model rather than modifying the entire architecture.
This allows developers to quickly expand and specialize machine learning models for various applications.

3. Using Colab to Train gpt-oss-20b

– Installing the Libraries

!pip install --upgrade -qqq uv

try:
    import numpy
    install_numpy = f"numpy=={numpy.__version__}"
except:
    install_numpy = "numpy"

!uv pip install -qqq \
  "torch>=2.8.0" "triton>=3.4.0" {install_numpy} \
  "unsloth_zoo[base] @ git+https://github.com/unslothai/unsloth-zoo" \
  "unsloth[base] @ git+https://github.com/unslothai/unsloth" \
  torchvision bitsandbytes \
  git+https://github.com/huggingface/[email protected] \
  git+https://github.com/triton-lang/triton.git@05b2c186c1b6c9a08375389d5efe9cb4c401c075#subdirectory=python/triton_kernels

– After completing the installation, load the gpt-oss-20b model from Unsloth:

from unsloth import FastLanguageModel
import torch

max_seq_length = 1024
dtype = None
model_name = "unsloth/gpt-oss-20b"

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = model_name,
    dtype = dtype,                 # None for auto detection
    max_seq_length = max_seq_length,  # Choose any for long context!
    load_in_4bit = True,           # 4 bit quantization to reduce memory
    full_finetuning = False,       # [NEW!] We have full finetuning now!
    # token = "hf_...",            # use one if using gated models
)

– Adding LoRA for Fine-Tuning

model = FastLanguageModel.get_peft_model(
    model,
    r = 8,  # Choose any number > 0! Suggested 8, 16, 32, 64, 128
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj"],
    lora_alpha = 16,
    lora_dropout = 0,              # Optimized fast path
    bias = "none",                 # Optimized fast path
    # "unsloth" uses less VRAM, fits larger batches
    use_gradient_checkpointing = "unsloth",  # True or "unsloth" for very long context
    random_state = 3407,
    use_rslora = False,
    loftq_config = None,
)

Tip: If you hit out-of-memory (OOM), reduce max_seq_length, set a smaller r, or increase gradient_accumulation_steps.

– Testing the Model Before Fine-Tuning

Now, let’s test how the model responds before fine-tuning:

messages = [
    {"role": "system", "content": "Bạn là Shark B, một nhà đầu tư nổi tiếng, thẳng thắn và thực tế", "thinking": None},
    {"role": "user", "content": "Bạn hãy giới thiệu bản thân"},
]

inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt = True,
    return_tensors = "pt",
    return_dict = True,
    reasoning_effort = "low",
).to(model.device)

from transformers import TextStreamer
_ = model.generate(**inputs, max_new_tokens = 512, streamer = TextStreamer(tokenizer))

– Load data for finetune model

Dataset sample

def formatting_prompts_func(examples):
    convos = examples["messages"]
    texts = [tokenizer.apply_chat_template(convo, tokenize = False, add_generation_prompt = False) for convo in convos]
    return { "text" : texts, }

from datasets import load_dataset
dataset = load_dataset("json", data_files="data.jsonl", split="train")
dataset

from unsloth.chat_templates import standardize_sharegpt
dataset = standardize_sharegpt(dataset)
dataset = dataset.map(formatting_prompts_func, batched = True)

– Train model

The following code snippet defines the configuration and setup for the fine-tuning process.
Here, we use SFTTrainer and SFTConfig from the trl library to perform Supervised Fine-Tuning (SFT) on our model.
The configuration specifies parameters such as batch size, learning rate, optimizer type, and number of training epochs.

from trl import SFTConfig, SFTTrainer

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = dataset,
    args = SFTConfig(
        per_device_train_batch_size = 1,
        gradient_accumulation_steps = 4,
        warmup_steps = 5,
        num_train_epochs = 1,  # Set this for 1 full training run.
        # max_steps = 30,
        learning_rate = 2e-4,
        logging_steps = 1,
        optim = "adamw_8bit",
        weight_decay = 0.01,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",
        report_to = "none",  # Use this for WandB etc.
    ),
)

trainer_stats = trainer.train()

– After training, try the fine-tuned model

# Example reload (set to True to run)
if False:
    from unsloth import FastLanguageModel
    model, tokenizer = FastLanguageModel.from_pretrained(
        model_name = "finetuned_model",  # YOUR MODEL YOU USED FOR TRAINING
        max_seq_length = 1024,
        dtype = None,
        load_in_4bit = True,
    )

    messages = [
        {"role": "system", "content": "Bạn là Shark B, một nhà đầu tư nổi tiếng, thẳng thắn và thực tế", "thinking": None},
        {"role": "user", "content": "Bạn hãy giới thiệu bản thân"},
    ]

    inputs = tokenizer.apply_chat_template(
        messages,
        add_generation_prompt = True,
        return_tensors = "pt",
        return_dict = True,
        reasoning_effort = "low",
    ).to(model.device)

    from transformers import TextStreamer
    _ = model.generate(**inputs, max_new_tokens = 512, streamer = TextStreamer(tokenizer))

Note: Replace finetuned_model with your actual model path (e.g., outputs or the directory you saved/merged adapters to).

Colab notebook: Open your Colab here.

4. Conclusion & Next Steps

By combining Unsloth (for speed and memory efficiency), LoRA (for lightweight adaptation), and Google Colab (for accessible compute), you can fine-tune gpt-oss-20b even on modest hardware. The workflow above helps you:

Install a reproducible environment with optimized kernels.
Load gpt-oss-20b in 4-bit to reduce VRAM usage.
Attach LoRA adapters to train only a small set of parameters.
Prepare chat-style datasets and run supervised fine-tuning with TRL’s SFTTrainer.
Evaluate before/after to confirm your improvements.

Open the Colab
Clone the notebook, plug in your dataset, and fine-tune your own assistant in minutes.

Lộ Trình Học Tập Tối Ưu cho Quản Lý Sản Phẩm AI

Posted on October 14, 2025 by Phat Ly

Bài viết gốc: “The Ultimate AI PM Learning Roadmap” của Paweł Huryn

Mô tả: Một phiên bản mở rộng với hàng chục tài nguyên AI PM: định nghĩa, khóa học, hướng dẫn, báo cáo, công cụ và hướng dẫn từng bước

Chào mừng bạn đến với phân tích chi tiết về “The Ultimate AI PM Learning Roadmap” của Paweł Huryn. Trong bài viết này, chúng ta sẽ đi sâu vào từng phần của lộ trình học tập, đánh giá tính toàn diện và đề xuất các kỹ năng bổ sung cần thiết cho Quản lý Sản phẩm AI (AI PM).

1Các Khái Niệm Cơ Bản về AI

Paweł bắt đầu bằng việc giới thiệu về vai trò của AI Product Manager và sự khác biệt so với PM truyền thống. Đây là nền tảng quan trọng để hiểu rõ về lĩnh vực này.

Điểm chính:

Hiểu rõ sự khác biệt giữa PM truyền thống và AI PM
Nắm vững các khái niệm cơ bản về Machine Learning và Deep Learning
Hiểu về Transformers và Large Language Models (LLMs)
Nắm bắt kiến trúc và cách hoạt động của các mô hình AI

Tài nguyên miễn phí:

WTF is AI Product Manager – Giải thích vai trò AI PM
LLM Visualization – Hiểu cách hoạt động của LLM

Bắt đầu với việc hiểu AI Product Manager là gì. Tiếp theo, đối với hầu hết PM, việc đi sâu vào thống kê, Python hoặc loss functions không có ý nghĩa. Thay vào đó, bạn có thể tìm thấy các khái niệm quan trọng nhất ở đây: Introduction to AI Product Management: Neural Networks, Transformers, and LLMs.

[Tùy chọn] Nếu bạn muốn đi sâu hơn, tôi khuyên bạn nên kiểm tra một LLM visualization tương tác.

2Prompt Engineering

Hướng dẫn Prompt Engineering cho AI Product Management

52% người Mỹ trưởng thành sử dụng LLMs. Nhưng rất ít người biết cách viết prompt tốt.

Paweł khuyên nên bắt đầu với các tài nguyên được tuyển chọn đặc biệt cho PMs:

Tài nguyên được đề xuất:

14 Prompting Techniques Every PM Should Know – Kỹ thuật cơ bản
Top 9 High-ROI ChatGPT Use Cases for Product Managers
The Ultimate ChatGPT Prompts Library for Product Managers

Tài nguyên miễn phí khác (Tùy chọn):

Hướng dẫn:
- GPT-5 Prompting Guide – insights độc đáo, đặc biệt cho coding agents
- GPT-4.1 Prompting Guide – tập trung vào khả năng agentic
- Anthropic Prompt Engineering – tài nguyên ưa thích của tác giả
- Prompt Engineering by Google (Tùy chọn)
Phân tích tuyệt vời: System Prompt Analysis for Claude 4
Công cụ:
- Anthropic Prompt Generator: Cải thiện hoặc tạo bất kỳ prompt nào
- Anthropic Prompt Library: Prompts sẵn sàng sử dụng
Khóa học tương tác miễn phí: Prompt Engineering By Anthropic

3Fine-Tuning

Quy trình Fine-tuning trong AI Product Management

Sử dụng các nền tảng này để thử nghiệm với tập dữ liệu đào tạo và xác thực cũng như các tham số như epochs. Không cần coding:

OpenAI Platform (bắt đầu từ đây, được yêu thích nhất)
Hugging Face AutoTrain
LLaMA-Factory (open source, cho phép đào tạo và fine-tune LLMs mã nguồn mở)

Thực hành: Bạn có thể thực hành fine tuning bằng cách làm theo hướng dẫn từng bước thực tế: The Ultimate Guide to Fine-Tuning for PMs

4RAG (Retrieval-Augmented Generation)

Kiến trúc RAG cho AI PM

RAG, theo định nghĩa, yêu cầu một nguồn dữ liệu cộng với một LLM. Và có hàng chục kiến trúc có thể.

Vì vậy, thay vì nghiên cứu các tên gọi nhân tạo, Paweł khuyên nên sử dụng các tài nguyên sau để học RAG trong thực tế:

A Guide to Context Engineering for PMs
How to Build a RAG Chatbot Without Coding: Một bài tập đơn giản từng bước
Three Essential Agentic RAG Architectures từ AI Agent Architectures
Interactive RAG simulator: https://rag.productcompass.pm/

5AI Agents & Agentic Workflows

Các công cụ cho AI Agents và Agentic Workflows

AI agents là chủ đề bạn có thể học tốt nhất bằng cách thực hành. Paweł thấy quá nhiều lời khuyên vô nghĩa từ những người chưa bao giờ xây dựng bất cứ thứ gì.

Công cụ ưa thích: n8n

Công cụ ưa thích của Paweł, cho phép bạn:

Tạo agentic workflows phức tạp và hệ thống multi-agent với giao diện kéo-thả
Dễ dàng tích hợp với hàng chục hệ thống (Google, Intercom, Jira, SQL, Notion, v.v.)
Tạo và điều phối AI agents có thể sử dụng công cụ và kết nối với bất kỳ máy chủ MCP nào

Bạn có thể bắt đầu với các hướng dẫn này:

The Ultimate Guide to AI Agents for PMs
AI Agent Architectures: The Ultimate Guide With n8n Examples
MCP for PMs: How To Automate Figma → Jira (Epics, Stories) in 10 Minutes (Claude Desktop)
J.A.R.V.I.S. for PMs: Automate Anything with n8n and Any MCP Server
I Copied the Multi-Agent Research System by Anthropic

[Tùy chọn] Các hướng dẫn và báo cáo miễn phí yêu thích:

Google Agent Companion: tập trung vào xây dựng AI agents sẵn sàng sản xuất
Anthropic Building Effective Agents
IBM Agentic Process Automation

6AI Prototyping & AI Building

Các công cụ AI Prototyping và Building

Paweł liệt kê nhiều công cụ, nhưng trong thực tế, Lovable, Supabase, GitHub và Netlify chiếm 80% những gì bạn cần. Bạn có thể thêm Stripe. Không cần coding.

Dưới đây là bốn hướng dẫn thực tế:

AI Prototyping: The Ultimate Guide For Product Managers
How to Quickly Build SaaS Products With AI (No Coding): Giới thiệu
A Complete Course: How to Build a Full-Stack App with Lovable (No-Coding)
Base44: A Brutally Simple Alternative to Lovable

[Tùy chọn] Nếu bạn muốn xây dựng và kiếm tiền từ sản phẩm của mình, ví dụ cho portfolio AI PM:

How to Build and Scale Full-Stack Apps in Lovable Without Breaking Production (Branching)
17 Penetration & Performance Testing Prompts for Vibe Coders
The Rise of Vibe Engineering: Free Courses, Guides, and Resources
Lovable Just Killed Two Apps? Create Your Own SaaS Without Coding in 2 Days

Khi xây dựng, hãy tập trung vào giá trị, không phải sự cường điệu. Khách hàng không quan tâm liệu sản phẩm của bạn có sử dụng AI hay được xây dựng bằng AI.

7Foundational Models

Các mô hình nền tảng AI

Khuyến nghị của Paweł (tháng 8/2025):

GPT-5 > GPT-4.1 > GPT-4.1-mini cho AI Agents
Claude Sonnet 4.5 cho coding
Gemini 2.5 Pro cho mọi thứ khác

Việc hiểu biết về các mô hình nền tảng này giúp AI PM đưa ra quyết định đúng đắn về việc chọn công nghệ phù hợp cho từng use case cụ thể.

8AI Evaluation Systems

Đánh giá là một phần quan trọng trong việc phát triển sản phẩm AI. Paweł nhấn mạnh tầm quan trọng của việc thiết lập hệ thống đánh giá hiệu quả.

Các yếu tố quan trọng:

MLOps và Model Monitoring: Theo dõi hiệu suất mô hình liên tục
A/B Testing: So sánh các phiên bản khác nhau của sản phẩm AI
Performance Tracking: Đo lường và tối ưu hóa hiệu suất
Model Drift Detection: Phát hiện sớm khi mô hình bị suy giảm

9AI Product Management Certification

Chứng nhận AI Product Management

Paweł đã tham gia chương trình cohort 6 tuần này vào mùa xuân 2024. Ông yêu thích việc networking và thực hành. Sau đó, ông tham gia cùng Miqdad với vai trò AI Build Labs Leader.

Chi tiết chương trình:

Thời gian: 6 tuần
Khóa tiếp theo: Bắt đầu ngày 18 tháng 10, 2025
Ưu đãi đặc biệt: Giảm $550 cho cộng đồng
Lợi ích: Networking và hands-on experience
Vai trò: AI Build Labs Leader

10AI Evals For Engineers & PMs

Khóa học AI Evals cho Engineers và PMs

Paweł đã tham gia cohort đầu tiên cùng với 700+ AI engineers và PMs. Ông không nghi ngờ gì rằng mọi AI PM phải hiểu sâu về evals. Và ông đồng ý với Teresa Torres:

Trích dẫn của Teresa Torres về AI Evaluation

Thông tin khóa học:

Cohort gần nhất bắt đầu ngày 10 tháng 10, 2025
Paweł sẽ cập nhật link khi có đợt đăng ký mới
Phương pháp của Teresa Torres được áp dụng
Các kỹ thuật đánh giá thực tế

11Visual Summary

Tóm tắt trực quan toàn bộ lộ trình học tập AI PM

Phân Tích và Đánh Giá

Sự Khác Biệt Giữa PM Truyền Thống và AI PM

Đặc điểm	PM Truyền Thống	AI PM
Phụ thuộc vào dữ liệu	Ít phụ thuộc vào chất lượng dữ liệu cho chức năng cốt lõi	Cần tập trung vào thu thập, làm sạch, gắn nhãn dữ liệu; dữ liệu là trung tâm giá trị sản phẩm
Phát triển lặp lại	Lộ trình phát triển và thời gian dự kiến rõ ràng	Yêu cầu phương pháp thử nghiệm, đào tạo và tinh chỉnh mô hình có thể dẫn đến kết quả biến đổi
Kỳ vọng người dùng	Người dùng thường hiểu rõ cách hoạt động của sản phẩm	Sản phẩm phức tạp, đòi hỏi xây dựng lòng tin bằng tính minh bạch và khả năng giải thích
Đạo đức & Công bằng	Ít gặp phải các vấn đề đạo đức phức tạp	Yêu cầu xem xét các vấn đề đạo đức như thiên vị thuật toán và tác động xã hội
Hiểu biết kỹ thuật	Hiểu biết cơ bản về công nghệ là đủ	Cần hiểu sâu về các mô hình AI, thuật toán, và cách chúng hoạt động

Đánh Giá Tính Toàn Diện

Điểm Mạnh:

Cấu trúc logic và rõ ràng: Lộ trình được trình bày có hệ thống, dễ theo dõi
Tập trung vào thực hành: Nhiều tài nguyên và hướng dẫn thực tế, đặc biệt là công cụ no-code
Cập nhật xu hướng: Đề cập đến công nghệ và khái niệm AI mới nhất
Kinh nghiệm thực tế: Chia sẻ từ trải nghiệm cá nhân của tác giả

Điểm Cần Bổ Sung:

Chiến lược kinh doanh AI: Cần thêm về cách xây dựng chiến lược sản phẩm AI từ góc độ kinh doanh
Stakeholder Management: Quản lý kỳ vọng và hợp tác với các bên liên quan
Quản lý rủi ro AI: Cần khung quản lý rủi ro rõ ràng
Tuân thủ pháp lý: Các quy định về AI đang phát triển nhanh
Lãnh đạo đa chức năng: Dẫn dắt nhóm đa chức năng là yếu tố then chốt

Kỹ Năng Bổ Sung Cần Thiết

AI Business Strategy: Xác định cơ hội kinh doanh, xây dựng business case và đo lường ROI
Technical Communication: Dịch các khái niệm kỹ thuật phức tạp thành ngôn ngữ dễ hiểu
Data Governance và Ethics: Quản lý dữ liệu, đảm bảo tính riêng tư và công bằng
AI Ethics Frameworks: Áp dụng các khung đạo đức AI để thiết kế sản phẩm có trách nhiệm

Khuyến Nghị Cuối Cùng

Lộ trình của Paweł Huryn là một điểm khởi đầu tuyệt vời. Để thực sự thành công trong vai trò AI PM, bạn cần:

Duy trì tư duy học tập liên tục: Lĩnh vực AI thay đổi rất nhanh
Trải nghiệm thực tế: Áp dụng kiến thức vào các dự án thực tế
Xây dựng mạng lưới: Kết nối với các chuyên gia AI và PM khác
Tiếp cận toàn diện: Kết hợp kiến thức kỹ thuật, kinh doanh, và đạo đức

Thanks for Reading!

Hy vọng lộ trình học tập này hữu ích cho bạn!

Thật tuyệt vời khi cùng nhau khám phá, học hỏi và phát triển.

Chúc bạn một tuần học tập hiệu quả!

GPT-5-Codex Prompting Guide: Hướng Dẫn Tối Ưu Hóa Prompt Cho Lập Trình

Posted on September 30, 2025October 13, 2025 by Phat Ly

Giới Thiệu

GPT-5-Codex là phiên bản nâng cao của GPT-5, được OpenAI tối ưu hóa đặc biệt cho các nhiệm vụ lập trình tương tác và tự động. Mô hình này được huấn luyện với trọng tâm vào công việc kỹ thuật phần mềm thực tế, mang lại hiệu suất vượt trội trong cả các phiên làm việc nhanh chóng và các nhiệm vụ phức tạp kéo dài.

⚠️ Lưu Ý Quan Trọng

Không phải thay thế trực tiếp: GPT-5-Codex không phải là thay thế trực tiếp cho GPT-5, vì nó yêu cầu cách prompting khác biệt đáng kể
Chỉ hỗ trợ Responses API: Mô hình này chỉ được hỗ trợ với Responses API và không hỗ trợ tham số verbosity
Dành cho người dùng API: Hướng dẫn này dành cho người dùng API của GPT-5-Codex và tạo developer prompts, không dành cho người dùng Codex

Những Cải Tiến Chính Của GPT-5-Codex

1. Khả Năng Điều Hướng Cao

GPT-5-Codex cung cấp mã chất lượng cao cho các nhiệm vụ kỹ thuật phức tạp như:

Phát triển tính năng mới
Kiểm thử và gỡ lỗi
Tái cấu trúc mã nguồn
Đánh giá và review code

Tất cả những nhiệm vụ này được thực hiện mà không cần hướng dẫn dài dòng hay chi tiết.

2. Mức Độ Suy Luận Thích Ứng

Mô hình có khả năng điều chỉnh thời gian suy luận theo độ phức tạp của nhiệm vụ:

Phản hồi nhanh trong các phiên tương tác ngắn
Có thể làm việc độc lập trong nhiều giờ cho các nhiệm vụ phức tạp
Tự động phân bổ tài nguyên tính toán phù hợp

3. Xuất Sắc Trong Đánh Giá Mã

GPT-5-Codex được huấn luyện đặc biệt để:

Thực hiện đánh giá mã chuyên sâu
Điều hướng trong các cơ sở mã lớn
Chạy mã và kiểm thử để xác nhận tính đúng đắn
Phát hiện lỗi và đề xuất cải tiến

Môi Trường Hỗ Trợ

GPT-5-Codex được thiết kế đặc biệt cho:

Codex CLI: Giao diện dòng lệnh cho lập trình
Phần mở rộng Codex IDE: Phần mở rộng cho các IDE phổ biến
Môi trường đám mây Codex: Môi trường đám mây chuyên dụng
Tích hợp GitHub: Tích hợp sâu với GitHub
Đa dạng công cụ: Hỗ trợ nhiều loại công cụ lập trình

Nguyên Tắc Cốt Lõi: “Ít Hơn Là Tốt Hơn”

Đây là nguyên tắc quan trọng nhất khi tạo prompt cho GPT-5-Codex. Do mô hình được huấn luyện đặc biệt cho lập trình, nhiều thực hành tốt đã được tích hợp sẵn, và việc quá tải hướng dẫn có thể làm giảm chất lượng.

1. Bắt Đầu Với Prompt Tối Giản

Sử dụng prompt ngắn gọn, lấy cảm hứng từ prompt hệ thống của Codex CLI
Chỉ thêm những hướng dẫn thực sự cần thiết
Tránh các mô tả dài dòng không cần thiết

2. Loại Bỏ Phần Mở Đầu

GPT-5-Codex không hỗ trợ phần mở đầu
Yêu cầu phần mở đầu sẽ khiến mô hình dừng sớm trước khi hoàn thành nhiệm vụ
Tập trung vào nhiệm vụ chính ngay từ đầu

3. Giảm Số Lượng Công Cụ

Chỉ sử dụng các công cụ cần thiết:
- Terminal: Để thực thi lệnh
- apply_patch: Để áp dụng thay đổi mã
Loại bỏ các công cụ không cần thiết

4. Mô Tả Công Cụ Ngắn Gọn

Làm cho mô tả công cụ ngắn gọn nhất có thể
Loại bỏ các chi tiết không cần thiết
Tập trung vào chức năng cốt lõi

So Sánh Với GPT-5

Prompt của GPT-5-Codex ngắn hơn khoảng 40% so với GPT-5, điều này nhấn mạnh rằng:

Prompt tối giản là lý tưởng cho mô hình này
Ít token hơn = hiệu suất tốt hơn
Tập trung vào chất lượng thay vì số lượng

Ví Dụ Thực Tế

Prompt Không Tối Ưu:

Bạn là một lập trình viên chuyên nghiệp với nhiều năm kinh nghiệm. Hãy bắt đầu bằng cách phân tích yêu cầu, sau đó tạo kế hoạch chi tiết, và cuối cùng implement code với nhiều comment giải thích. Đảm bảo code có error handling, unit tests, và documentation đầy đủ...

Prompt Tối Ưu:

Tạo một function để tính tổng hai số nguyên.

Ví Dụ Thực Tế: Gọi API GPT-5-Codex

Bước 1: Cài đặt và cấu hình

Lưu ý: Thay sk-your-api-key-here bằng API key thực tế của bạn từ OpenAI.

Bước 2: Tạo file Python gọi GPT-5-Codex

Mở Notepad và paste code sau:

import os
from openai import OpenAI
from dotenv import load_dotenv

# Load API key từ file .env
load_dotenv()

# Khởi tạo client
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

def call_gpt5_codex(prompt):
    """
    Gọi API GPT-5-Codex với prompt tối giản
    """
    try:
        response = client.chat.completions.create(
            model="gpt-5-codex",  # Model name cho GPT-5-Codex
            messages=[
                {
                    "role": "user", 
                    "content": prompt
                }
            ],
            temperature=0.1,  # Thấp để code chính xác
            max_tokens=4000
        )
        
        return response.choices[0].message.content
        
    except Exception as e:
        return f"Lỗi: {str(e)}"

# Ví dụ sử dụng
if __name__ == "__main__":
    # Prompt tối giản - không cần hướng dẫn dài dòng
    prompt = "Tạo function Python để tính fibonacci số thứ n"
    
    print("Đang gọi GPT-5-Codex...")
    result = call_gpt5_codex(prompt)
    print("\nKết quả từ GPT-5-Codex:")
    print("=" * 50)
    print(result)

Bước 3: Chạy demo

Bước 4: Ví dụ Request/Response thực tế

Request JSON:

{
  "model": "gpt-5-codex",
  "messages": [
    {
      "role": "user",
      "content": "Tạo REST API với FastAPI để quản lý users"
    }
  ],
  "temperature": 0.1,
  "max_tokens": 2000
}

Response từ GPT-5-Codex:

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from typing import List

app = FastAPI()

# In-memory storage (thay bằng database thực tế)
users = []

class User(BaseModel):
    id: int
    name: str
    email: str

class UserCreate(BaseModel):
    name: str
    email: str

@app.get("/users")
def get_users():
    return users

@app.post("/users")
def create_user(user: UserCreate):
    new_user = User(
        id=len(users) + 1,
        name=user.name,
        email=user.email
    )
    users.append(new_user)
    return new_user

@app.delete("/users/{user_id}")
def delete_user(user_id: int):
    global users
    users = [u for u in users if u.id != user_id]
    return {"message": "User deleted"}

if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)

Bước 5: So sánh Prompt hiệu quả

❌ Prompt không tối ưu:

Bạn là một lập trình viên chuyên nghiệp với 10 năm kinh nghiệm. Hãy tạo một REST API hoàn chỉnh với FastAPI để quản lý users. API phải có đầy đủ CRUD operations, validation, error handling, logging, và documentation. Đảm bảo code clean, có comment đầy đủ, và tuân thủ best practices...

✅ Prompt tối ưu cho GPT-5-Codex:

Tạo REST API với FastAPI để quản lý users

Kết quả: GPT-5-Codex tự động tạo ra code đầy đủ chức năng mà không cần hướng dẫn chi tiết.

Anti-Prompting: Những Điều Không Cần Thiết

Do GPT-5-Codex được huấn luyện đặc biệt cho lập trình agentic, việc điều chỉnh prompt thường có nghĩa là loại bỏ hướng dẫn thay vì thêm vào. Dưới đây là những khía cạnh bạn có thể không cần điều chỉnh:

1. Suy Luận Thích Ứng (Adaptive Reasoning)

Suy luận thích ứng giờ đây là mặc định trong GPT-5-Codex. Trước đây, bạn có thể đã prompt các mô hình để “suy nghĩ kỹ hơn” hoặc “phản hồi nhanh” dựa trên độ khó của nhiệm vụ. GPT-5-Codex tự động điều chỉnh:

Câu hỏi đơn giản: “Làm thế nào để undo commit cuối nhưng giữ lại các thay đổi staged?” → Phản hồi nhanh không cần điều chỉnh thêm
Nhiệm vụ phức tạp: Tự động dành thời gian cần thiết và sử dụng công cụ phù hợp

2. Lập Kế Hoạch (Planning)

GPT-5-Codex được huấn luyện cho nhiều loại nhiệm vụ lập trình từ các tác vụ tự động dài hạn đến các tác vụ lập trình tương tác ngắn hạn. Mô hình có tính cách hợp tác theo mặc định:

Khi bắt đầu một tác vụ tự động, mô hình sẽ xây dựng kế hoạch chi tiết
Cập nhật tiến độ trong quá trình thực hiện
Codex CLI bao gồm công cụ lập kế hoạch và mô hình được huấn luyện để sử dụng nó

3. Phần Mở Đầu (Preambles)

GPT-5-Codex KHÔNG tạo ra phần mở đầu! Việc prompt và yêu cầu phần mở đầu có thể dẫn đến việc mô hình dừng sớm. Thay vào đó, có một trình tóm tắt tùy chỉnh tạo ra các tóm tắt chi tiết chỉ khi phù hợp.

4. Giao Diện Người Dùng

GPT-5-Codex mặc định có thẩm mỹ mạnh mẽ và các thực hành giao diện người dùng hiện đại tốt nhất. Nếu bạn có thư viện hoặc framework ưa thích, hãy điều chỉnh mô hình bằng cách thêm các phần ngắn:

Hướng Dẫn Giao Diện Người Dùng
Sử dụng các thư viện sau trừ khi người dùng hoặc repo chỉ định khác:
Framework: React + TypeScript
Styling: Tailwind CSS
Components: shadcn/ui
Icons: lucide-react
Animation: Framer Motion
Charts: Recharts
Fonts: San Serif, Inter, Geist, Mona Sans, IBM Plex Sans, Manrope

Prompt Tham Chiếu: Codex CLI

Dưới đây là prompt đầy đủ của Codex CLI mà bạn có thể sử dụng làm tham chiếu khi tạo prompt cho GPT-5-Codex:

Các Điểm Chính Trong Prompt Codex CLI:

1. Cấu hình chung:

Các đối số của shell sẽ được truyền cho execvp()
Hầu hết các lệnh terminal nên được prefix với ["bash", "-lc"]
Luôn đặt tham số workdir khi sử dụng hàm shell
Ưu tiên sử dụng rg thay vì grep vì nhanh hơn

2. Ràng buộc chỉnh sửa:

Mặc định sử dụng ASCII khi chỉnh sửa hoặc tạo file
Thêm comment code ngắn gọn giải thích những gì đang diễn ra
Có thể ở trong git worktree bẩn – KHÔNG BAO GIỜ revert các thay đổi hiện có

3. Công cụ lập kế hoạch:

Bỏ qua công cụ planning cho các tác vụ đơn giản (khoảng 25% dễ nhất)
Không tạo kế hoạch một bước
Cập nhật kế hoạch sau khi hoàn thành một trong các subtask

4. Sandboxing và approvals:

Sandboxing hệ thống file: chỉ đọc, ghi workspace, truy cập đầy đủ nguy hiểm
Sandboxing mạng: hạn chế, bật
Chính sách phê duyệt: không tin tưởng, khi thất bại, theo yêu cầu, không bao giờ

5. Cấu trúc và phong cách:

Văn bản thuần túy; CLI xử lý định dạng
Tiêu đề: tùy chọn; Title Case ngắn (1-3 từ) trong …
Dấu đầu dòng: sử dụng -; hợp nhất các điểm liên quan
Monospace: backticks cho lệnh/đường dẫn/biến môi trường/id code

Apply Patch

Như đã chia sẻ trước đó trong hướng dẫn GPT-5, đây là triển khai apply_patch cập nhật nhất mà chúng tôi khuyến nghị sử dụng cho việc chỉnh sửa file để khớp với phân phối huấn luyện.

Lợi Ích Của Việc Sử Dụng Đúng Cách

Hiệu Suất Cao Hơn: Phản hồi nhanh và chính xác
Tiết Kiệm Token: Giảm chi phí sử dụng (40% ít token hơn GPT-5)
Kết Quả Tốt Hơn: Mô hình tập trung vào nhiệm vụ chính
Dễ Bảo Trì: Prompt ngắn gọn dễ hiểu và chỉnh sửa
Tự Động Hóa: Suy luận thích ứng và lập kế hoạch tự động
Tích Hợp Sẵn: Nhiều best practices đã được tích hợp sẵn

Kết Luận

GPT-5-Codex đại diện cho một bước tiến lớn trong việc ứng dụng AI cho lập trình. Việc áp dụng đúng các nguyên tắc prompting sẽ giúp bạn tận dụng tối đa sức mạnh của mô hình này. Hãy nhớ rằng “ít hơn là tốt hơn” – đây không chỉ là nguyên tắc của GPT-5-Codex mà còn là triết lý trong việc tạo ra các hệ thống AI hiệu quả.

Cách Mọi Người Sử Dụng ChatGPT: Nghiên Cứu Toàn Diện

Posted on September 17, 2025October 13, 2025 by Phat Ly

Tóm Tắt ExecutiveNghiên cứu “How People Use ChatGPT” là phân tích toàn diện nhất về cách 700 triệu người dùng trên toàn thế giới tương tác với trí tuệ nhân tạo. Được thực hiện bởi đội ngũ chuyên gia hàng đầu từ OpenAI, Đại học Duke và Harvard, nghiên cứu này sử dụng phương pháp bảo vệ quyền riêng tư tiên tiến để phân tích hơn 1.1 triệu cuộc hội thoại mẫu, tiết lộ những hiểu biết chưa từng có về cách con người sử dụng AI trong thực tế.
Con Số Ấn Tượng700 triệu người dùng hàng tuần (10% dân số trưởng thành toàn cầu)
18 tỷ tin nhắn mỗi tuần (2.5 tỷ tin nhắn mỗi ngày, 29,000 tin nhắn mỗi giây)
Tăng trưởng chưa từng có trong lịch sử công nghệ
70% tin nhắn không liên quan công việc (tăng từ 53% tháng 6/2024)
Consumer surplus ít nhất $97 tỷ/năm chỉ riêng tại Mỹ
1. Giới Thiệu và Bối CảnhChatGPT: Công Nghệ Đột PháChatGPT được ra mắt vào tháng 11/2022 như một “research preview” và đã trở thành chatbot thương mại đầu tiên và có khả năng lớn nhất trên thị trường. Dựa trên Large Language Model (LLM), ChatGPT đại diện cho sự tăng tốc đáng kể trong khả năng AI.
Tốc Độ Phát Triển Lịch SửTimeline phát triển:
30/11/2022: Ra mắt “research preview”
5/12/2022: Đạt 1 triệu người dùng trong 5 ngày
Q1/2023: 100 triệu người dùng
Q2/2023: 200 triệu người dùng
Q3/2023: 350 triệu người dùng
Q4/2023: 500 triệu người dùng
Q1/2024: 600 triệu người dùng
Q2/2024: 650 triệu người dùng
Q3/2025: 700 triệu người dùng
So Sánh Với Các Nền Tảng KhácChatGPT đã đạt được sự chấp nhận toàn cầu với tốc độ chưa từng thấy, vượt xa tất cả các nền tảng khác trong lịch sử công nghệ. Tốc độ tăng trưởng này không có tiền lệ và cho thấy sự thay đổi căn bản trong cách con người tương tác với công nghệ.
2. Phương Pháp Nghiên Cứu và Bảo Vệ Quyền Riêng TưDatasets Sử Dụng1. Growth Dataset:
Tổng tin nhắn hàng ngày từ 11/2022-9/2025
Thông tin nhân khẩu học cơ bản tự báo cáo
Metadata người dùng đã được ẩn danh hóa
2. Classified Messages:
Mẫu ngẫu nhiên ~1.1 triệu tin nhắn từ 5/2024-6/2025
Phân loại tự động bằng LLM
Loại trừ người dùng opt-out training, dưới 18 tuổi, đã xóa tài khoản
3. Employment Dataset:
Dữ liệu việc làm tổng hợp cho 130,000 người dùng
Phân tích trong Data Clean Room bảo mật
Chỉ báo cáo tổng hợp (tối thiểu 100 người dùng)
Bảo Vệ Quyền Riêng TưAutomated Classification:
Không ai đọc tin nhắn thô
Sử dụng LLM để phân loại tự động
Privacy Filter loại bỏ PII
Context window 10 tin nhắn trước
Data Clean Room:
Phân tích dữ liệu việc làm trong môi trường bảo mật
Notebook phải được phê duyệt trước khi chạy
Dữ liệu bị xóa sau khi nghiên cứu hoàn thành
Validation:
So sánh với WildChat dataset (public)
Human annotators đánh giá 149 tin nhắn
Fleiss’ κ và Cohen’s κ để đo độ tin cậy
3. Tăng Trưởng và Phát TriểnTăng Trưởng Tổng ThểSố liệu tăng trưởng:
Tháng 7/2024 – 7/2025: Số tin nhắn tăng hơn 5 lần
Các nhóm người dùng: Cả nhóm mới và nhóm cũ đều tăng trưởng
Tin nhắn/người dùng: Tăng trưởng liên tục trong mọi nhóm
Phân Tích Theo Nhóm Người DùngNhóm đầu tiên (Q4/2022-Q1/2023):
Sử dụng giảm nhẹ trong 2023
Bắt đầu tăng trưởng trở lại cuối 2024
Hiện tại cao hơn mọi thời điểm trước
Các nhóm sau:
Tăng trưởng mạnh từ nhóm người dùng mới
Tăng trưởng trong nhóm người dùng hiện tại
Cải thiện khả năng mô hình và khám phá use case mới
4. Cách Sử Dụng ChatGPTPhân Loại Công Việc vs. Cá NhânBảng 1: Tăng Trưởng Tin Nhắn Hàng Ngày (Triệu)


Tháng
Không công việc
Tỷ lệ
Công việc
Tỷ lệ
Tổng

Tháng 6/2024
238
53%
213
47%
451

Tháng 6/2025
1,911
73%
716
27%
2,627

Tăng trưởng
+703%
+20 điểm
+236%
-20 điểm
+483%

Phát hiện quan trọng:
Cả hai loại tin nhắn đều tăng liên tục
Tin nhắn không công việc tăng nhanh hơn 3 lần
Xu hướng chủ yếu do thay đổi trong từng nhóm người dùng
Phù hợp với consumer surplus $97 tỷ/năm (Collis & Brynjolfsson, 2025)
Ba Chủ Đề Chính (80% Sử Dụng)1. Practical Guidance (Hướng Dẫn Thực Tiễn) – 29%Phân loại chi tiết:
Tutoring/Teaching: 10.2% tổng tin nhắn (36% trong Practical Guidance)
How-to Advice: 8.5% tổng tin nhắn (30% trong Practical Guidance)
Creative Ideation: Tạo ý tưởng sáng tạo
Health/Fitness/Beauty: Lời khuyên sức khỏe, thể dục, làm đẹp
Đặc điểm:
Ổn định ở mức 29% trong suốt thời gian nghiên cứu
Khác biệt với Seeking Information ở chỗ được tùy chỉnh cao
Ví dụ: Kế hoạch tập luyện cá nhân hóa vs. Thông tin chung về marathon Boston
2. Writing (Viết Lách) – 24% (Giảm từ 36% tháng 7/2024)Phân loại chi tiết:
Edit/Critique Provided Text: 40% (chỉnh sửa văn bản có sẵn)
Personal Writing/Communication: 25% (viết cá nhân, giao tiếp)
Translation: 15% (dịch thuật)
Argument/Summary Generation: 15% (tạo lập luận, tóm tắt)
Write Fiction: 5% (viết sáng tạo)
Đặc điểm quan trọng:
2/3 tin nhắn Writing là chỉnh sửa văn bản có sẵn, không tạo mới
40% tin nhắn công việc là Writing (tháng 7/2025)
52% tin nhắn trong quản lý và kinh doanh là Writing
Giảm có thể do chuyển sang API cho lập trình
3. Seeking Information (Tìm Kiếm Thông Tin) – 24% (Tăng từ 14% tháng 7/2024)Phân loại chi tiết:
Specific Info: Thông tin cụ thể về người, sự kiện, sản phẩm
Purchasable Products: Tìm kiếm sản phẩm có thể mua
Cooking/Recipes: Công thức nấu ăn
Đặc điểm:
Tăng trưởng mạnh nhất trong 3 chủ đề chính
Thay thế gần như hoàn toàn cho tìm kiếm web truyền thống
Linh hoạt hơn web search vì cung cấp phản hồi tùy chỉnh
Các Chủ Đề KhácTechnical Help – 5% (Giảm từ 12% tháng 7/2024)Computer Programming: 4.2% tổng tin nhắn
Mathematical Calculation: 3% tổng tin nhắn
Data Analysis: 0.4% tổng tin nhắn
Lý do giảm: Sử dụng LLM cho lập trình tăng mạnh qua API, AI assistance trong code editing, và autonomous programming agents
Multimedia – 7% (Tăng từ 2% tháng 7/2024)Create an Image: Tạo hình ảnh
Analyze an Image: Phân tích hình ảnh
Generate/Retrieve Other Media: Tạo/tìm media khác
Spike tháng 4/2025: Sau khi ChatGPT ra mắt tính năng tạo hình ảnh mới
Self-Expression – 2.4% (Thấp hơn dự kiến)Relationships/Personal Reflection: 1.9% tổng tin nhắn
Games/Role Play: 0.4% tổng tin nhắn
So sánh: Zao-Sanders (2025) ước tính Therapy/Companionship là use case phổ biến nhất, nhưng nghiên cứu này cho thấy ngược lại
5. Phân Tích Mục Đích Sử Dụng: Asking/Doing/ExpressingPhân Loại Chi Tiết


Loại
Tỷ lệ
Mô tả
Ví dụ

Asking
49%
Tìm kiếm thông tin, lời khuyên để ra quyết định
“Ai là tổng thống sau Lincoln?”, “Làm sao tạo ngân sách quý này?”

Doing
40%
Yêu cầu ChatGPT thực hiện nhiệm vụ cụ thể
“Viết lại email này cho trang trọng hơn”, “Tạo báo cáo tóm tắt”

Expressing
11%
Bày tỏ quan điểm, cảm xúc, không có mục đích rõ ràng
“Tôi cảm thấy lo lắng”, “Hôm nay thật tuyệt!”

Xu Hướng Thay Đổi Theo Thời GianTháng 7/2024:
Asking: 50%
Doing: 50%
Expressing: 8%
Tháng 6/2025:
Asking: 51.6%
Doing: 34.6%
Expressing: 13.8%
Phân tích:
Asking tăng trưởng nhanh nhất
Asking được đánh giá chất lượng cao hơn
Doing chiếm 56% tin nhắn công việc
Writing chiếm 35% tin nhắn Doing
Phân Tích Theo Chủ ĐềAsking phổ biến hơn trong:
Practical Guidance
Seeking Information
Doing phổ biến hơn trong:
Writing
Multimedia
Expressing phổ biến hơn trong:
Self-Expression
6. Hoạt Động Công Việc (O*NET)7 Hoạt Động Chính (77% Tổng Tin Nhắn)


Xếp hạng
Hoạt động
Tỷ lệ
Mô tả

1
Getting Information
19.3%
Thu thập thông tin từ nhiều nguồn

2
Interpreting Information
13.1%
Giải thích ý nghĩa thông tin cho người khác

3
Documenting Information
12.8%
Ghi chép, lưu trữ thông tin

4
Providing Consultation
9.2%
Cung cấp tư vấn và lời khuyên

5
Thinking Creatively
9.1%
Tư duy sáng tạo, đổi mới

6
Making Decisions
8.5%
Ra quyết định và giải quyết vấn đề

7
Working with Computers
4.9%
Làm việc với máy tính

Phân Tích Theo Nghề NghiệpBảng 2: Xếp Hạng Hoạt Động Theo Nghề (1 = Phổ Biến Nhất)


Nghề
Documenting
Making Decisions
Thinking Creatively
Working with Computers
Interpreting
Getting Info
Consultation

Management
2
1
3
6
4
5
8

Business
2
1
3
6
4
5
7

Computer/Math
4
2
5
1
3
6
7

Engineering
3
1
5
2
4
6
7

Science
2
1
4
3
6
5
7

Education
1
2
3
4
6
5
7

Health Professionals
1
2
3
X
5
4
6

Legal
1
X
X
X
X
X
X

Phát hiện quan trọng:
Making Decisions luôn trong top 2 của mọi nghề
Documenting Information luôn trong top 4
Thinking Creatively xếp thứ 3 trong 10/13 nhóm nghề
Tương đồng cao giữa các nghề nghiệp khác nhau
ChatGPT chủ yếu hỗ trợ tìm kiếm thông tin và ra quyết định
7. Đặc Điểm Nhân Khẩu HọcKhoảng Cách Giới Tính Đã Thu Hẹp Đáng KểTimeline thay đổi:
Q4/2022 – Q1/2023: 80% người dùng có tên nam giới
Q2/2023: 70% nam giới, 30% nữ giới
Q3/2023: 65% nam giới, 35% nữ giới
Q4/2023: 60% nam giới, 40% nữ giới
Q1/2024: 56% nam giới, 44% nữ giới
Q2/2024: 54% nam giới, 46% nữ giới
Q2/2025: 48% nam giới, 52% nữ giới
Yếu tố ảnh hưởng:
Marketing và PR: Chiến dịch hướng đến nữ giới
Tính năng mới: Phù hợp với sở thích nữ giới
Ứng dụng giáo dục: Nữ giới sử dụng nhiều hơn cho học tập
Tích hợp xã hội: Chia sẻ kinh nghiệm trong cộng đồng
Phân Bố Theo Độ TuổiTỷ lệ tin nhắn theo nhóm tuổi:
18-25 tuổi: 46% tổng tin nhắn
26-35 tuổi: 28% tổng tin nhắn
36-45 tuổi: 16% tổng tin nhắn
46-55 tuổi: 7% tổng tin nhắn
56+ tuổi: 3% tổng tin nhắn
Tỷ lệ công việc theo tuổi:
Dưới 26: 23% tin nhắn công việc
26-35: 35% tin nhắn công việc
36-45: 42% tin nhắn công việc
46-55: 45% tin nhắn công việc
56-65: 38% tin nhắn công việc
66+: 16% tin nhắn công việc
Tăng Trưởng Theo Quốc Gia và GDPPhân tích GDP per capita (tháng 5/2024 vs tháng 5/2025):


GDP Decile
Median GDP (USD)
May 2024
May 2025
Tăng trưởng

1 (Thấp nhất)
$1,200
2.1%
8.3%
+296%

2
$2,800
3.2%
12.1%
+278%

3
$4,500
4.1%
15.8%
+285%

4
$6,200
5.3%
18.9%
+257%

5
$8,100
6.8%
22.4%
+229%

6
$10,500
8.2%
26.1%
+218%

7
$13,800
9.1%
28.7%
+215%

8
$18,200
10.3%
31.2%
+203%

9
$25,600
11.8%
33.9%
+187%

10 (Cao nhất)
$45,200
13.2%
36.4%
+176%

Phát hiện: Tăng trưởng cao nhất ở các nước thu nhập thấp-trung bình ($10,000-$40,000)
8. Phân Tích Theo Giáo Dục và Nghề NghiệpGiáo DụcTỷ lệ tin nhắn công việc theo học vấn:
Dưới cử nhân: 37%
Cử nhân: 46%
Sau đại học: 48%
Phân tích hồi quy (kiểm soát tuổi, giới tính, nghề nghiệp, cấp bậc, quy mô công ty, ngành):
Cử nhân vs Dưới cử nhân: +4.5 điểm phần trăm (p < 0.01)
Sau đại học vs Dưới cử nhân: +6.8 điểm phần trăm (p < 0.01)
Asking vs Doing theo học vấn:
Asking: Ít thay đổi theo học vấn (khoảng 49%)
Sau đại học: +2 điểm phần trăm Asking (p < 0.05)
Doing: Giảm theo học vấn
Sau đại học: -1.6 điểm phần trăm Doing (p < 0.10)
Nghề NghiệpTỷ lệ tin nhắn công việc theo nghề:


Nghề
Tỷ lệ công việc
Đặc điểm chính

Computer/Math
57%
Nhiều Technical Help (37%)

Management
50%
Nhiều Writing (52%)

Business
50%
Nhiều Writing (52%)

Engineering
48%
Cân bằng Asking/Doing

Science
48%
Cân bằng Asking/Doing

Other Professional
44%
Đa dạng chủ đề

Non-professional
40%
Ít sử dụng cho công việc

Asking vs Doing trong công việc:
Computer/Math: 47% Asking, 53% Doing
Engineering: 45% Asking, 55% Doing
Science: 44% Asking, 56% Doing
Management: 38% Asking, 62% Doing
Business: 35% Asking, 65% Doing
Non-professional: 32% Asking, 68% Doing
9. Chất Lượng Tương TácXu Hướng Cải Thiện Theo Thời GianTỷ lệ Good/Bad/Unknown:
Tháng 12/2024: Good 60%, Bad 20%, Unknown 20%
Tháng 7/2025: Good 80%, Bad 15%, Unknown 5%
Tỷ lệ Good/Bad:
Tháng 12/2024: 3:1
Tháng 7/2025: 5.3:1
Chất Lượng Theo Chủ Đề


Chủ đề
Tỷ lệ Good/Bad
Ghi chú

Self-Expression
7.0:1
Cao nhất

Practical Guidance
4.2:1
Cao

Writing
3.8:1
Trung bình cao

Seeking Information
3.5:1
Trung bình

Technical Help
2.7:1
Thấp

Multimedia
1.7:1
Thấp nhất

Chất Lượng Theo Mục Đích


Mục đích
Tỷ lệ Good/Bad
Ghi chú

Asking
4.5:1
Cao nhất

Doing
3.2:1
Trung bình

Expressing
2.8:1
Thấp nhất

Validation với User FeedbackPhân tích 60,000 tin nhắn có feedback trực tiếp:
Thumbs-up: 86% tổng feedback
Thumbs-down: 14% tổng feedback
Tương quan với Interaction Quality:
Thumbs-up + Good: 9.5 lần cao hơn Thumbs-down + Good
Thumbs-down: Tương đương Good và Bad
Unknown: Chia đều giữa thumbs-up và thumbs-down
10. Ý Nghĩa Kinh Tế và Xã HộiGiá Trị Kinh TếDecision Support (Hỗ trợ Ra Quyết Định):
Đặc biệt quan trọng trong công việc tri thức
Giải thích tại sao Asking phổ biến hơn ở người có học vấn cao
Phù hợp với mô hình của Ide & Talamas (2025) về AI co-pilot
Consumer Surplus:
Collis & Brynjolfsson (2025): Ít nhất $97 tỷ/năm chỉ riêng Mỹ
Willingness-to-pay: $98 để từ bỏ sử dụng AI trong 1 tháng
Tác động ngoài công việc: Có thể lớn hơn tác động trong công việc
Đặc Điểm Độc Đáo của Generative AISo với Web Search:
Khả năng tạo nội dung: Viết, code, spreadsheet, media
Tùy chỉnh cao: Phản hồi cá nhân hóa
Linh hoạt: Xử lý nhiều loại yêu cầu
Follow-up: Có thể tiếp tục cuộc hội thoại
Ví dụ cụ thể:
Web Search: “Boston Marathon qualifying times by age”
ChatGPT: “Tạo kế hoạch tập luyện cá nhân hóa cho marathon Boston dựa trên tuổi 35, kinh nghiệm 2 năm, mục tiêu 3:30”
Tác Động Xã HộiDân Chủ Hóa Tri Thức:
10% dân số trưởng thành toàn cầu đã sử dụng
Tăng trưởng mạnh ở các nước thu nhập thấp-trung bình
Khoảng cách giới tính đã thu hẹp đáng kể
Giáo Dục:
10.2% tin nhắn là yêu cầu dạy học
36% Practical Guidance là tutoring/teaching
Hỗ trợ học tập suốt đời
11. Kết Luận và Triển Vọng8 Phát Hiện Chính70% tin nhắn không liên quan công việc (tăng từ 53%)
3 chủ đề chính chiếm 78% sử dụng: Practical Guidance, Writing, Seeking Information
Writing chiếm 40% tin nhắn công việc, 2/3 là chỉnh sửa văn bản có sẵn
Asking (49%) tăng nhanh hơn Doing (40%), chất lượng cao hơn
Khoảng cách giới tính đã thu hẹp: 52% nữ giới hiện tại
46% tin nhắn từ người dùng 18-25 tuổi
Tăng trưởng mạnh ở các nước thu nhập thấp-trung bình
Người có học vấn cao sử dụng nhiều hơn cho công việc và Asking
Ý Nghĩa Kinh TếChatGPT cung cấp giá trị kinh tế thông qua:
Decision Support: Hỗ trợ ra quyết định trong công việc tri thức
Consumer Surplus: Ít nhất $97 tỷ/năm chỉ riêng Mỹ
Tác động ngoài công việc: Có thể lớn hơn tác động trong công việc
Dân chủ hóa tri thức: 10% dân số trưởng thành toàn cầu
Triển Vọng Tương LaiVới tốc độ tăng trưởng hiện tại:
ChatGPT sẽ tiếp tục định hình cách con người học tập, làm việc
AI sẽ trở thành công cụ không thể thiếu trong cuộc sống hàng ngày
Tác động xã hội sẽ ngày càng sâu sắc và rộng rãi
Thách thức:
Cần đảm bảo AI được sử dụng có trách nhiệm
Cân bằng giữa tự động hóa và việc làm con người
Giảm thiểu khoảng cách số và bất bình đẳng
Tài Liệu Tham KhảoNghiên cứu gốc: Aaron Chatterji (OpenAI, Duke University), Tom Cunningham (OpenAI), David Deming (Harvard University), Zoë Hitzig (OpenAI, Harvard University), Christopher Ong (OpenAI, Harvard University), Carl Shan (OpenAI), Kevin Wadman (OpenAI)
Tổ chức: OpenAI, Đại học Duke, Đại học Harvard
Nguồn chính: How People Use ChatGPT
Tài liệu tham khảo chính được sử dụng trong nghiên cứu:
Nghiên cứu kinh tế và AI:
Acemoglu, D. (2024). “The Simple Macroeconomics of AI.” NBER Working Paper 32487.
Autor, D. H., Levy, F., & Murnane, R. J. (2003). “The Skill Content of Recent Technological Change: An Empirical Exploration.” Quarterly Journal of Economics, 118(4), 1279-1333.
Bick, A., Blandin, A., & Deming, D. J. (2024). “The Rapid Adoption of Generative AI.” NBER Working Paper 32966.
Caplin, A., Deming, D. J., Leth-Petersen, S., & Weidmann, B. (2023). “Economic Decision-Making Skill Predicts Income in Two Countries.” NBER Working Paper 31674.
Carnehl, C., & Schneider, J. (2025). “A Quest for Knowledge.” Econometrica, 93(2), 623-659.
Collis, A., & Brynjolfsson, E. (2025). “AI’s Overlooked $97 Billion Contribution to the Economy.” Wall Street Journal.
Deming, D. J. (2021). “The Growing Importance of Decision-Making on the Job.” NBER Working Paper 28733.
Ide, E., & Talamas, E. (2025). “Artificial Intelligence in the Knowledge Economy.” Journal of Political Economy, 9(122).
Nghiên cứu về ChatGPT và LLM:
Handa, K., Tamkin, A., McCain, M., Huang, S., Durmus, E., Heck, S., Mueller, J., Hong, J., Ritchie, S., Belonax, T., Troy, K. K., Amodei, D., Kaplan, J., Clark, J., & Ganguli, D. (2025). “Which Economic Tasks are Performed with AI? Evidence from Millions of Claude Conversations.”
Tomlinson, K., Jaffe, S., Wang, W., Counts, S., & Suri, S. (2025). “Working with AI: Measuring the Occupational Implications of Generative AI.”
Zao-Sanders, M. (2025). “How People Are Really Using Gen AI in 2025.” Harvard Business Review.
Zhao, W., Ren, X., Hessel, J., Cardie, C., Choi, Y., & Deng, Y. (2024). “WildChat: 1M ChatGPT Interaction Logs in the Wild.”
Nghiên cứu về tác động xã hội:
Humlum, A., & Vestergaard, E. (2025a). “Large Language Models, Small Labor Market Effects.” University of Chicago Working Paper 2025-56.
Humlum, A., & Vestergaard, E. (2025b). “The Unequal Adoption of ChatGPT Exacerbates Existing Inequalities among Workers.” Proceedings of the National Academy of Sciences, 122(1), e2414972121.
Ling, Y., & Imas, A. (2025). “Underreporting of AI use: The role of social desirability bias.” SSRN Working Paper.
Nghiên cứu kỹ thuật và phương pháp:
Bengio, Y., Courville, A., & Vincent, P. (2014). “Representation Learning: A Review and New Perspectives.”
Chiang, W.-L., Zheng, L., Sheng, Y., Angelopoulos, A. N., Li, T., Li, D., Zhu, B., Zhang, H., Jordan, M. I., Gonzalez, J. E., & Stoica, I. (2024). “Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference.” Proceedings of ICML 2024.
Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., & Steinhardt, J. (2021). “Measuring Massive Multitask Language Understanding.” Proceedings of ICLR 2021.
Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). “Training Language Models to Follow Instructions with Human Feedback.”
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). “Attention Is All You Need.” Advances in Neural Information Processing Systems.
Nghiên cứu về tổ chức và lao động:
Garicano, L. (2000). “Hierarchies and the Organization of Knowledge in Production.” Journal of Political Economy, 108(5), 874-904.
Garicano, L., & Rossi-Hansberg, E. (2006). “Organization and Inequality in a Knowledge Economy.” Quarterly Journal of Economics, 121(4), 1383-1435.
National Association of Colleges and Employers. (2024). “Competencies for a Career-Ready Workforce.”
Nghiên cứu về bình đẳng giới:
Hofstra, B., Kulkarni, V. V., Munoz-Najar Galvez, S., He, B., Jurafsky, D., & McFarland, D. A. (2020). “The Diversity–Innovation Paradox in Science.” Proceedings of the National Academy of Sciences, 117(17), 9284-9291.
West, J. D., Jacquet, J., King, M. M., Correll, S. J., & Bergstrom, C. T. (2013). “The Role of Gender in Scholarly Authorship.” PLoS ONE, 8(7), e66212.
Nguồn tin tức và báo cáo:
Pew Research Center. (2025). “U.S. adults’ use of ChatGPT (June 2025 report).”
Reuters. (2025). “OpenAI hits $12 billion in annualized revenue, The Information reports.”
Roth, E. (2025). “OpenAI says ChatGPT users send over 2.5 billion prompts every day.”
Wiggers, K. (2025). “ChatGPT Isn’t the Only Chatbot That’s Gaining Users.” TechCrunch.
Tài liệu kỹ thuật OpenAI:
OpenAI. (2023). “GPT-4 Technical Report.” arXiv preprint.
OpenAI. (2024a). “GPT-4o System Card.”
OpenAI. (2024b). “OpenAI o1 System Card.” System Card / Technical Report.
OpenAI. (2025a). “Expanding on What We Missed with Sycophancy.” Blog Post / Technical Report.
OpenAI. (2025b). “GPT-5 System Card.” System Card / Technical Report.
OpenAI. (2025c). “Privacy Policy.”
Nghiên cứu về tác động cảm xúc:
Phang, J., Lampe, M., Ahmad, L., Agarwal, S., Fang, C. M., Liu, A. R., Danry, V., Lee, E., Chan, S. W. T., Pataranutaporn, P., & Maes, P. (2025). “Investigating Affective Use and Emotional Well-being on ChatGPT.”
Nghiên cứu về công bằng:
Eloundou, T., Beutel, A., Robinson, D. G., Gu, K., Brakman, A.-L., Mishkin, P., Shah, M., Heidecke, J., Weng, L., & Kalai, A. T. (2025). “First-Person Fairness in Chatbots.” Proceedings of ICLR 2024.
Nghiên cứu về rủi ro AI:
Korinek, A., & Suh, D. (2024). “Scenarios for the Transition to AI.” NBER Working Paper 32255.
Kulveit, J., Douglas, R., Ammann, N., Turan, D., Krueger, D., & Duvenaud, D. (2025). “Gradual Disempowerment: Systemic Existential Risks from Incremental AI Development.”
Nghiên cứu về tác động lao động:
Hartley, J., Jolevski, F., Melo, V., & Moore, B. (2025). “The Labor Market Effects of Generative Artificial Intelligence.” SSRN Working Paper.
Nghiên cứu về dữ liệu xã hội:
Chetty, R., Jackson, M. O., Kuchler, T., Stroebel, J., Hendren, N., Fluegge, R. B., Gong, S., Gonzalez, F., Grondin, A., Jacob, M., Johnston, D., Koenen, M., Laguna-Muggenburg, E., Mudekereza, F., Rutter, T., Thor, N., Townsend, W., Zhang, R., Bailey, M., Barberá, P., Bhole, M., & Wernerfelt, N. (2022). “Social Capital I: Measurement and Associations with Economic Mobility.” Nature, 608(7923), 108-121.
Nghiên cứu kỹ thuật bổ sung:
Lambert, N., Morrison, J., Pyatkin, V., Huang, S., Ivison, H., Brahman, F., Miranda, L. J. V., Liu, A., Dziri, N., Lyu, S., et al. (2024). “Tulu 3: Pushing frontiers in open language model post-training.” arXiv preprint.
Liu, N. F., Lin, K., Hewitt, J., Paranjape, A., Bevilacqua, M., Petroni, F., & Liang, P. (2023). “Lost in the Middle: How Language Models Use Long Contexts.”
Bài viết này cung cấp tóm tắt toàn diện về nghiên cứu “How People Use ChatGPT” – một trong những nghiên cứu quan trọng nhất về việc sử dụng AI trong thực tế. Nghiên cứu không chỉ cung cấp dữ liệu quan trọng về hiện tại mà còn mở ra những câu hỏi thú vị về tương lai của AI trong cuộc sống con người.

Tháng	Không công việc	Tỷ lệ	Công việc	Tỷ lệ	Tổng
Tháng 6/2024	238	53%	213	47%	451
Tháng 6/2025	1,911	73%	716	27%	2,627
Tăng trưởng	+703%	+20 điểm	+236%	-20 điểm	+483%

Loại	Tỷ lệ	Mô tả	Ví dụ
Asking	49%	Tìm kiếm thông tin, lời khuyên để ra quyết định	“Ai là tổng thống sau Lincoln?”, “Làm sao tạo ngân sách quý này?”
Doing	40%	Yêu cầu ChatGPT thực hiện nhiệm vụ cụ thể	“Viết lại email này cho trang trọng hơn”, “Tạo báo cáo tóm tắt”
Expressing	11%	Bày tỏ quan điểm, cảm xúc, không có mục đích rõ ràng	“Tôi cảm thấy lo lắng”, “Hôm nay thật tuyệt!”

Xếp hạng	Hoạt động	Tỷ lệ	Mô tả
1	Getting Information	19.3%	Thu thập thông tin từ nhiều nguồn
2	Interpreting Information	13.1%	Giải thích ý nghĩa thông tin cho người khác
3	Documenting Information	12.8%	Ghi chép, lưu trữ thông tin
4	Providing Consultation	9.2%	Cung cấp tư vấn và lời khuyên
5	Thinking Creatively	9.1%	Tư duy sáng tạo, đổi mới
6	Making Decisions	8.5%	Ra quyết định và giải quyết vấn đề
7	Working with Computers	4.9%	Làm việc với máy tính

Nghề	Documenting	Making Decisions	Thinking Creatively	Working with Computers	Interpreting	Getting Info	Consultation
Management	2	1	3	6	4	5	8
Business	2	1	3	6	4	5	7
Computer/Math	4	2	5	1	3	6	7
Engineering	3	1	5	2	4	6	7
Science	2	1	4	3	6	5	7
Education	1	2	3	4	6	5	7
Health Professionals	1	2	3	X	5	4	6
Legal	1	X	X	X	X	X	X

GDP Decile	Median GDP (USD)	May 2024	May 2025	Tăng trưởng
1 (Thấp nhất)	$1,200	2.1%	8.3%	+296%
2	$2,800	3.2%	12.1%	+278%
3	$4,500	4.1%	15.8%	+285%
4	$6,200	5.3%	18.9%	+257%
5	$8,100	6.8%	22.4%	+229%
6	$10,500	8.2%	26.1%	+218%
7	$13,800	9.1%	28.7%	+215%
8	$18,200	10.3%	31.2%	+203%
9	$25,600	11.8%	33.9%	+187%
10 (Cao nhất)	$45,200	13.2%	36.4%	+176%

Nghề	Tỷ lệ công việc	Đặc điểm chính
Computer/Math	57%	Nhiều Technical Help (37%)
Management	50%	Nhiều Writing (52%)
Business	50%	Nhiều Writing (52%)
Engineering	48%	Cân bằng Asking/Doing
Science	48%	Cân bằng Asking/Doing
Other Professional	44%	Đa dạng chủ đề
Non-professional	40%	Ít sử dụng cho công việc

Chủ đề	Tỷ lệ Good/Bad	Ghi chú
Self-Expression	7.0:1	Cao nhất
Practical Guidance	4.2:1	Cao
Writing	3.8:1	Trung bình cao
Seeking Information	3.5:1	Trung bình
Technical Help	2.7:1	Thấp
Multimedia	1.7:1	Thấp nhất

Mục đích	Tỷ lệ Good/Bad	Ghi chú
Asking	4.5:1	Cao nhất
Doing	3.2:1	Trung bình
Expressing	2.8:1	Thấp nhất

Trying the Realtime Prompting Guide for GPT-Realtime: Experiments with Vietnamese Voice Input

Posted on September 12, 2025September 22, 2025 by Hieu Pham Pro

Try Realtime Prompting Guide for GPT-Realtime

1.Introduction

OpenAI’s Realtime API enables the creation of interactive voice experiences with ultra-low latency. Instead of waiting for a full text input, the model can “listen” to a user while they are still speaking and respond almost instantly. This makes it a powerful foundation for building voice assistants, audio chatbots, automated customer support, or multimodal creative applications.

To get the best results, writing a clear and well-structured prompt is essential. OpenAI published the Realtime Prompting Guide as a playbook for controlling model behavior in spoken conversations.

References:

Seven Tips for Prompting Voice Agents with the Realtime API (PDF): cdn.openai.com
Realtime Prompting Guide on OpenAI Cookbook: cookbook.openai.com
Realtime Models Prompting / Guides on OpenAI Platform: platform.openai.com

2.What is GPT-Realtime

GPT-Realtime is a model/API designed to handle continuous audio input and provide rapid responses. Its key features include:

Real-time speech-to-text recognition.
Robust handling of noisy, cut-off, or unclear audio.
Customizable reactions to imperfect audio, such as asking for repetition, clarifying, or continuing in the user’s language.
Support for detailed prompting to ensure safe, natural, and reliable responses.

3.Overview of the Prompting Guide

The Realtime Prompting Guide outlines seven best practices for writing system prompts for voice agents:

1. Be precise, avoid conflicts.
Instructions must be specific and consistent. For example, if you say “ask again when unclear,” don’t also instruct the model to “guess when unsure.”

2. Use bullet points instead of paragraphs.
Models handle lists better than long prose.

3. Handle unclear audio.
Explicitly instruct what to do when input is noisy or incomplete: politely ask the user to repeat and only respond when confident.

4. Pin the language when needed.
If you want the entire conversation in one language (e.g., English only), state it clearly. Otherwise, the model may switch to mirror the user.

5. Provide sample phrases.
Include example greetings, clarifications, or closing lines to teach the model your desired style.

6. Avoid robotic repetition.
Encourage varied phrasing for greetings, confirmations, and closings to keep interactions natural.

7. Use capitalization for emphasis.
For example: “IF AUDIO IS UNCLEAR, ASK THE USER TO REPEAT.”

4.Prompt Examples

Sample Prompt A – Avoid conflicts, be clear

USER: “Hello, can you help me with my internet issue?”

ASSISTANT: (responds according to the prompt, asks for clarification if needed)

Sample Prompt B – Handling unclear audio

USER: “Um… internet…” (noisy, unclear audio)

ASSISTANT: (follows the system instructions)

Sample Prompt C – Keep a natural style, avoid repetition

USER: “Thank you, that’s all.”

ASSISTANT: “You’re welcome! Glad I could help. Take care!” (or another variation)

5.Experiments

For my testing, I deliberately used Vietnamese speech to see how the model would react in different situations.

First Test: Speaking Unclear Without a Prompt

To begin, I tested what would happen if I spoke unclearly in Vietnamese without providing any system prompt.

For example, I said:

The model responded in Indonesian, saying:

This shows that when no system prompt is defined, the model may guess or switch languages unpredictably, instead of asking for clarification.

Second Test: Adding a System Prompt

Next, I added a system prompt to guide the model’s behavior when the audio is unclear:

Then I spoke unclearly in Vietnamese again, for example:

This time, the model followed the system instructions and politely asked me to repeat. Sometimes, it even suggested that I try saying a simple test sentence so it could better check whether my voice was coming through clearly.

This shows how a well-written system prompt can prevent the model from making random guesses or switching languages, ensuring a more reliable and natural conversation flow.

Third Test: Singing to the Model

Finally, I experimented by singing in Vietnamese to see how the model would react.

The model listened carefully and was able to understand the lyrics and emotional tone of my singing. However, when I asked it to repeat the lyrics back to me, it refused due to copyright restrictions.

This shows that while GPT-Realtime can analyze and comment on songs — such as summarizing their meaning, describing the mood, or suggesting new lines in a similar style — it cannot reproduce lyrics verbatim. In practice, this means you should not expect the model to sing or echo back copyrighted content.

6.Conclusion

GPT-Realtime provides smooth and natural voice interactions with minimal latency. However, its effectiveness depends heavily on the prompt.

Key takeaways:

Always write a clear, bullet-pointed system prompt.
Define explicit behavior for unclear audio.
Control language use and discourage robotic repetition.
Respect copyright limitations: the model will not repeat lyrics verbatim but can summarize or create new content.

The Realtime Prompting Guide is a practical resource for building high-quality voice agents that are both natural and safe.

Installing and Using GPT-OSS 20B Locally with Ollama

Posted on September 11, 2025October 13, 2025 by Hieu Pham Pro

In this document, we will explore how to install and run GPT-OSS 20B — a powerful open-weight language model released by OpenAI — locally, with detailed instructions for using it on a Tesla P40 GPU.

1. Quick Introduction to GPT-OSS 20B

GPT-OSS 20B is an open-weight language model from OpenAI, released in August 2025—the first since GPT-2—under the Apache 2.0 license, allowing free download, execution, and modification.
The model has about 21 billion parameters and can run efficiently on consumer machines with at least 16 GB of RAM or GPU VRAM.
GPT-OSS 20B uses a Mixture-of-Experts (MoE) architecture, activating only a subset of parameters (~3.6B) at each step, saving resources and energy.
The model supports chain-of-thought reasoning, enabling it to understand and explain reasoning processes step by step.

2. Hardware & Software Preparation

Hardware requirements:

RAM or VRAM: minimum 16 GB (can be system RAM or GPU VRAM).
Storage: around 12–20 GB for the model and data.
Operating system: macOS 11+, Windows, or Ubuntu are supported.
GPU (if available): Nvidia or AMD for acceleration. Without a GPU, the model still runs on CPU but very slowly.

Software options:

Ollama: the simplest method; quick installation with a convenient CLI.
LM Studio: a graphical interface, suitable for beginners.
Transformers + vLLM (Python): flexible for developers, integrates well into open-source pipelines.

3. How to Run GPT-OSS 20B with Ollama (GPU Tesla P40)

3.1 Goal and Timeline

Goal: successfully run GPT-OSS 20B locally using Ollama, leveraging the Tesla P40 GPU (24GB VRAM).
Timeline: the first setup takes about 15–20 minutes to download the model. After that, launching the model takes only a few seconds.

3.2 Environment Preparation

GPU: Tesla P40 with 24GB VRAM, sufficient for GPT-OSS 20B.
NVIDIA Driver: version 525 or higher recommended. In the sample logs, CUDA 12.0 works fine.
RAM: minimum 16GB.
Storage: at least 20GB free space; the model itself takes ~13GB plus cache.
Operating system: Linux (Ubuntu), macOS, or Windows. The following example uses Ubuntu.

3.3 Install Ollama

The fastest way:

Or manually (Linux):

Start the Ollama service:

When the log shows listening on [::]:8888, the server is ready.

3.4 Download GPT-OSS 20B

Open a new terminal and run:

The first download is about 13GB. When the log shows success, the model is ready.

3.5 Run the Model

Start the model and try chatting:

Example:

3.6 Verify GPU Usage

Run:

Result: the Tesla P40 (24GB) consumes around 12–13GB VRAM for the process /usr/bin/ollama. The Ollama log also shows “offloading output layer to GPU” and “llama runner started in 8.05 seconds”, proving the model is running on GPU, not CPU.

3.7 Monitor API and Performance

Ollama exposes a REST API at http://127.0.0.1:8888.
Common endpoints include /api/chat and /api/generate.

Response times:

Short prompts: about 2–10 seconds.
Long or complex prompts: may take tens of seconds to a few minutes.

4. Conclusion

You have successfully run GPT-OSS 20B on a Tesla P40. The initial model download takes some time, but afterward it launches quickly and runs stably. With 24GB VRAM, the GPU can handle the large model without overload. While long prompts may still be slow, it is fully usable for real-world experiments and local project integration.