Tối ưu viết câu lệnh prompt làm chủ AI

Tài liệu “GPT-4.1 Prompting Guide” cung cấp hướng dẫn chi tiết về cách tận dụng tối đa khả năng của dòng mô hình GPT-4.1, với các cải tiến vượt trội so với GPT-4.0 về lập trình, tuân thủ hướng dẫn, và xử lý ngữ cảnh dài.

Tóm tắt và dịch nội dung file “GPT-4.1 Prompting Guide” sang tiếng Việt

Dưới đây là tóm tắt các phần chính của tài liệu, được dịch sang tiếng Việt một cách dễ hiểu, kèm theo lời khuyên cho người viết câu lệnh prompt.

1. Giới thiệu chung về GPT-4.1

Nâng cấp so với GPT-4.0: GPT-4.1 cải thiện khả năng lập trình, tuân thủ hướng dẫn chặt chẽ hơn và xử lý ngữ cảnh dài lên đến 1 triệu token.
Đặc điểm nổi bật: Mô hình này tuân thủ hướng dẫn một cách nghiêm ngặt và ít suy luận ý định người dùng hơn các phiên bản trước. Điều này đòi hỏi các câu lệnh (prompt) phải rõ ràng, cụ thể.
Khuyến nghị: Người dùng cần điều chỉnh lại các prompt từ các mô hình cũ, vì GPT-4.1 yêu cầu hướng dẫn rõ ràng hơn. Nếu kết quả không như mong đợi, thêm một câu hướng dẫn rõ ràng thường đủ để điều chỉnh hành vi mô hình.

2. Quy trình làm việc của Agent (Agentic Workflows)

Khả năng của GPT-4.1: Mô hình này lý tưởng cho các quy trình tự động (agentic workflows), đặc biệt trong lập trình, với hiệu suất cao trên SWE-bench Verified (giải quyết 55% vấn đề).
Ba loại nhắc nhở hệ thống (System Prompt Reminders):
1. Tính bền bỉ (Persistence): Đảm bảo mô hình tiếp tục xử lý cho đến khi vấn đề được giải quyết hoàn toàn. Ví dụ: “Hãy tiếp tục cho đến khi vấn đề được giải quyết, chỉ kết thúc khi chắc chắn hoàn thành.”
2. Sử dụng công cụ (Tool-calling): Khuyến khích mô hình sử dụng công cụ để lấy thông tin thay vì đoán mò. Ví dụ: “Nếu không chắc về nội dung file, hãy dùng công cụ để đọc file, không được đoán.”
3. Lập kế hoạch (Planning): Yêu cầu mô hình lập kế hoạch chi tiết trước khi thực hiện hành động. Ví dụ: “Phải lập kế hoạch chi tiết trước mỗi lần gọi hàm và suy ngẫm về kết quả sau đó.”
Hiệu quả: Việc thêm ba loại nhắc nhở này cải thiện hiệu suất SWE-bench Verified gần 20%.
Sử dụng công cụ qua API: Nên sử dụng trường “tools” trong API để truyền công cụ, thay vì chèn mô tả công cụ vào prompt, giúp giảm lỗi và tăng hiệu suất (cải thiện 2% trên SWE-bench).
Ví dụ Prompt cho SWE-bench:
- Hướng dẫn mô hình đọc vấn đề, điều tra mã nguồn, lập kế hoạch, thực hiện thay đổi từng bước, gỡ lỗi, kiểm tra và phản ánh để đảm bảo giải pháp hoàn chỉnh.
- Ví dụ: “Hãy sửa lỗi trong kho mã nguồn, làm việc từng bước, kiểm tra kỹ lưỡng và không kết thúc cho đến khi vấn đề được giải quyết hoàn toàn.”

3. Xử lý ngữ cảnh dài (Long Context)

Khả năng: GPT-4.1 hỗ trợ cửa sổ ngữ cảnh 1 triệu token, phù hợp cho phân tích tài liệu phức tạp, lọc thông tin liên quan và suy luận đa bước.
Hiệu suất: Mô hình hoạt động tốt trong các bài kiểm tra “tìm kim trong đống rơm” (needle-in-a-haystack) và xử lý tốt các tài liệu chứa thông tin hỗn hợp (liên quan và không liên quan).
Khuyến nghị:
- Độ dài ngữ cảnh tối ưu: Hiệu suất giảm khi cần truy xuất nhiều mục hoặc thực hiện suy luận phức tạp trên toàn bộ ngữ cảnh. Cân nhắc chọn lọc thông tin đầu vào.
- Kết hợp kiến thức nội tại và ngoại tại: Nếu cần kiến thức chung, cho phép mô hình sử dụng kiến thức nội tại, nhưng nếu chỉ dựa vào ngữ cảnh cung cấp, hãy chỉ rõ: “Chỉ sử dụng tài liệu được cung cấp để trả lời.”
- Vị trí hướng dẫn: Đặt hướng dẫn ở cả đầu và cuối ngữ cảnh dài để cải thiện hiệu suất, hoặc ít nhất đặt ở đầu nếu chỉ dùng một lần.

4. Chuỗi suy nghĩ (Chain of Thought – CoT)

Đặc điểm: GPT-4.1 không tự động tạo chuỗi suy nghĩ nội tại, nhưng có thể được yêu cầu suy nghĩ từng bước (CoT) qua prompt, giúp cải thiện chất lượng đầu ra.
Hiệu quả: Việc yêu cầu lập kế hoạch rõ ràng tăng tỷ lệ vượt qua SWE-bench Verified thêm 4%.
Cách thực hiện:
- Thêm hướng dẫn: “Hãy suy nghĩ từng bước, lập kế hoạch chi tiết trước khi trả lời.”
- Ví dụ: “Đầu tiên, phân tích truy vấn để hiểu yêu cầu. Sau đó, liệt kê các tài liệu cần thiết với tiêu đề và ID, rồi định dạng ID thành danh sách.”
Cải thiện CoT:
- Kiểm tra các lỗi thường gặp (hiểu sai ý định, thiếu ngữ cảnh, suy nghĩ không đủ chi tiết) và điều chỉnh prompt để khắc phục.
- Nếu một chiến lược CoT hiệu quả, hãy chuẩn hóa nó trong prompt.

5. Tuân thủ hướng dẫn (Instruction Following)

Đặc điểm: GPT-4.1 tuân thủ hướng dẫn rất chặt chẽ, cho phép kiểm soát chính xác đầu ra (ví dụ: giọng điệu, định dạng, chủ đề tránh né).
Quy trình phát triển prompt:
1. Bắt đầu với phần “Hướng dẫn” tổng quát, liệt kê các quy tắc chính.
2. Thêm các phần chi tiết cho hành vi cụ thể (ví dụ: mẫu câu, định dạng đầu ra).
3. Nếu cần, liệt kê các bước xử lý cụ thể theo thứ tự.
4. Nếu hành vi không như mong đợi:
  - Kiểm tra hướng dẫn mâu thuẫn hoặc không rõ ràng (hướng dẫn gần cuối prompt thường được ưu tiên).
  - Thêm ví dụ minh họa hành vi mong muốn.
  - Tránh dùng chữ in hoa hoặc “mồi” (như hứa thưởng) trừ khi thực sự cần thiết.
Lỗi phổ biến:
- Yêu cầu mô hình luôn gọi công cụ có thể dẫn đến gọi công cụ không cần thiết. Thêm điều kiện: “Nếu thiếu thông tin, hãy hỏi người dùng.”
- Mô hình có thể lặp lại mẫu câu quá máy móc. Yêu cầu biến đổi mẫu câu để tránh lặp lại.
- Nếu không hướng dẫn rõ, mô hình có thể thêm giải thích hoặc định dạng không mong muốn.

6. Ví dụ Prompt: Đại diện chăm sóc khách hàng

Tình huống: Mô hình đóng vai trò nhân viên chăm sóc khách hàng cho công ty viễn thông NewTelco.
Hướng dẫn:
- Luôn chào khách hàng: “Chào bạn, bạn đã liên hệ với NewTelco, tôi có thể giúp gì?”
- Gọi công cụ trước khi trả lời câu hỏi về công ty hoặc tài khoản khách hàng.
- Nếu thiếu thông tin, yêu cầu khách hàng cung cấp thêm.
- Tránh các chủ đề cấm (chính trị, tôn giáo, tư vấn y tế, v.v.).
- Sử dụng mẫu câu nhưng biến đổi để tránh lặp lại.
- Duy trì giọng điệu chuyên nghiệp, ngắn gọn, thêm biểu tượng cảm xúc giữa các câu.
Ví dụ đầu ra:
- Khách hàng hỏi: “Gói cước gia đình có những lựa chọn nào?”
- Mô hình trả lời: “Chào bạn, bạn đã liên hệ với NewTelco, tôi có thể giúp gì? 😊 Bạn muốn biết về các gói cước gia đình. Tôi sẽ kiểm tra thông tin ngay, vui lòng chờ một chút. 😊” (sau đó gọi công cụ để lấy thông tin).

7. Lời khuyên chung cho tối ưu hóa câu lệnh

Cấu trúc Prompt:
- Vai trò và mục tiêu: Xác định rõ vai trò của mô hình.
- Hướng dẫn: Liệt kê quy tắc chính.
- Hướng dẫn chi tiết: Cung cấp chi tiết cho các hành vi cụ thể.
- Các bước suy luận: Chỉ định các bước xử lý nếu cần.
- Định dạng đầu ra: Quy định cách trình bày kết quả.
- Ví dụ: Cung cấp ví dụ minh họa.
- Ngữ cảnh: Đặt ngữ cảnh ở vị trí phù hợp.
Dấu phân cách (Delimiters):
- Markdown: Dùng tiêu đề, danh sách, khối mã để tổ chức rõ ràng.
- XML: Phù hợp cho ngữ cảnh dài, hỗ trợ gắn thẻ và lồng ghép.
- JSON: Tốt cho ngữ cảnh lập trình, nhưng có thể phức tạp do yêu cầu thoát ký tự.
Xử lý ngữ cảnh dài:
- Sử dụng XML hoặc định dạng “ID: | TITLE:” để gắn thẻ tài liệu.
- Ví dụ: <doc id=1 title=”The Fox”>Nội dung tài liệu</doc>.
Kiểm tra và lặp lại: Luôn xây dựng các bài kiểm tra (evals) và lặp lại để đảm bảo prompt hoạt động tốt cho trường hợp cụ thể.

Lời khuyên cho người viết câu lệnh Prompt

Hãy cụ thể và rõ ràng:
- GPT-4.1 tuân thủ hướng dẫn rất chặt chẽ, vì vậy tránh các câu lệnh mơ hồ. Ví dụ, thay vì “Trả lời ngắn gọn”, hãy viết “Trả lời trong tối đa 50 từ”.
- Nếu muốn mô hình tránh hành vi cụ thể, hãy nêu rõ: “Không trả lời nếu thiếu thông tin, thay vào đó hãy hỏi người dùng.”
Cung cấp ngữ cảnh và ví dụ:
- Thêm ví dụ minh họa hành vi mong muốn, đặc biệt khi cần định dạng đầu ra phức tạp.
- Ví dụ: Nếu muốn danh sách được đánh số, cung cấp mẫu: “1. Mục 1n2. Mục 2”.
Kiểm tra mâu thuẫn trong hướng dẫn:
- Nếu có nhiều hướng dẫn, GPT-4.1 ưu tiên hướng dẫn gần cuối. Đảm bảo các hướng dẫn không mâu thuẫn.
- Ví dụ: Nếu prompt yêu cầu “Luôn gọi công cụ” nhưng sau đó lại nói “Hỏi người dùng nếu thiếu thông tin”, hãy đặt điều kiện thứ hai ở cuối.
Tối ưu hóa cho ngữ cảnh dài:
- Đặt hướng dẫn ở đầu và cuối ngữ cảnh để đảm bảo mô hình không bỏ sót.
- Sử dụng dấu phân cách rõ ràng (như XML hoặc Markdown) để tổ chức tài liệu.
Yêu cầu suy nghĩ từng bước:
- Thêm hướng dẫn “Suy nghĩ từng bước” để cải thiện khả năng giải quyết vấn đề phức tạp.
- Ví dụ: “Phân tích truy vấn, liệt kê các bước cần thực hiện, sau đó trả lời.”
Tránh lạm dụng chữ in hoa hoặc “mồi”:
- Không cần dùng chữ in hoa (như “PHẢI LÀM”) hoặc hứa thưởng (“Tôi sẽ thưởng nếu bạn làm tốt”). Chỉ sử dụng nếu các cách khác không hiệu quả.
Lặp lại và kiểm tra:
- Xây dựng các bài kiểm tra để đánh giá hiệu quả prompt.
- Nếu kết quả không như mong đợi, phân tích lỗi (hiểu sai ý định, thiếu ngữ cảnh, v.v.) và điều chỉnh prompt.
Tận dụng công cụ:
- Sử dụng trường “tools” trong API để gọi công cụ, thay vì chèn mô tả công cụ vào prompt.
- Đặt tên công cụ rõ ràng và cung cấp mô tả chi tiết trong trường “description”.

Tài liệu cung cấp hướng dẫn toàn diện để tận dụng GPT-4.1 trong các tác vụ lập trình, xử lý ngữ cảnh dài, và tuân thủ hướng dẫn. Bằng cách viết các prompt rõ ràng, cụ thể, và sử dụng các chiến lược như lập kế hoạch, gọi công cụ, và tổ chức ngữ cảnh, người dùng có thể tối ưu hóa hiệu suất mô hình. Việc kiểm tra và lặp lại là chìa khóa để đảm bảo prompt phù hợp với từng trường hợp sử dụng cụ thể.