Kỹ thuật Xây dựng AI Agent: Từ ReAct, Reflection đến LangGraph và MCP

Công nghệ Trí tuệ Nhân tạo đang chứng kiến một bước chuyển dịch vĩ đại: từ các mô hình ngôn ngữ tĩnh (Chatbot thông thường chỉ phản hồi câu hỏi) sang các AI Agent (Tác nhân AI) chủ động có khả năng tư duy độc lập, lập kế hoạch phức tạp, tự tương tác với môi trường và hoàn thành mục tiêu cuối cùng không cần sự can thiệp của con người.

1. Bản đồ cấu trúc của một AI Agent cơ bản

Một AI Agent hoàn chỉnh được cấu thành từ 4 trụ cột kỹ thuật nền tảng:

Reasoning / Planning (Bộ não LLM): Khả năng phân rã một yêu cầu lớn thành các bước nhỏ hơn (Task Decomposition) và lập kế hoạch xử lý (Planning).
Memory (Bộ nhớ):
- Short-term Memory: Lưu trữ ngữ cảnh hội thoại hiện tại (In-context learning).
- Long-term Memory: Lưu trữ kiến thức lâu dài, kinh nghiệm cũ qua Vector Database (RAG) hoặc cơ chế lưu tệp.
Tools (Công cụ): Tập hợp các API kết nối bên ngoài giúp Agent tương tác với thế giới thực như: công cụ tìm kiếm web, trình biên dịch mã code, truy vấn cơ sở dữ liệu hoặc điều khiển hệ điều hành.
Action (Hành động): Thực thi các kế hoạch đã đề ra thông qua việc kích hoạt các công cụ tương ứng.

2. Các thiết kế Agent Design Patterns kinh điển

Để tối ưu hóa độ chính xác và khả năng tự động hóa của Agent, các kỹ sư thường áp dụng hai mẫu thiết kế cốt lõi:

2.1. ReAct Agent Pattern (Reason + Act)

Mẫu thiết kế ReAct kết hợp khả năng suy luận (Reasoning) và hành động (Acting) của LLM trong một vòng lặp tuần tự:

[Yêu cầu] ──► Thought (Suy nghĩ bước tiếp theo) 
                 │
                 ▼
              Action (Chọn công cụ để chạy) 
                 │
                 ▼
              Observation (Đọc kết quả từ công cụ) 
                 │
                 ▼
              Thought (Đánh giá kết quả thu được) ──► Hoàn thành hoặc Lặp lại

Ví dụ: Khi hỏi "Nhiệt độ hiện tại ở Hà Nội?", Agent sẽ suy nghĩ (Thought) là cần biết thời tiết Hà Nội, chọn công cụ tìm kiếm (Action: Search("thời tiết Hà Nội")), nhận kết quả (Observation: 32 độ C), và đưa ra câu trả lời cuối cùng.

2.2. Reflection Pattern (Tự phản chiếu và Sửa sai)

Reflection là cơ chế giúp Agent tự đánh giá chất lượng sản phẩm do chính mình tạo ra trước khi gửi trả cho người dùng. Mô hình này thường chia làm hai vai trò (có thể do cùng một hoặc hai LLM đảm nhận):

Generator: Nhận yêu cầu và tạo ra bản nháp (ví dụ: viết đoạn code giải bài toán).
Critic: Nhận bản nháp, đối chiếu với các ràng buộc bảo mật, hiệu năng hoặc lỗi cú pháp để đưa ra nhận xét chi tiết (Feedback).

Vòng lặp Generator -> Critic -> Generator sẽ tiếp tục cho đến khi Critic không phát hiện lỗi nào nữa, giúp giảm thiểu tối đa hiện tượng "hallucination" (ảo tưởng) của AI.

Reflection Pattern Generator and Critic loop

3. CodeAct Pattern: Sự trỗi dậy của Tác nhân viết code

Trong các tác vụ đòi hỏi sự chính xác cao về số liệu hoặc xử lý file, việc bắt LLM tự suy nghĩ kết quả toán học là một sai lầm lớn. Thay vào đó, mô hình CodeAct (Code Action) chuyển đổi hành động của AI thành việc viết code.

Khi gặp bài toán phức tạp, thay vì tự tính nhẩm, Agent sẽ viết một đoạn code Python thực thi, chạy nó bên trong một môi trường Docker cô lập (sandbox), lấy kết quả đầu ra (STDOUT) làm Observation để đưa ra quyết định tiếp theo. Đây là cách mà các hệ thống tiên tiến như OpenClaw, Computer Use hay Devin vận hành để giải quyết các task lập trình hoặc xử lý dữ liệu phức tạp.

4. Thiết kế Stateful Agent có chu kỳ bằng LangGraph

Các ứng dụng AI Agent trong thực tế thường không đi theo một đường thẳng (A -> B -> C) và có sự phân nhánh và quay lui (loops/cycles). LangChain truyền thống với cấu trúc chuỗi (Chain) rất khó biểu diễn các mối quan hệ vòng lặp này một cách trực quan.

LangGraph giải quyết bài toán này bằng cách đưa lý thuyết đồ thị (Graph) vào thiết kế Agent:

Nodes (Các nút): Biểu diễn các bước xử lý hoặc hành động (ví dụ: call_llm, run_tool).
Edges (Các cạnh): Định nghĩa luồng chuyển tiếp dữ liệu giữa các node. Đặc biệt, Conditional Edges cho phép rẽ nhánh dựa trên trạng thái hiện tại.
State (Trạng thái): Một bộ lưu trữ tập trung (Redux/Zustand style) được truyền qua toàn bộ đồ thị, giúp Agent giữ được ngữ cảnh đồng bộ giữa các bước.

5. Model Context Protocol (MCP) - Tương lai của kết nối công cụ

Trước khi giao thức MCP (Model Context Protocol) do Anthropic khởi xướng ra đời, mỗi ứng dụng AI phải tự tích hợp API riêng cho từng công cụ (ví dụ: viết adapter riêng kết nối với Slack, GitHub, Database). Điều này làm phân mảnh hệ sinh thái.

MCP chuẩn hóa kết nối này tương tự như cách giao thức LSP (Language Server Protocol) cách mạng hóa các trình soạn thảo code. MCP tách cấu trúc thành hai phần:

MCP Client: Các ứng dụng AI (như Claude Desktop, Cursor, Antigravity IDE).
MCP Server: Các dịch vụ cung cấp dữ liệu/công cụ (ví dụ: server đọc file cục bộ, server kết nối Postgres, server gọi API Google Search).

Bất kỳ MCP Client nào cũng có thể giao tiếp mượt mà với bất kỳ MCP Server nào qua một chuẩn API chung, giúp việc mở rộng khả năng của AI trở nên vô cùng đơn giản và an toàn.

6. Ứng dụng Priority Queue để điều phối Task trong Agent

Khi Agent được giao các workflow lớn (như tự động crawl 100 trang web hoặc sửa hàng chục file code cùng lúc), việc thực hiện tuần tự sẽ rất chậm, nhưng chạy song song đồng loạt có thể làm nghẽn API limits của LLM hoặc tràn bộ nhớ. Kỹ sư thường sử dụng giải thuật Priority Queue (Hàng đợi ưu tiên) để quản lý danh sách việc cần làm của Agent, đánh giá độ ưu tiên của các task (ví dụ: sửa lỗi cú pháp ưu tiên cao hơn viết tài liệu) để phân phối tài nguyên hợp lý nhất.