AI新概念

从100行代码到企业级应用：深度解读极简Agent实现原理与工程化之路

今天，我们将通过一个名为 nanoAgent 的极简开源项目，一起揭开这层神秘面纱。这个项目以其惊人的简洁性告诉我们：如果你能读懂大约100行Python代码，你就能理解Agent。

为什么叫QQ？

18 3月 2026 • 12 min read

“问题不在于你看到了什么，而在于你看见了什么。” — 亨利·戴维·梭罗

在人工智能的浪潮之巅，AI Agent（人工智能代理） 无疑是最激动人心的概念之一。它们被描绘成能够自主理解、规划并执行复杂任务的智能实体，似乎预示着一场新的生产力革命。然而，对于许多开发者和技术爱好者而言，Agent 的内部工作原理常常被笼罩在神秘的面纱之下，显得遥不可及。

今天，我们将通过一个名为 nanoAgent 的极简开源项目，一起揭开这层神秘面纱。这个项目以其惊人的简洁性告诉我们：如果你能读懂大约100行Python代码，你就能理解Agent。

本文将以 nanoAgent 为起点，进行一次由浅入深的源码级解读。我们将首先剖析其最核心的实现，然后探讨它如何逐步进化以获得更强大的能力，最后，我们将借鉴业界领先的最佳实践，探讨从一个极简原型走向一个稳定、可靠、可扩展的企业级Agent，还需要走过哪些工程化的道路。

第一章：Agent的心脏——百行代码的核心循环

nanoAgent 项目中最核心的文件是 agent.py，它用不到100行代码实现了一个功能完备的Agent。这让我们得以窥见所有复杂Agent系统背后共通的、最本质的运行逻辑。

核心理念：LLM + Tools + Loop

一个Agent的基础架构可以被高度概括为三个关键元素：

一个作为“大脑”的大语言模型 (LLM): 负责理解用户意图、进行推理和规划。
一套可供调用的“双手” (Tools): 赋予LLM与外部世界交互的能力，例如执行代码、读写文件、访问API等。
一个驱动思考与行动的“心跳” (Loop): 一个循环机制，让LLM可以持续地“思考”和“行动”，直到任务完成。

这个模式通常被称为 ReAct (Reason + Act) 框架的简化实现。在每个循环中，Agent都会经历一次“思考 → 行动 → 观察”的周期。agent.py 完美地诠释了这一点。

源码解读：`agent.py`

让我们直接看代码。首先，Agent定义了它可以使用的工具。在 agent.py 中，这套工具集非常基础但实用：

# agent.py L11-L51
tools = [
    {"type": "function", "function": {"name": "execute_bash", ...}},
    {"type": "function", "function": {"name": "read_file", ...}},
    {"type": "function", "function": {"name": "write_file", ...}}
]

这些工具通过 OpenAI 的 Function Calling 机制提供给LLM。这意味着LLM在接收到用户任务后，不仅能生成自然语言回复，还能生成一个结构化的JSON对象，指明它希望调用哪个工具以及传递什么参数。

接下来是Agent的核心循环 run_agent 函数：

# agent.py L73-L97
def run_agent(user_message, max_iterations=5):
    messages = [ ... ] # 初始化对话历史
    for _ in range(max_iterations):
        # 1. 思考 (Reason): 调用LLM，让其根据当前对话历史和可用工具进行决策
        response = client.chat.completions.create(..., messages=messages, tools=tools)
        message = response.choices[0].message
        messages.append(message)

        # 如果LLM没有要求调用工具，说明任务完成，直接返回结果
        if not message.tool_calls:
            return message.content

        # 2. 行动 (Act): 执行LLM请求的工具调用
        for tool_call in message.tool_calls:
            name = tool_call.function.name
            args = json.loads(tool_call.function.arguments)
            result = functions[name](**args) # 执行对应的Python函数
            
            # 3. 观察 (Observe): 将工具执行结果追加到对话历史中
            messages.append({"role": "tool", "tool_call_id": tool_call.id, "content": result})
            
    return "Max iterations reached"

这个循环清晰地展示了Agent的工作流程：

思考 (Reason): 将用户的任务和到目前为止的所有交互历史（messages）发送给LLM。LLM分析后，决定是直接回答，还是需要调用一个或多个工具来获取更多信息或执行某个操作。
行动 (Act): 如果LLM决定调用工具，代码会解析其返回的 tool_calls，并执行本地定义的相应Python函数（如 execute_bash）。
观察 (Observe): 工具的执行结果（无论是成功输出还是错误信息）被格式化后，作为一个新的 tool 角色的消息，再次追加到 messages 列表中。

这个包含新观察结果的 messages 列表将在下一次循环中再次被发送给LLM，使其能够根据最新的“事实”来决定下一步行动。这个过程不断重复，直到LLM认为任务已经完成并直接返回自然语言答案，或者达到最大迭代次数限制。

agent.py 的美妙之处在于它的纯粹。它告诉我们，一个Agent的本质并非魔法，而是一个围绕LLM构建的、结构化的信息处理循环。然而，这个极简实现也暴露了许多问题：它很脆弱，没有记忆，也缺乏规划能力。

第二章：Agent的成长——从`nano`到`plus`

nanoAgent 项目的演进并未止步于百行代码的极简版。agent-plus.py 文件展示了一个更成熟的Agent应该具备哪些关键特性：规划 (Planning)、记忆 (Memory) 和 健壮性 (Robustness)。

引入规划与记忆

agent-plus.py 引入了两个核心概念：

特性	实现方式	作用
规划 (Planning)	在执行任务前，先调用一次LLM将复杂任务分解为更小的步骤 (`create_plan` 函数)。	将一个模糊的大目标转化为一系列清晰、可执行的子任务，显著提高了复杂任务的成功率。
记忆 (Memory)	在每次任务结束后，将任务和最终结果保存到本地文件 (`agent_memory.md`) 中，并在下次启动时加载部分历史记录到系统提示词中。	赋予Agent跨会话的记忆能力，使其可以利用过去的经验来更好地完成当前任务。

这种“规划-执行”的模式，是现代Agent架构中的常见模式。它借鉴了人类解决问题的方式：先想清楚要做什么，再一步步去完成。

提升健壮性

agent-plus.py 还通过更细致的错误处理提升了Agent的健壮性：

防御性JSON解析: parse_tool_arguments 函数能够处理LLM生成的、可能格式错误的JSON参数，避免程序崩溃，并将错误信息返回给LLM，让其“学习”并修正自己的行为。
工具执行保护: 每个工具函数都被 try...except 块包裹，确保任何执行期间的异常（如文件不存在、命令执行超时）都能被捕获并作为结果反馈给Agent，而不是中断整个程序。

这些改进标志着 nanoAgent 从一个简单的玩具，开始向一个可以实际使用的工具迈进。

第三章：迈向专业——`claudecode`带来的启示

agent-claudecode.py 版本则展示了更高级的Agent设计思想，引入了 规则 (Rules)、技能 (Skills) 和 模型上下文协议 (MCP) 的概念，这些都指向了一个更具扩展性的未来。

规则 (.agent/rules): 允许通过外部Markdown文件定义Agent的行为准则和约束。
技能 (.agent/skills): 允许通过外部JSON文件动态加载新的工具定义。
MCP (.agent/mcp.json): 引入了从服务器获取工具清单的理念，这是实现更现代、更解耦的工具生态系统的关键一步。

这个版本虽然代码更复杂，但它揭示了构建一个可演进、可维护的Agent生态系统的蓝图：Agent的核心逻辑是稳定的，而其能力（工具、规则）应该是可配置、可热插拔的。

第四章：工程化之路——从原型到生产

nanoAgent 以其清晰的演进路径，为我们描绘了Agent从简单到复杂的发展轨迹。然而，要将这样的原型投入到严肃的生产环境中，我们还必须面对一系列复杂的工程挑战。借鉴Anthropic等行业领导者发布的最佳实践，一个生产级的Agent系统至少需要考虑以下几个方面：

1. 架构模式的选择

并非所有任务都需要一个完全自主的Agent。Anthropic将Agentic系统分为两类：

工作流 (Workflows): LLM和工具通过预定义的代码路径被编排，适用于流程固定的任务。例如，先生成报告大纲，再根据大纲生成详细内容。
代理 (Agents): LLM动态地指导自己的流程和工具使用，适用于开放式、难以预测步骤的任务。

选择正确的模式是第一步。nanoAgent 的循环属于后者，但许多实际应用可能从更简单、更可控的工作流模式（如提示词链、路由、并行化）中获益更多。

2. 上下文窗口管理

随着Agent与用户、工具的交互轮次增多，对话历史会迅速增长，很快就会超出LLM的上下文窗口限制。生产级Agent必须有高效的上下文管理策略，例如：

滑动窗口: 只保留最近的N轮对话。
摘要压缩: 定期调用LLM对早期的对话进行总结，用简短的摘要替换冗长的原文。
向量化记忆: 将历史信息存储在向量数据库中，在需要时通过语义搜索进行检索，而非全部塞进上下文。

3. 安全与隔离

赋予Agent执行代码（尤其是bash命令）的能力是极其危险的。任何一个微小的Prompt注入漏洞都可能导致严重的安全事件。因此，在安全的沙箱环境中执行不可信代码是绝对必要的。

目前业界主流的沙箱技术包括：

容器化: 使用Docker等技术为每次代码执行创建一个隔离的环境。
gVisor: Google开发的轻量级应用内核，提供比容器更强的隔离性。
MicroVMs: 如Firecracker，提供接近硬件级别的隔离，但启动速度稍慢。

4. 可观测性 (Observability)

当Agent的行为出现偏差时，我们需要能够回溯它的每一步“思考”和“行动”。这需要建立完善的可观测性体系：

结构化日志: 记录每一次LLM调用、工具调用、返回结果的详细信息。
分布式追踪 (Tracing): 将Agent的整个执行过程串联成一个完整的调用链，方便调试和性能分析。
成本与Token追踪: 精确监控每次任务的API调用成本和Token消耗。

Langfuse、LangSmith等工具是这个领域的优秀开源或商业解决方案。

5. Agent-Computer Interface (ACI) 的精心设计

正如我们花大量精力设计人机交互界面(HCI)一样，我们也必须精心设计Agent与计算机（即工具）的交互界面。Anthropic强调，工具的设计甚至比主提示词更重要 。

清晰的描述: 工具的名称和描述必须清晰、无歧义，让LLM能准确理解其功能。
原子性: 每个工具应该只做一件事，并把它做好。
健壮的参数: 工具的参数设计应尽可能避免让LLM犯错。例如，要求使用绝对路径而非相对路径，可以避免因当前工作目录改变而出错。

结论：看见森林

从 nanoAgent 的百行代码出发，我们踏上了一段从微观到宏观的旅程。我们看到了Agent跳动的“心脏”——那个简洁而强大的“思考-行动”循环。我们见证了它通过学习规划与记忆而“成长”，并通过模块化设计获得了“专业”的雏形。

更重要的是，我们看见了围绕这颗心脏生长起来的、庞大而复杂的“工程化森林”。上下文管理、安全沙箱、可观测性、ACI设计……这些才是将一个聪明的“大脑”转化为一个可靠的“员工”所必须铺设的坚实地基。

nanoAgent 的价值不在于它能做什么，而在于它让我们看见了什么。它让我们看见，Agent的本质并不神秘，而其工程化的道路，虽然充满挑战，但每一步都有迹可循。对于每一位有志于构建未来智能应用的开发者来说，这无疑是一个激动人心的起点。

参考文献

nanoAgent: If you can read ~100 lines of Python, you understand agents. GitHub. https://github.com/sanbuphy/nanoAgent

sanbuphy.nanoMCP: A minimal implementation of the Model Context Protocol. GitHub. https://github.com/sanbuphy/nanoMCP

Anthropic Building effective agents. https://www.anthropic.com/research/building-effective-agents

Anthropic. Writing effective tools for AI agents. https://www.anthropic.com/engineering/writing-tools-for-agents