AI新概念

[译文]AI 工程师的崛起

随着AI新能力的不断涌现，一个全新的角色正逐渐成形。为了真正驾驭这些能力，我们必须走出“提示工程师”（Prompt Engineer）的框架，不仅要亲自编写软件，还要让 AI 也具备编写软件的能力。我们正在见证一个百年难遇的 AI 应用“右移”浪潮（shift right），其动因是基础模型（Foundation Models）所带来的新涌现能力，以及这些模型在开源或可调用 API 形态下的广泛可用性。

为什么叫QQ？

17 1月 2025 • 13 min read

随着AI新能力的不断涌现，一个全新的角色正逐渐成形。为了真正驾驭这些能力，我们必须走出“提示工程师”（Prompt Engineer）的框架，不仅要亲自编写软件，还要让 AI 也具备编写软件的能力。

我们正在见证一个百年难遇的 AI 应用“右移”浪潮（shift right），其动因是基础模型（Foundation Models）所带来的新涌现能力，以及这些模型在开源或可调用 API 形态下的广泛可用性。

在 2013 年，那些需要五年时间和一个研究团队才能完成的各种 AI 任务，如今在 2023 年只需翻阅一下 API 文档，并利用一个下午的空闲时间就能实现。

重要提示：图中的 “API” 这一分界并非不可逾越——AI 工程师也可能向左侧延伸，去微调或自建模型；研究工程师同样会向右侧拓展，基于 API 来构建应用！同时，这张图对于如何放置 “evals（评测）” 和 “data（数据）” 的做法也受到了批评；我们也认为评测在工作中非常重要。通常而言，ML 研究人员/工程师负责基础模型相关的工作，包括大规模预训练数据和通用基准评测；但 AI 工程师也应将面向产品的具体数据和评测视为自己的职责。

“从数量上来看，将来很可能会有更多的 AI 工程师，而不是 ML 工程师或 LLM 工程师。即便从未训练过的任何模型，也能在这一岗位上取得相当成功。”—— 安德烈·卡帕斯（Andrej Karpathy）"

然而，细节才是最难的——要成功评估、应用并产品化 AI，面临的挑战非常之多，例如：

模型：从评估 GPT-4 和 Claude 这样的大模型，到使用 Huggingface、LLaMA 等开源模型。
工具：从最流行的链式调用、检索及向量搜索工具（如 LangChain、LlamaIndex、Pinecone），到崭露头角的自治代理领域（如 Auto-GPT、BabyAGI，推荐阅读 Lilian Weng 的综合回顾）。

研究 / 进展：与此同时，每天都有海量新论文、模型和技术涌现，并伴随资金和关注度的指数级增长，想要完全跟上这些进展几乎需要投入全职精力。

我认为这确实是一份全职工作。我认为软件工程会催生一个新的分支学科，专门研究 AI 的应用，并有效地运用这些新出现的技术栈，就像“网站可靠性工程师”（SRE）、“DevOps 工程师”“数据工程师”“分析工程师”先后出现那样。

这个新兴角色（同时也是最不“尬”的称呼）大概率就是：AI 工程师（AI Engineer）。

我所知道的每一家初创公司都在 Slack 里有一个 #discuss-ai 频道。这些非正式的小组交流会慢慢变成正式团队，就像 Amplitude、Replit、Notion 已经做的那样。无论是在公司时间还是在夜晚和周末，无论是在企业 Slack 里还是独立的 Discord 频道里，数以千计的软件工程师都在为 AI API 和开源模型“投入生产化”而努力，他们最终会专业化并对外使用一个统一的头衔：AI 工程师。毫无疑问，这是本十年最具需求量的工程岗位。

从微软、谷歌等大型公司，到 Figma（通过收购 Diagram）、Vercel（例如 Hassan El Mghari 的爆红项目 RoomGPT）和 Notion（例如 Ivan Zhao 和 Simon Last 的 Notion AI）等前沿初创公司，再到像 Simon Willison、Pieter Levels（Photo/InteriorAI）以及 Riley Goodside（现就职于 Scale AI）这样的独立黑客，都不乏 AI 工程师的身影。他们在 Anthropic 做提示工程可以年薪 30 万美元，在 OpenAI 做软件构建则可以年薪 90 万美元。他们在 AGI House 利用空闲周末孵化点子，并在 /r/LocalLLaMA(https://www.reddit.com/r/LocalLLaMA/?rdt=42968）分享心得。

他们的共同点在于：能把 AI 的最新进展迅速变成数百万用户的真实产品，几乎是一夜之间完成。

这里面看不到什么博士。 在上线 AI 产品时，你需要的是工程师，而不是研究人员。

AI 工程师 vs. ML 工程师的“反转”

我提到这一趋势并不是要“创造”它。实际上对 “ML工程师” 的职位需求可能是 “AI工程师” 的 10 倍，但 “AI” 一词的热度增速更快，让我相信这种比例会在 5 年内出现逆转。

所有职位名称都有缺陷，但有些的确能发挥作用。我们对“AI”和“ML”之间无休无止的语义争论感到厌烦，也知道“软件工程师”这个角色本身就足以胜任大多数 AI 软件的构建需求。不过，最近有人在 Hacker News（https://news.ycombinator.com/item?id=36432598）上提了个问题“如何进入 AI 工程化”，从高赞回答也能看出目前市场的主流认知：

大部分人依然认为 AI 工程就是机器学习或数据工程的一种，所以推荐学习同样的先修知识。但我敢说，我前面提到的那些卓有成效的 AI 工程师，并没有全部做过“吴恩达 Coursera”课程，也不太懂 PyTorch，更不熟悉“数据湖”和“数据仓库”之间的区别。

在可见的未来，恐怕不会有人再建议你先看《Attention Is All You Need》来入门 AI 工程，就像没人会建议你通过研究福特 T 型车的详细结构图来学开车一样。当然，了解这些基础原理和历史背景永远是有帮助的，也能帮助你发现一些尚未被大众所熟知的效率或能力提升点。但有时候，你只需要使用并体验那些产品，就能了解它们的特性。

我也不认为这种“课程翻转”会一夜之间发生。人天生就喜欢在简历上填满各种内容，或者画满各种市场图谱，还想显得自己对更深层次的话题更有话语权。换言之，Prompt 工程或 AI 工程，对那些拥有扎实数据科学/ML 背景的人来说，短期内仍会“显得”比不上他们。但我相信，单纯从供需经济的角度出发，最终 AI 工程还是会大放异彩。

为什么 AI 工程师会在此时崛起？

基础模型是“少样本学习者”
它们表现出了上下文学习（in-context learning）甚至是零样本迁移的能力，这些能力可以超越最初模型训练者的预期。换句话说，模型的创造者自己也无法完全预料模型究竟能做什么。只要对模型花足够的时间并把它们应用到研究不太关注的领域（例如 Jasper 针对文案写作），就能找出并利用这些隐藏能力。而这些人并不需要是 LLM 研究人员。
“AI 研究即服务”
微软、谷歌、Meta 以及大型基础模型实验室已经网罗了稀缺的研究人才，向外提供“AI 研究即服务”形式的 API。你无法直接雇到他们，但你可以“租”到他们的成果——前提是你的公司有相应的软件工程师，懂得如何有效使用它们。全世界可能只有大约 5000 名 LLM 研究人员，但有大约 5000 万软件工程师。供需关系表明必然会出现一个“中间层”的 AI 工程师群体来应对需求。

GPU 囤积

OpenAI/Microsoft 最先行动，Stability AI 也开启了初创公司 GPU 军备竞赛，宣称他们拥有一个 4,000 GPU 的集群。

如今，新成立的初创公司如 Inflection（融资 13 亿美元）、Mistral（1.13 亿美元）、Reka（5800 万美元）、Poolside（2600 万美元）、Contextual（2000 万美元），都会在种子轮阶段大举融资，用来购买自己的硬件。Dan Gross 和 Nat Friedman 也宣布了 Andromeda，这个总计 10 exaflop、价值 1 亿美元的 GPU 集群只对他们投资的初创公司开放。全球芯片短缺反过来又加剧了这种抢购潮。于是，对 API 端有巨大需求的 AI 工程师会比真正能训练模型的专家多得多。

“先开火，再瞄准”

传统做法往往需要数据科学家/ML 工程师先耗费大量时间收集数据，再训练出一个特定领域的模型，最后才能投入生产。而现在，产品经理/软件工程师可以先用 LLM 做 Prompt，就能快速验证产品想法，然后再去收集特定数据做微调。

如果说后者（先 prompt 后收集数据）的人群比前者要多出 100-1000 倍，而且这种流程速度能比传统 ML 快 10-100 倍，那么 AI 工程师验证产品想法的成本可能就只有以前的 1/1000 到 1/10000。这就像“瀑布式”方法和“敏捷”方法之间的对比。AI 是敏捷的。

Python + JavaScript

数据/AI 传统上高度依赖 Python，像 LangChain、LlamaIndex、Guardrails 这些早期 AI 工程工具也大多出自 Python 社区。然而，现在至少有与 Python 数量相当甚至更多的 JavaScript 开发者，因此越来越多的工具开始服务这部分人群，比如 LangChain.js、Transformers.js，以及 Vercel 最新推出的 AI SDK。潜在市场直接增加了一倍。

生成式 AI vs. 分类式机器学习

虽然“生成式 AI（Generative AI）”这一术语的热度在下降，被“推理引擎”等各种新说法所取代，但它还是能用来大致描述现有“ML 工具/从业者”和那些采用文本图像生成器、最佳使用 LLM 的“新一代人群”之间的差异。之前的 ML 往往专注于欺诈检测、推荐系统、异常检测、特征存储，而 AI 工程师们在做写作应用、个性化学习工具、自然语言电子表格，以及类似《异星工厂》（Factorio）风格的可视化编程语言。

当一个子群体拥有完全不同的背景、使用不同的语言、创造截然不同的产品，并且用上一整套不一样的工具时，他们最终就会自成一个新群体。

1+2=3: 从 Software 2.0 到 Software 3.0：代码在演进中的角色

六年前，Andrej Karpathy 写过一篇很具影响力的文章，阐述了“Software 2.0”的概念，比较了“经典软件栈”（通过人工编写编程语言来准确建模逻辑）和“机器学习”神经网络栈（通过近似逻辑来解决人类无法硬编码的更多问题）。今年他又补充说当下最热门的“编程语言”就是英语，让我们注意到他在那篇文章的插图里留白的区域，现在正被填补。

去年，“提示工程”（Prompt Engineering）因为 GPT-3、Stable Diffusion 的实际应用而走红。人们嘲笑那些仅仅把 OpenAI 封装一下的 AI 初创公司，担心 LLM 应用会被 Prompt 注入和反向提示工程轻易攻破。难道就没有护城河可言吗？

但 2023 年的一大主题，就是重新确认人类书写的代码在利用 LLM 的能力时所扮演的角色——无论是市值超过 2 亿美元的 LangChain，还是英伟达投资的 Voyager 都表明，代码生成和复用无可替代（我最近和 Harrison 一起参与了一个名为“Chains vs Agents”的线上研讨会，讨论了“代码核心 vs. LLM 核心”应用的观点）。

Prompt 工程可能被过度吹捧，但它也将继续存在。而软件 1.0 范式在 Software 3.0 应用中的重新崛起，既是一个巨大的机遇和迷茫的来源，也为大量新创公司创造了空白市场空间：

当然，并不仅仅是人类编写的代码。我最近在 smol-developer、gpt-engineer、以及 Codium AI、Codegen.ai、Morph/Rift 等代码生成代理上做的实验，也让我相信这些工具将越来越成为 AI 工程师的标配。随着人类工程师逐渐学会驾驭 AI，AI 也将越来越多地从事工程工作，直到某一天我们恍然发现我们早已分不清彼此的界限。

原文：https://www.latent.space/p/ai-engineer