Nano-Banana Pro 代表了相对于上一代模型的重大飞跃，标志着从“娱乐性”图像生成向“功能性”专业素材生产的转变。它在文本渲染、角色一致性、视觉合成、世界知识（搜索）以及高分辨率（4K）输出方面表现卓越。

跟随这篇关于如何开始使用 AI Studio 和 API 的开发者指南，本文将涵盖其核心功能以及如何高效地编写提示词。

作者：Guillaume Vernade，Google DeepMind Gemini 开发者布道师

本文将包含以下内容：

提示词编写的黄金法则
文本渲染、信息图表与视觉合成
角色一致性与爆款缩略图
结合 Google 搜索
高级编辑、修复与上色
维度转换 (2D ↔ 3D)
高分辨率与纹理
思考与推理
单次生成分镜脚本与概念艺术
结构控制与布局指导
下一步做什么？

🛑 第 0 章：提示词编写的黄金法则

Nano-Banana Pro 是一个“思考型”模型。它不仅仅是匹配关键词；它理解意图、物理规律和构图。为了获得最佳结果，请停止使用“标签堆砌”（例如：狗，公园，4k，写实），开始像一位创意总监那样行事。

1. 编辑，无需重新生成

该模型非常擅长理解对话式的编辑指令。如果生成的图像有 80% 是正确的，不要从头开始生成一张新的。相反，只需告诉它你需要修改的具体细节。

示例：“这很棒，但把灯光改成日落，并把文字做成霓虹蓝。”

2. 使用自然语言和完整句子

像给人类艺术家下简报一样与模型对话。使用正确的语法和描述性形容词。

❌ 不好：“酷车，霓虹，城市，夜晚，8k。”

✅ 好：“一个电影质感的广角镜头，拍摄一辆充满未来感的跑车在雨夜的东京街道上飞驰。霓虹灯牌倒映在潮湿的路面和汽车的金属底盘上。”

3. 具体且具描述性

模糊的提示词只会产生通用的结果。定义主体、环境、灯光和情绪。

主体：不要只说“一个女人”，要说“一位穿着复古香奈儿风格套装的精致老妇人”。

材质感：描述纹理。“哑光表面”、“拉丝钢”、“柔软的天鹅绒”、“揉皱的纸”。

4. 提供背景信息（“为什么”或“给谁看”）

因为模型会“思考”，提供背景信息有助于它做出符合逻辑的艺术决策。

示例：“为一本巴西高端美食食谱创作一张三明治的图片。”（模型会推断出专业的摆盘、浅景深和完美的布光）。

1. 文本渲染、信息图表与视觉合成

Nano-Banana Pro 拥有业界领先（SOTA）的能力，可以渲染清晰、风格化的文本，并将复杂信息合成为视觉格式。

最佳实践：

压缩：要求模型将密集的文本或 PDF “压缩”成视觉辅助材料。
风格：具体说明你是想要“精致的编辑风格”、“技术图表”还是“手绘白板”风格。
引用：明确指定你想要引用的文本内容。

示例提示词：

财报信息图（数据摄入）：输入 Google 最新财报的 PDF

“生成一张干净、现代的信息图表，总结这份财报中的关键财务亮点。包括‘收入增长’和‘净收入’的图表，并在一个风格化的引语框中突出 CEO 的关键语录。”

Google 最新财报的 PDF

在 AI Studio 中尝试（注：需要上传 PDF）

复古信息图：“制作一张复古的、1950 年代风格的信息图，介绍美国路边餐厅（Diner）的历史。包括‘食物’、‘点唱机’和‘装饰’等不同板块。确保所有文字清晰可读，并具有符合那个时代的风格。”

在 AI Studio 中尝试

技术图纸：“创建一张正投影蓝图，通过平面图、立面图和剖面图来描述这座建筑。用技术建筑字体清晰地标记‘北立面’和‘主入口’。格式为 16:9。”

在 AI Studio 中尝试

白板总结（教育类）：“将‘Transformer 神经网络架构’的概念总结为一张适合大学讲座的手绘白板图。使用不同颜色的记号笔绘制编码器（Encoder）和解码器（Decoder）模块，并包含清晰的‘自注意力（Self-Attention）’和‘前馈（Feed Forward）’标签。”

在 AI Studio 中尝试

2. 角色一致性与爆款缩略图

Nano-Banana Pro 支持多达 14 张参考图像（其中 6 张可达高保真度）。这允许进行“身份锁定”——即在不扭曲面部特征的情况下，将特定人物或角色放入新的场景中。

最佳实践：

身份锁定：明确说明：“保持人物的面部特征与图 1 完全一致。”
表情/动作：描述情绪或姿势的变化，同时保持身份不变。
爆款构图：一次性将主体与醒目的图形和文字结合起来。

示例提示词：

“爆款缩略图”（身份 + 文字 + 图形）：“使用图 1 中的人物设计一个病毒式传播的视频缩略图。面部一致性：保持人物的面部特征与图 1 完全一致，但将他们的表情改为兴奋和惊讶。动作：将人物放在左侧，手指向画面右侧。主体：在右侧放一张高质量的美味牛油果吐司图片。图形：添加一个粗大的黄色箭头，连接人物的手指和吐司。文字：在中间覆盖巨大的波普风格文字：‘3分钟搞定!’ (Done in 3 mins!)。使用粗白色描边和投影。背景：模糊、明亮的厨房背景。高饱和度和对比度。”

在 AI Studio 中尝试（注：需要上传参考图片）

“毛茸茸的朋友”场景（群体一致性）：[输入 3 张不同毛绒生物的图片] “创作一个包含 10 个部分的有趣故事，讲述这 3 个毛茸茸的朋友去热带度假的经历。故事全程惊险刺激，情绪跌宕起伏，最后以一个快乐的时刻结束。保持这 3 个角色的服装和身份一致，但在 10 张图片中，它们的表情和角度应该有所变化。确保每张图片中每个角色只出现一次。”

在 AI Studio 中尝试（注：需要上传参考图片）

品牌资产生成：[输入 1 张产品图片] “创作 9 张令人惊叹的时尚大片，就像它们出自获奖的时尚社论一样。使用此参考图作为品牌风格，但要在系列中增加细微差别和多样性，以传达专业的设计触感。请生成九张图片，一次生成一张。”

在 AI Studio 中尝试（注：需要上传参考图片）

3. 结合 Google 搜索

Nano-Banana Pro 利用 Google 搜索基于实时数据、时事或事实验证来生成图像，减少在时效性话题上的“幻觉”。

最佳实践：

要求可视化动态数据（天气、股票、新闻）。
模型会在生成图像之前对搜索结果进行“思考”（推理）。

示例提示词：

事件可视化：“基于当前的旅游趋势，生成一张 2025 年美国国家公园最佳游览时间的信息图。”

在 AI Studio 中尝试

4. 高级编辑、修复与上色

该模型通过对话式提示词擅长进行复杂的编辑。这包括“局部重绘”（In-painting，移除/添加对象）、“修复”（Restoration，修复旧照片）、“上色”（Colorization，漫画/黑白照片）和“风格转换”（Style Swapping）。

最佳实践：

语义指令：你不需要手动遮罩；只需自然地告诉模型要更改什么。
物理理解：你可以要求复杂的更改，如“在这个杯子里倒满液体”，以测试物理生成能力。

示例提示词：

移除对象与局部重绘：“移除这张照片背景中的游客，并用符合周围环境的逻辑纹理（鹅卵石和店面）填充该空间。”

在 AI Studio 中尝试（注：需要上传照片）

漫画/连环画上色：[输入黑白漫画分镜] “为这个漫画分镜上色。使用鲜艳的动漫风格配色。确保能量束的灯光效果是发光的霓虹蓝，且角色的服装与其官方配色一致。”

在 AI Studio 中尝试（注：需要上传图片）

本地化（文本翻译 + 文化适应）：[输入伦敦公交车站广告的图片] “采纳这个概念并将其本地化为东京的场景，包括将标语翻译成日语。将背景改为夜晚繁华的涩谷街道。”

在 AI Studio 中尝试（注：需要上传图片）

灯光/季节控制：[输入夏天房子的图片] “把这个场景变成冬天。保持房子的建筑结构完全不变，但在屋顶和院子里加雪，并将灯光改为寒冷、阴沉的下午。”

在 AI Studio 中尝试（注：需要上传图片）

5. 维度转换 (2D ↔ 3D)

一项强大的新功能是将 2D 示意图转换为 3D 可视化，反之亦然。这对于室内设计师、建筑师和表情包创作者来说非常理想。

示例提示词：

2D 平面图转 3D 室内设计板：“基于上传的 2D 平面图，在一张图片中生成专业的室内设计提案板。布局：拼贴画形式，顶部是一张大的主图（起居区的广角透视），下方是三张较小的图片（主卧、家庭办公室和 3D 俯视平面图）。风格：所有图片均采用现代极简风格，配以温暖的橡木地板和米白色墙壁。质量：照片级渲染，柔和的自然光。”

在 AI Studio 中尝试（注：需要上传平面图）

2D 转 3D 表情包转换：“将‘This is Fine’（这就很好/着火的狗）表情包变成写实的 3D 渲染图。保持构图完全一致，但让狗看起来像毛绒玩具，火焰看起来像真实的火焰。”

在 AI Studio 中尝试

6. 高分辨率与纹理

Nano-Banana Pro 支持原生 1K 到 4K 的图像生成。这对于细节纹理或大幅面打印特别有用。

最佳实践：

如果你的 API/界面允许，明确要求高分辨率（2K 或 4K）。
描述高保真细节（瑕疵、表面纹理）。

示例提示词：

4K 纹理生成：“利用原生高保真输出，打造一个令人惊叹的、充满氛围感的长满苔藓的森林地面环境。驾驭复杂的光效和细腻的纹理，确保每一缕苔藓和光束都以适合 4K 壁纸的像素级完美分辨率呈现。”

复杂逻辑（思考模式）：“制作一张超写实的美味芝士汉堡分解信息图，展示烤奶油面包的质感、肉饼的焦香外壳以及芝士融化时的光泽。标注每一层的风味特征。”

在 AI Studio 中尝试

7. 思考与推理

Nano-Banana Pro 默认为“思考”过程，即在渲染最终输出之前生成中间思考图像（不收费）以优化构图。这允许进行数据分析和解决视觉问题。

示例提示词：

解方程：“在白板上求解复数域内的 log_{x^2+1}(x^4-1)=2。清晰展示步骤。”

在 AI Studio 中尝试

视觉推理：“分析这张房间的照片，生成一张‘之前’的照片，展示房间在施工期间的样子，显示框架结构和未完工的石膏板。”

在 AI Studio 中尝试（注：需要上传图片）

8. 单次生成分镜脚本与概念艺术

你可以在没有网格的情况下生成连续艺术或分镜脚本，确保单次会话中的叙事流畅连贯。这也常用于“电影概念艺术”（例如，即将上映电影的假泄露图）。

示例提示词：

“创作一个令人着迷的 9 部分故事，包含 9 张图片，主角是一男一女，出现在一个屡获殊荣的豪华箱包广告中。故事应该有情绪的起伏，最后以一张女性拿着带有 logo 的优雅镜头结束。即使从不同的角度和距离拍摄，也要全程保持男女主角的身份和着装一致。请一次生成一张图片。确保每张图片都是 16:9 的横向格式。”

9. 结构控制与布局指导

输入图像不仅限于角色参考或编辑对象。你可以使用它们来严格控制最终输出的构图和布局。对于需要将餐巾纸草图、线框图或特定网格布局转化为精美素材的设计师来说，这是一个颠覆性的功能。

最佳实践：

草稿与素描：上传手绘草图，精确定义文本和物体应放置的位置。
线框图：使用现有布局的截图或线框图来生成高保真 UI 模型。
网格：使用网格图像强制模型为平铺类游戏或 LED 显示屏生成素材。

示例提示词：

草图转最终广告：“根据这个草图为 [产品] 创作一个广告。”

在 AI Studio 中尝试（注：需要上传草图）

线框图转 UI 模型：“遵循这些指南为 [产品] 创建一个模型。”

在 AI Studio 中尝试（注：需要上传线框图）

像素艺术与 LED 显示：“生成一个完美适配此 64x64 网格图像的独角兽像素精灵。使用高对比度颜色。”（提示：开发人员随后可以编程提取每个单元格的中心颜色，以驱动连接的 64x64 LED 矩阵显示屏）。

在 AI Studio 中尝试（注：需要上传网格图像）

精灵图：“一个女人在无人机上做后空翻的精灵图表，3x3 网格，序列，逐帧动画，正方形宽高比。完全遵循所附参考图像的结构。”（提示：然后你可以提取每个单元格并制作 gif）

0:00

/0:01

在 Colab 中尝试

10. 下一步做什么？

既然你已经掌握了提示词编写的基础知识，以下是你可以开始构建的内容：

在 UI 中实验：Google AI Studio 是测试提示词和参数最快的方式。
查看应用库中非常酷的 Nano-banana 驱动的应用程序。
氛围编程（Vibe-code）你的梦想应用：在 AI Studio Build 中将你最好的提示词转化为可以轻松分享给朋友的应用程序。
构建应用程序：准备好写代码了吗？查看开发者指南或 Gemini API Cookbook 获取指南和代码片段。
技术深潜：阅读完整的 Gemini API 文档以了解有关速率限制、定价和集成的详细信息。