【提示工程】谷歌设计多模态提示

developer.chat

30 August 2025

SEO Title

Google Design multimodal prompts

提示词设计基础

使用具体说明

清晰详细的提示可提供最佳结果。如果您心中有一个特定的输出，请在提示中包含该要求，以增加获得正确输出的可能性。

即使写提示的人似乎很清楚提示，提示也可能没有明确说明。要自定义模型行为，请考虑如何解释您的提示，并确保您给出的说明具体明了。

如果你在提示中包含了下面机场板的图像，要求模型只“描述这张图像”就可以生成一个总体描述。如果您需要模型从图像中解析时间和城市，请将该请求直接包含在提示中。

模型提示词响应

标有时间和城市的机场时刻表。

描述这张图片。

图片显示了一个机场到达和离开板。

-------

更新提示改进响应

标有时间和城市的机场时刻表。

将此图像中显示的机场板上的时间和城市解析为列表。

改进的响应

10:50莫斯科
11:05爱丁堡
11:05伦敦
11:10布加勒斯特
11:30基辅
11:35都柏林
11:45东米德兰兹
12:15索菲亚
12:30伦敦
12:30纽卡斯尔
12:40圣彼得堡
12:40伦敦
12:45曼彻斯特

添加示例

该模型可以接受多个输入作为示例，以了解您想要的输出。添加这些示例可以帮助模型识别模式，并将给定图像和响应之间的关系应用于新示例。这被称为“少镜头”学习。

在以下示例中，初始输出是一个完整的句子，其中还包含国家（巴西）。如果首选输出只是城市，而不是国家，那么在提示中添加几个镜头示例可以引导模型以这种格式做出响应。

模型提示词响应

巴西里约热内卢的救世主基督雕像。


确定城市和地标。

模型响应

地标是巴西里约热内卢的救世主基督雕像。

更新提示改进响应

确定城市和地标。

意大利罗马的斗兽场。
城市：罗马，地标：罗马斗兽场。

中国北京的紫禁城。
城市：北京，地标：紫禁城

巴西里约热内卢的救世主基督雕像。
城市：里约热内卢，地标：救世主基督雕像

将复杂任务拆分为较小的任务

对于需要视觉理解和推理的复杂任务，可以将任务分解为更小、更简单的步骤，或者直接要求模型在提示中逐步思考。

模型提示词响应

三卷卫生纸的照片。

卫生纸什么时候用完？

很快，你只剩下3卷了。

更新提示改进响应

三卷卫生纸的照片。


首先，数一下这张照片里有多少卫生纸卷。
然后，确定一个典型的人每天使用多少卫生纸。
计算一下这些卫生纸卷能用多久。


这张照片中有三卷卫生纸。
一个典型的人每天大约使用20张卫生纸。
如果每卷包含200张，那么每卷将持续约10天。因此，这3卷将持续到

数学问题或其他类型的文字问题也可以分解为更小的任务。

提示词响应

数学序列b.b（1）=15，b（n）=b（n-1）*（-3）的图片。
序列中的第四项是什么？

-135

模型的响应不正确。在回答提示之前，尝试让模型解析问题。

提示词响应

数学序列b.b（1）=15，b（n）=b（n-1）*（-3）的图片。


首先解析图像中的公式。
然后根据公式，回答“序列中的第四项是什么？”。

单击以展开结果
为了使响应更加流畅，您可以要求模型逐步思考提示。

更新提示改进响应

数学序列b.b（1）=15，b（n）=b（n-1）*（-3）的图片。


序列中的第四项是什么？一步一步地思考。

第一学期是15。

第二项是b（1）*（-3）=15*（-3）=-45。

第三项是b（2）*（-3）=-45*（-3）=135。

第四项是b（3）*（-3）=135*（-3”=-405。

指定输出格式

当需要某种格式时，您可以指示模型使用该格式进行输出。

模型提示词响应

Excel中的电子表格图片。
将此图像中的表格解析为Markdown格式

| Subject   | Status      | Time    | Start date | Due on     |
|-----------|-------------|---------|------------|------------|
| Math      | Done        | 1.5 hrs | 11/29/2023 | 12/1/2023  |
| Geography | Done        | 30 min  | 12/2/2023  | 12/4/2023  |
| Physics   | In progress | 2 hrs   | 12/3/2023  | 12/5/2023  |
| Biology   | Not started | 6 hrs   | 11/2/2016  | 12/6/2023  |

模型提示词响应

一张用虾、蛤蜊和其他食材做的饭的照片。

提供以下所有属性的列表：
JSON格式的食材、菜肴类型、素食与否

        {
          "ingredients": [
            "rice",
            "shrimp",
            "clams",
            "mussels",
            "peas",
            "tomatoes",
            "onions",
            "garlic",
            "olive oil",
            "paprika",
            "salt",
            "pepper"
          ],
          "type of cuisine": "Spanish",
          "vegetarian": false
        }

对多模式提示进行故障排除

对提示进行故障排除可能涉及改进提示的语言、引导提示的焦点或调整参数。这些不同的方法可以改善结果，特别是在确定问题的根本原因之后。

关注图像的相关部分
为了提高响应速度，请指出图像的哪些部分与提示最相关。

模型提示词响应

一盒尿布侧面的照片；盒子上写着数字198。

这些尿布能给婴儿用多少天？

尿布在用完之前可以使用198天。

更新提示改进响应

一盒尿布侧面的照片；盒子上写着数字198。


这些尿布要用多久才能用完？
使用盒子上显示的重量来确定孩子的年龄，并使用盒子里尿布的总数。
用总数除以孩子每天穿多少尿布。

这个盒子里有198个尿布。盒子上写着尿布是给体重22-37磅的孩子用的。
这个体重范围内的平均儿童可能在1到2岁之间。
一个2岁的孩子通常每天要换6块尿布，因此，尿布的使用寿命约为33天（198/6）。

根据输入调整模型的响应

在提示中执行任务之前，要求模型描述图像。

模型提示词响应

一个人收拾行李箱的照片。一张购物中心空荡荡的走廊的照片。三卷卫生纸的照片。乌云在海面上散开的照片。

这些图像之间有什么共同点？

这四张照片都是风景摄影的例子。

您可以明确地要求模型引用图像中的内容。

更新提示和改进响应

一个人收拾行李箱的照片。一张购物中心空荡荡的走廊的照片。三卷卫生纸的照片。乌云在海面上散开的照片。


首先，详细描述每张图片中的内容。这些图像有什么共同点？

第一张图片显示了一个人正在收拾行李箱。第二张图片显示了一个购物中心的空走廊。第三张图片显示了一卷卫生纸。第四张图片显示了一片黑暗而暴风雨的大海。
这些图像的共同点是，它们都是边缘空间的例子。边缘空间是介于其他两个地方或情况之间的地方或情况。它们通常具有不确定性或模糊性。
第一张图片显示了介于在家和旅行之间的人。第二张图片显示了两家商店之间的走廊。第三张图片是卫生纸，可以代表浴室。浴室是私人和公共领域之间的过渡空间。这是一个我们准备进入或离开外界的地方。
第四张图片显示了平静和暴风雨之间的大海。
边缘空间既令人兴奋又令人不安。它们可以是一个新的开始或结束的地方。它们可以是反思的地方，也可以是行动的地方。

更新提示改进响应
一个人收拾行李箱的照片。一张购物中心空荡荡的走廊的照片。三卷卫生纸的照片。乌云在海面上散开的照片。

这些图像之间有什么共同点？请参考您回复中的图片。

所有的图片都与旅行有关。第一张图片显示了一个人正在收拾行李箱，第二张图片显示的是购物中心里一条空荡荡的走廊，第三张图片展示的是一堆卫生纸，第四张图片展示了一片黑暗而暴风雨的大海。

这些图片都与旅行有关，因为它们都是人们旅行时需要或使用的东西。第一张图片显示了一个人收拾行李箱，这是人们旅行时做的事情。第二张图片显示了一个购物中心的空走廊，这是人们经常去买旅行用品的地方。第三张图片显示了一堆卫生纸，这是人们旅行时经常使用的东西。第四张图片显示了一片黑暗而暴风雨的大海，这是人们旅行时经常遇到的。

同样的技巧也适用于创造性产出。明确要求模型包括图像中的各个方面；这可以提高输出。

模型提示词响应

一张棕色兔子的照片。

你能给我写一首关于这幅画的诗吗？


小兔子，如此柔软和棕色，
在田野里跳来跳去。
你的耳朵那么长，你的尾巴那么小，
你是他们中最可爱的生物。
你轻咬着绿油油的草地，
当你看到我时，请迅速离开。
但我永远是你的朋友，
小兔子，直到最后。

更新提示改进响应

一张棕色兔子的照片。

你能给我写一首关于这张照片的描述性和戏剧性的诗，并包括地点吗？


绿色的小兔子，
耳朵那么长，那么敏锐。
你看到了什么，
在远处，你凝视着哪里？
是海洋的蓝色吗，
在阳光的照耀下闪闪发光？
或是汹涌的波涛，
你喜欢的节奏？
小兔子，告诉我真相，
是什么吸引了你的注意力？
是咸味的微风吗，
还是海鸥的叫声？
也许是这一切的浩瀚，
一个如此大小的世界。
一个梦想可以漫游的地方，
冒险是可以播种的。
小兔子，我想知道你做了什么梦，
当你坐在草地上，如此宁静。
你渴望探索深海吗，
或者留在陆地上，在那里你可以跳跃？
不管是什么，小兔子，
让奇迹的火花继续燃烧。
因为在你的梦想和抱负中，
一个等待你创造的世界。

确定提示失败的原因

提示可能会失败，因为模型根本不理解图像，或者因为它之后没有执行正确的推理步骤。为了消除这些原因之间的歧义，请模型描述图像中的内容。

在这个例子中，如果模型以一种与茶（如爆米花）搭配时看起来令人惊讶的零食作为回应，首先确定模型是否识别出图像中含有茶。

故障排除提示
一套茶具的照片。

我可以在1分钟内做什么零食来搭配这个？

一套茶具的照片。


描述这张图片中的内容。

要求模型解释其推理可以帮助缩小推理的哪一部分出现故障（如果有的话）。

故障排除提示
一套茶具的照片。

我可以在1分钟内做什么零食来搭配这个？

一套茶具的照片。

我可以在1分钟内做什么零食来搭配这个？请解释原因。

调整采样参数

在每个请求中，您不仅会向模型发送多模式提示，还会发送一组采样参数。该模型可以为不同的参数值生成不同的结果。尝试不同的参数，以获得任务的最佳值。最常调整的参数如下：

温度
top P

温度

在响应生成过程中，温度用于采样，这在应用top-P和top-K时发生。温度控制着令牌选择的随机程度。较低的温度有利于需要更确定性、更少开放性或创造性反应的提示，而较高的温度可以带来更多样化或创造性的结果。温度为0是确定的，这意味着最有可能选择最高概率的响应。

对于大多数用例，从0.4的温度开始。如果你需要更多创造性的结果，提高温度。如果你观察到明显的幻觉，请降低体温。

Top-P

Top-P更改了模型选择输出令牌的方式。从最有可能到最不可能中选择令牌，直到它们的概率之和等于前P值。例如，如果令牌A、B和C的概率分别为0.6、0.3、0.1，且前P值为0.9，则模型将使用温度选择A或B作为下一个令牌，并排除C作为候选。

为较少的随机响应指定较低的值，为较多的随机响应设置较高的值。top-P的默认值为1.0。

下一个是什么

Try a quickstart tutorial using Vertex AI Studio or the Vertex AI API.
To get started using the Gemini API in Vertex AI, see the Gemini API in Vertex AI quickstart.

文章链接

https://developer.chat/google-design-multimodal-prompts

登录发表评论

【提示工程】谷歌设计多模态提示

category

提示词设计基础

使用具体说明

添加示例

将复杂任务拆分为较小的任务

指定输出格式

对多模式提示进行故障排除

根据输入调整模型的响应

同样的技巧也适用于创造性产出。明确要求模型包括图像中的各个方面；这可以提高输出。

确定提示失败的原因

调整采样参数

温度

Top-P

下一个是什么

标签

标签（标签）

Search

category

提示词设计基础

使用具体说明

添加示例

将复杂任务拆分为较小的任务

指定输出格式

对多模式提示进行故障排除

根据输入调整模型的响应

同样的技巧也适用于创造性产出。明确要求模型包括图像中的各个方面；这可以提高输出。

确定提示失败的原因

调整采样参数

温度

Top-P

下一个是什么

标签

标签（标签）