谷歌最新多模态大模型和图像模型刷屏！可视化学习、P图、做网站样样行

2025-11-21 21:10:42发布来源：多知作者：Penny

　　来源|多知

　　“智能的新时代”来了!

　　谷歌本周发布了其最新的大型语言模型(LLM)——Gemini 3 系列产品，其中旗舰机型 Gemini 3 Pro 率先面向用户推出。

　　Gemini 3 是原生多模态的大模型，集听、看、思考为一体，能一次性处理文字、图片与音频，而不是分成不同流程，官方称能够将任何想法变为现实。

　　Gemini 3 这款全新的AI模型将带来一系列升级功能，从生成可生成交互式 3D 可视化效果的代码，到能够完成任务的“智能体”能力。

　　谷歌称，Gemini 3 Pro在所有主要的AI基准测试中都显著优于2.5 Pro。它以突破性的1501 Elo分数荣登LMArena排行榜榜首。它在“人类最后的考试”(不使用任何工具，得分37.5%)和GPQA Diamond(得分91.9%)测试中均取得了顶尖成绩，展现了博士级别的推理能力。此外，它还在MathArena Apex测试中取得了23.4%的全新最高分，为数学领域的前沿模型树立了新的标杆。

　　除了文本推理之外，Gemini 3 Pro 在 MMMU-Pro 测试中取得了 81% 的正确率，在 Video-MMMU 测试中取得了 87.6% 的正确率，重新定义了多模态推理能力。它在 SimpleQA Verified 测试中也获得了 72.1% 的成绩，展现了在事实准确性方面的显著进步。

　　这意味着 Gemini 3 Pro 能够以高度的可靠性解决涵盖科学和数学等众多领域的复杂问题。

　　在测试中，Gemini 3 Deep Think 在 Humanity's Last Exam(不使用工具的情况下得分 41.0%)和 GPQA Diamond(得分 93.8%)上的表现均优于 Gemini 3 Pro 已相当出色的成绩。此外，它在 ARC-AGI-2(代码执行，已通过 ARC Prize 验证)上也取得了前所未有的 45.1% 的得分，展现了其解决全新挑战的能力。

　　Gemini 从一开始就旨在无缝整合任何主题的多种模态信息，包括文本、图像、视频、音频和代码。Gemini 3 结合了其先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级上下文窗口，进一步拓展了多模态推理的边界。

　　可以说，只要想学任何东西，都可以通过Gemini 3去实现：

　　“例如，如果您想学习如何烹饪家族传统菜肴，Gemini 3 可以解读并翻译不同语言的手写食谱，生成可与家人分享的食谱。

　　或者，如果您想学习某个新主题，您可以提供学术论文、长篇视频讲座或教程，它可以生成交互式记忆卡片、可视化或其他格式的代码，帮助您掌握相关知识。

　　它甚至可以分析您匹克球的比赛视频，找出您可以改进的地方，并制定训练计划，帮助您全面提升球技。”

　　Gemini 3 还构建了 Vibe 编码和代理编码模型，它在 WebDev Arena 排行榜上名列榜首，获得了令人瞩目的 1487 Elo 分数。此外，它在 Terminal-Bench 2.0 测试中也取得了 54.2% 的成绩，该测试旨在评估模型通过终端操作计算机的工具使用能力。同时，它在 SWE-bench Verified 测试中也大幅超越了 2.5 Pro 版本(得分为 76.2%)，该测试用于衡量编码代理的性能。

　　现在，用户可以使用 Google AI Studio、Vertex AI、Gemini CLI 以及我们全新的智能体开发平台 Google Antigravity 中的 Gemini 3 进行构建。它也适用于 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平台。

　　Gemini 3 适用于Gemini 应用中的所有用户，以及 Google AI Pro 和 Ultra 订阅用户在搜索的AI 模式下使用此功能。

　　对于使用 AI Studio 中的 Gemini API、新的智能体开发平台、Google Antigravity 和 Gemini CLI 的开发者而言，Gemini API 和 Gemini CLI 都非常有用。

　　还适用于Vertex AI 和 Gemini Enterprise 的企业。

　　根据网友们的评测，使用Gemini 3，可以生成健身课程网站、小游戏等。

　　紧跟着，谷歌还发布了新的图像编辑和生成工具 Nano Banana Pro(也叫Gemini 3 Pro Image)，该产品基于Gemini 3 Pro打造。

　　据介绍，该模型不仅支持高达4K分辨率的图像输出，还集成了图像生成与对话式多轮编辑的强大功能。它通过深度推理技术显著提升图像品质，同时支持多语言长文本的精准渲染。

　　谷歌DeepMind和谷歌研究院首席科学家，Gemini项目负责人Jeff Dean提到：Gemini 3 Pro Image 可以生成种类繁多的逼真图像、复杂的视觉效果、信息图表等等。

　　他给到Gemini 3 Pro Image 一个提示词：请给我一张太阳系图，并为每个行星标注一个有趣的要素。

　　这样的图片看起来非常清晰、直观，适合老师做教案，也可以用来直接进行知识学习。

　　Nano Banana Pro还可以P图、做海报等。

　　比如，上传一张生活照片，告诉它：去掉其他人物，改成影棚灯光，身着正装，一张生活照就可以变成正装图。

　　Nano Banana Pro可以看到，拥有更高级的世界知识、文本渲染、更高的精度和更强大的控制功能能让角色保持一致性。基于 Gemini 3 构建，尤其擅长制作复杂的图表，就像工程师看待世界的方式一样。

　　可以看到，通用大模型基础模型能力越来越强大，接下来看其他大模型如何出招。

　　END

商学院

Open Talk

谷歌最新多模态大模型和图像模型刷屏！可视化学习、P图、做网站样样行

相关阅读