通用大模型基础模型能力越来越强大,接下来看其他大模型如何出招。

谷歌最新多模态大模型和图像模型刷屏!可视化学习、P图、做网站样样行

2025-11-21 21:10:42发布     来源:多知    作者:Penny  

  来源|多知

  

  “智能的新时代”来了!

  谷歌本周发布了其最新的大型语言模型(LLM)——Gemini 3 系列产品,其中旗舰机型 Gemini 3 Pro 率先面向用户推出。

  Gemini 3 是原生多模态的大模型,集听、看、思考为一体,能一次性处理文字、图片与音频,而不是分成不同流程,官方称能够将任何想法变为现实。

  Gemini 3 这款全新的AI模型将带来一系列升级功能,从生成可生成交互式 3D 可视化效果的代码,到能够完成任务的“智能体”能力。

  谷歌称,Gemini 3 Pro在所有主要的AI基准测试中都显著优于2.5 Pro。它以突破性的1501 Elo分数荣登LMArena排行榜榜首。它在“人类最后的考试”(不使用任何工具,得分37.5%)和GPQA Diamond(得分91.9%)测试中均取得了顶尖成绩,展现了博士级别的推理能力。此外,它还在MathArena Apex测试中取得了23.4%的全新最高分,为数学领域的前沿模型树立了新的标杆。

  

  除了文本推理之外,Gemini 3 Pro 在 MMMU-Pro 测试中取得了 81% 的正确率,在 Video-MMMU 测试中取得了 87.6% 的正确率,重新定义了多模态推理能力。它在 SimpleQA Verified 测试中也获得了 72.1% 的成绩,展现了在事实准确性方面的显著进步。

  这意味着 Gemini 3 Pro 能够以高度的可靠性解决涵盖科学和数学等众多领域的复杂问题。

  在测试中,Gemini 3 Deep Think 在 Humanity's Last Exam(不使用工具的情况下得分 41.0%)和 GPQA Diamond(得分 93.8%)上的表现均优于 Gemini 3 Pro 已相当出色的成绩。此外,它在 ARC-AGI-2(代码执行,已通过 ARC Prize 验证)上也取得了前所未有的 45.1% 的得分,展现了其解决全新挑战的能力。

  

  Gemini 从一开始就旨在无缝整合任何主题的多种模态信息,包括文本、图像、视频、音频和代码。Gemini 3 结合了其先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级上下文窗口,进一步拓展了多模态推理的边界。

  可以说,只要想学任何东西,都可以通过Gemini 3去实现:

  “例如,如果您想学习如何烹饪家族传统菜肴,Gemini 3 可以解读并翻译不同语言的手写食谱,生成可与家人分享的食谱。

  或者,如果您想学习某个新主题,您可以提供学术论文、长篇视频讲座或教程,它可以生成交互式记忆卡片、可视化或其他格式的代码,帮助您掌握相关知识。

  它甚至可以分析您匹克球的比赛视频,找出您可以改进的地方,并制定训练计划,帮助您全面提升球技。”

  

  Gemini 3 还构建了  Vibe 编码和代理编码模型,它在 WebDev Arena 排行榜上名列榜首,获得了令人瞩目的 1487 Elo 分数。此外,它在 Terminal-Bench 2.0 测试中也取得了 54.2% 的成绩,该测试旨在评估模型通过终端操作计算机的工具使用能力。同时,它在 SWE-bench Verified 测试中也大幅超越了 2.5 Pro 版本(得分为 76.2%),该测试用于衡量编码代理的性能。

  现在,用户可以使用 Google AI Studio、Vertex AI、Gemini CLI 以及我们全新的智能体开发平台 Google Antigravity 中的 Gemini 3 进行构建。它也适用于 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平台。

  Gemini 3 适用于Gemini 应用中的所有用户,以及 Google AI Pro 和 Ultra 订阅用户在搜索的AI 模式下使用此功能。

  对于使用 AI Studio 中的 Gemini API、新的智能体开发平台、Google Antigravity 和 Gemini CLI 的开发者而言,Gemini API 和 Gemini CLI 都非常有用。

  还适用于Vertex AI 和 Gemini Enterprise 的企业。

  

  根据网友们的评测,使用Gemini 3,可以生成健身课程网站、小游戏等。

  紧跟着,谷歌还发布了新的图像编辑和生成工具 Nano Banana Pro(也叫Gemini 3 Pro Image),该产品基于Gemini 3 Pro打造。

  据介绍,该模型不仅支持高达4K分辨率的图像输出,还集成了图像生成与对话式多轮编辑的强大功能。它通过深度推理技术显著提升图像品质,同时支持多语言长文本的精准渲染。

  谷歌DeepMind和谷歌研究院首席科学家,Gemini项目负责人Jeff Dean提到:Gemini   3 Pro Image 可以生成种类繁多的逼真图像、复杂的视觉效果、信息图表等等。

  他给到Gemini  3 Pro Image 一个提示词:请给我一张太阳系图,并为每个行星标注一个有趣的要素。

  

  这样的图片看起来非常清晰、直观,适合老师做教案,也可以用来直接进行知识学习。

  Nano Banana Pro还可以P图、做海报等。

  比如,上传一张生活照片,告诉它:去掉其他人物,改成影棚灯光,身着正装,一张生活照就可以变成正装图。

  

  Nano Banana Pro可以看到,拥有更高级的世界知识、文本渲染、更高的精度和更强大的控制功能能让角色保持一致性。基于 Gemini 3 构建,尤其擅长制作复杂的图表,就像工程师看待世界的方式一样。

  

  可以看到,通用大模型基础模型能力越来越强大,接下来看其他大模型如何出招。

  END