
夸张的长上下文与输出能力
该模型支持最高 100 万 tokens 的上下文长度和最高 64K tokens 的输出长度。这使其能直接处理完整的中型代码仓库、成百上千页的长文档或高清视频等内容,比如对代码仓库做架构分析、对多份法规文件做差异对比,还能基于长期项目的所有历史对话和文档做 “项目记忆” 与规划。且它在 18 世纪手写文稿识别中字符错误率仅 0.56%,较前代降低 50%-70%,也能精准提取潦草中文手写内容。
全面且强大的原生多模态能力
它并非单一模态处理,而是能原生理解和处理文本、图像、音频、视频等多种形式的内容。例如看产品介绍视频结合说明文档输出竞品分析报告,依据会议录音和会前邮件生成会议纪要与行动追踪表;还能将菜谱照片转为文字食谱,把视频讲座生成交互式学习卡片,适配多种生活化、工作化的场景。
顶尖的推理与编程能力
该模型在人类终极考试中以 37.4 分创下有史以来最高分,AIME2025 数学测试准确率达 100%,MathArenaApex 竞赛得分远超同类模型均值。编程方面,其首创的 “vibecoding” 功能可 30 秒生成含交互逻辑的完整代码,还能一次性输出超 2000 行前端代码并自我纠错,SVG 生成精度位居行业第一,能绘制八缸发动机物理结构动画等复杂图形。
创新的生成与开发配套能力
它支持生成式界面功能,能根据不同用户和场景生成定制化交互界面,比如给儿童解释量子概念时生成卡通界面,为专业用户提供带动态图表的学术布局。同时谷歌还推出了基于该模型的 Antigravity 开发平台,支持多智能体协同工作,可直接调用编辑器、终端和浏览器资源,还能实现工作过程可视化,目前已推出支持 Windows、macOS 和 Linux 系统的跨平台预览版。
亲民的使用渠道
谷歌此次采用开放策略,免费用户也能访问该模型。普通用户可通过 DeepSider 浏览器插件便捷使用;开发者可借助 Gemini CLI 操作,付费订阅用户或 API 密钥持有者能直接使用,免费用户可申请候补资格;此外也能在 LMArena 平台抽卡体验该模型的文本与代码任务。
评论 (0)
发表评论