Google I/O 2025 重点 AI 技术与产品发布整理
在此次 Google I/O 2025 上,Google 向开发者推出了一系列围绕 Gemini、Search、创意工具和平台订阅的新 AI 能力。凭借 AI Mode(在 Search 中优先呈现 AI 回答)、Gemini 2.5 的“Deep Think”模式和 Agent Mode(可委派 AI 代理完成任务)、以及 Imagen 4、Veo 3、Flow、Stitch 等生成式媒体工具,Google 正在将其几十年积累的研究成果快速推向产品化。与此同时,通过 Google AI Ultra 订阅计划和本地 AI 推理(如 LiteRT),Google 试图在保持广告业务和搜索流量的前提下,增强用户黏性并扩展开发者生态。这些举措将对 AI 平台架构、应用生态、模型创新和行业竞争格局产生深远影响。
视频通信与实时翻译
Google Beam
- 功能:基于多摄像头的 AI 视频通信平台,通过 6 个摄像头捕捉多角度画面,结合 AI 将 2D 视频流转化为 3D 光场显示,支持毫米级头部追踪(60 帧 / 秒实时渲染),提供沉浸式对话体验。
- 合作与落地:与 HP 合作,首批设备 2025 年晚些时候向早期客户开放,HP 将在几周内公布更多细节。
Google Meet 实时语音翻译
- 功能:基于 Gemini 模型,支持会议中实时语音翻译(如英语与西班牙语即时互译),匹配说话者语气和表情,打破语言障碍。
- 进展:即日起向订阅用户开放英西翻译,未来几周新增更多语言。
AI 助手与代理工具
Project Astra(Gemini Live)
- 功能:通过手机摄像头和屏幕共享的 AI 助手,支持实时视觉交互(如识别物体、辅助维修、语言纠错等),可调用网页、邮件、YouTube 等工具。
- 演示场景:辅助修理自行车(查找手册、调用视频、联系店铺),支持 Android 和 iOS,即日起开放。
Project Mariner
- 定位:高级 AI 代理,可控制浏览器和软件,支持同时处理 10 项任务,通过 “教 - 重复” 模式学习用户操作流程。
- 生态布局:通过 Gemini API 向开发者开放,测试合作伙伴包括 Automation Anywhere 和 UiPath,2025 年夏季全面上线;兼容 Anthropic 的 MCP 协议,推动代理间通信。
Agent Mode( Gemini 应用)
- 功能:AI 驱动的智能搜索与任务执行,例如自动筛选租房信息(结合 Zillow 数据)、调整过滤条件、预约看房,解放用户手动操作。
- 进展:实验版即将向订阅用户推出,整合 Mariner 和 MCP 工具。
大语言模型与多模态能力
Gemini 系列模型升级
- Gemini 2.5 Flash:高效低成本模型,推理、代码、长上下文能力提升,LM Arena 排行榜仅次于 2.5 Pro,2025 年 6 月初全面上线。
- Gemini 2.5 Pro Deep Think:引入 “深度思考” 模式,延长模型推理时间,在数学(USA Mo 2025)、编程(Live Codebench)、多模态(MMU)基准测试中领先,需安全评估后向可信测试者开放。
- Gemini Diffusion:实验性文本扩散模型,并行生成文本 / 代码,速度比 2.0 Flash 快 5 倍,支持数学问题快速迭代求解,目前小范围测试中。
多模态与交互升级
- Native Audio Output:文本转语音支持 24 种语言,无缝切换语种和语气(如耳语), Gemini Live 集成自然语音输出。
- Coding 能力:Gemini 2.5 Pro 支持根据草图生成 3D 网页动画(如 3.js 库应用),代码生成与调试工具 Jules 进入公开测试,支持 GitHub 集成和复杂代码库更新。
搜索与个性化体验
AI 模式搜索(AI Mode)
- 功能:重构搜索体验,支持长复杂查询(比传统搜索长 2-3 倍),通过 “查询扇出” 技术分解问题、并行搜索多数据源(知识图谱、购物数据、实时信息),动态生成图文、表格、地图等富媒体结果。
- 落地:即日起在美国推出,集成个人上下文(需用户授权,如 Gmail 邮件、搜索历史),夏季支持基于个人偏好的个性化推荐(如旅行、餐饮建议)。
Search Live
- 功能:结合 Project Astra 的实时视觉交互,通过摄像头实时解答问题(如 DIY 维修、科学实验指导),支持多轮对话和动态反馈,类似 “与搜索进行视频通话”。
- 场景:家庭科学实验、物品识别、远程协助等,已在 Gemini 应用中免费开放。
生成式 AI 与创意工具
Imagine 4 图像生成
升级:图像细节更丰富(如阴影、水滴),支持准确文本生成(如海报字体设计),速度比前代快 10 倍,集成于 Gemini 应用,支持直接编辑生成图像。
V3 视频生成模型
- 突破:支持原生音频生成(音效、对话、背景音),提升物理模拟精度(如物体运动轨迹),演示场景包括角色对话、动态场景构建。
- Flow AI 电影制作工具:整合 V3、Imagine 和 Gemini,支持上传自定义素材、生成镜头、精确控制相机参数,实时迭代场景,2025 年开放测试。
AI 试衣(AI Tryon)
技术:基于 3D 人体建模,分析服装材质褶皱与人体贴合效果,用户上传照片即可虚拟试穿,支持电商平台价格追踪和代理 checkout(自动下单)。
硬件与平台整合
TPU 与云计算
第七代 TPU Ironwood:性能较前代提升 10 倍,单设备算力达 42.5 exaflops,2025 年晚些时候向 Google Cloud 客户开放。
安卓与 XR 生态
- Android XR 平台:首款 Gemini 时代安卓系统,支持头显、眼镜等多形态设备,与三星合作开发的 Project Muhan 头显年内上市,Gentle Monster、Warby Parker 将参与智能眼镜研发。
- 跨设备联动:Gemini Live 将整合日历、地图等应用,支持通过摄像头直接操作(如添加日程、识别手写清单)。
平台生态与未来规划
- Agent 生态:推动开放代理间协议(如 MCP),联合 60 + 技术合作伙伴构建跨平台代理交互。
- Gemini 应用整合: Gemini Live 新增摄像头、屏幕共享功能,未来连接日历、地图等应用;AI 模式搜索逐步将前沿功能融入核心搜索体验。
- 安全与隐私:个人上下文数据需用户授权,经用户授权后,Gemini 可调用 Google 应用数据(如 Drive、Gmail)生成个性化内容,强调隐私可控。
- Synth ID 水印技术:已为超 100 亿内容嵌入不可见水印,推出检测器识别水印内容,即日起向早期测试者开放。
Leave a Reply
You must be logged in to post a comment.