谷歌Gemini2.0震撼发布,AI Agent新时代正式启航?
在科技巨头纷纷加速人工智能领域布局的背景下,谷歌于近日深夜震撼发布其最新力作——Gemini2.0,一款被标榜为“迄今为止最尖端、功能最全面的AI模型”。此次发布不仅彰显了谷歌在AI技术上的深厚积累,更预示着AI技术向“Agent”时代迈出了重要一步。
Gemini2.0的最大突破在于其实现了原生多模态输入输出功能,这一创新使得模型能够同时处理图片、视频、音频等多种格式的数据,并生成相应的输出内容。这种能力不仅极大地拓宽了AI的应用场景,还提升了用户体验的丰富性和互动性。
在Gemini2.0发布之前,谷歌曾推出一款名为Gemini-exp-1206的模型,该模型因能够处理高达200万个标记(相当于一个多小时的视频)而广受关注,并在Livebench排名中仅次于OpenAI的模型,展现了其强大的数据处理能力。而Gemini2.0的出现,更是将这种能力推向了新的高度。
据谷歌DeepMind的CEO德米斯·哈萨比斯介绍,Gemini2.0在保持成本效率、性能效率和速度的同时,整体性能相较于Gemini 1.5 Pro有了显著提升。在速度方面,Gemini2.0的处理速度是1.5 Pro的两倍,这意味着用户将享受到更加流畅和高效的AI服务。
基于Gemini2.0的强大架构,谷歌推出了三款全新的AI智能体原型:通用大模型助手Project Astra、浏览器助手Project Mariner以及编程助手Jules。这三款智能体分别针对不同的应用场景,为用户提供全方位、个性化的AI服务。
Project Astra作为谷歌最早对外发布的AI助手,具备实时语音和视觉处理能力,能够通过手机或谷歌眼镜进行跨文本、音频、视频的多模态实时推理。此次升级后的Astra在对话、工具调用、记忆和延迟方面都有了显著提升,能够更好地理解不同口音和不常见词汇,使用Google搜索、镜头和地图等工具,提供长达10分钟的会话记忆,并以接近人类正常对话的速度作出反馈。
Project Mariner则是一个旨在探索人机交互未来的浏览器助手。它能够理解和推理浏览器屏幕上的信息,包括像素、文本、代码、图像和表单等,并通过实验性的Chrome扩展程序使用这些信息完成任务。例如,它可以登录杂货店网站购物,查找航班和酒店,购买家居用品等,极大地提高了用户的工作效率。
而Jules则是一款专为编程人员设计的助手。它能够直接集成到GitHub工作流程中,查看用户已有的代码,并直接在GitHub中进行更改,解决开发者在编程过程中遇到的难题。这一功能不仅节省了开发者的时间,还提高了代码的质量和效率。
Gemini2.0还在游戏、学术研究、机器人等领域进行了尝试。谷歌与Supercell等游戏开发商合作,探索智能体在游戏中的应用;推出的Deep Research则如同学术研究助手,能够直接生成论文;同时,谷歌还将Gemini 2.0的空间推理能力应用于机器人身上,帮助机器人实现更加智能化的操作。
在音频和图像生成方面,Gemini2.0同样展现出了强大的实力。它能够生成和修改图像,处理照片和视频,回答相关问题,并用不同口音和语言的声音朗读文本。为了防止滥用,谷歌还使用SynthID技术对所有生成的音频和图像进行水印标记。
Gemini2.0的强大性能得益于谷歌定制的硬件第六代TPU Trillium的支持。与前代产品相比,Trillium在训练性能、推理吞吐量、峰值计算性能等方面都有了显著提升,为Gemini2.0的运行提供了坚实的硬件基础。
目前,用户已经可以通过PC端优先体验Gemini2.0 Flash实验版,而移动版也将在不久的将来推出。明年1月,谷歌还将推出Gemini 2.0 Flash多模式版本,并推出更多Gemini 2.0模型尺寸,以满足不同用户的需求。
对于此次发布,谷歌和Alphabet的首席执行官桑达尔·皮查伊表示,如果Gemini 1.0是关于组织和理解信息的,那么Gemini 2.0就是为了让信息更加有用。而“Agent”正是人工智能时代下一个大方向,它们能够更好地了解用户周围的世界,提前思考多个步骤,并在用户的监督下代表用户采取行动。
谷歌表示,他们正在将AI融入所拥有的所有产品中,并准备将Gemini 2.0的先进推理能力引入AI Overviews,处理更复杂的主题和多步骤问题。谷歌的愿景是在2025年开启真正的“AI智能体时代”,为用户提供更加智能、便捷和个性化的服务。