谷星空体育歌硬刚GPT-4o！60秒视频生成模型虽迟但到还把上下文窗口卷到了20

新闻中心 /News

2024-07-29 18:37:06

浏览次数：次

　　左梵瑜伽官网最专业瑜伽培训机构GPT-4o掀起的一片“AGI已至”的惊呼声中，刚刚，Google DeepMind首席执行官哈萨比斯亲自携谷歌版《Her》登场：

　　，不仅能几乎没有延迟地和人类流畅交流，通过摄像头，这个名为Project Astra的AI助手甚至能直接帮忙读代码：

　　Gemini 1.5 Pro不仅面向所有人开放，上下文窗口还从100万token直接一步迈向200万，一口气能读1500页PDF。

　　连Android，现在也紧紧跟谷歌大模型Gemini绑定，摇身一变成为以AI为内核的操作系统。

　　Project Astra基于Gemini系列模型打造，谷歌表示，研究人员们希望这样的智能助手，能真正在人们的日常生活中提供帮助。

　　有意思的是，OpenAI总裁哥Brockman昨天在场外补充了有关GPT-4o多模态能力的更详细视频，而谷歌这边，哈萨比斯也是第一时间在X上更新了与这样一个智能助手的互动。

　　不过嘛，网友们也关注到了不少问题，比如，Project Astra的延迟似乎还是比GPT-4o长，谷歌的演示中也没有体现是否能打断智能助手说话。

　　谷歌还强调，Veo生成的画面一致性出色，并且可以hold住各种风格。比如“延时拍摄”和“航拍”这种术语，直接写在提示词里，Veo都能get。

　　官方提到，与此前的模型相比，Imagen 3的视觉伪影更少，生成的图像细节拉满，并且在生成文字方面效果也很好。

　　在这些跟OpenAI叫板的“肌肉”展示之外，谷歌对大模型应用的看重，也在此次I/O大会中尽显。

　　还不止是搜索，这一次，谷歌可以说是把Gemini塞进了全线产品中，包括谷歌搜索、Android，以及谷歌邮箱、谷歌Photos等。下面我们划划重点。

　　AI Overview秒秒钟就会列出五星好评且距离灯塔山近的店，并附带课程标价，连店在地图上的位置都标记了出来：

　　对于这种复杂问题的搜索，谷歌表示采用了多步推理技术，可以将复杂问题拆解成一个个小问题，然后自动对问题进行排序回答。

　　多步推理加持下，AI Overview已经脱离了纯粹的搜索——把制定计划一并搬进了搜索引擎里。

　　AI Overview一键给出了方案，每个方案都可以点击修改，下方还可以一键将食材加入购物车：

　　还没完，当你没有想法、问的问题比较笼统时，谷歌搜索还会AI自动将搜索结果整理成一个个“群组”，为你提供建议。

　　搜索出的结果会按照音乐餐厅、具有历史魅力的餐厅等一键分组。再往下翻，页面会从餐饮逐渐扩展到电影、酒店、购物等。

　　演示中，唱片机出故障，只需一边录制视频一边说出疑问，谷歌AI Overview就会立刻分析故障原因，并给出处理建议。

　　凭借直接内置的Circle to Search功能，用户使用简单的手势“圈”一下手机上看到的任何内容，就能进行搜索。

　　此外，还可以在一个应用之上随时调出Gemini助手层，随时使用。你还可以将Gemini生成的图片直接拖到Gmail等应用中，直接询问某个视频中的具体信息，不用滑动翻文档询问某个PDF中的信息……

　　谷歌Photos基于Gemini也推出了新功能——Ask Photos，可以一键从图库中帮你找到想要的照片和视频。

　　比如你想知道自己的baby是什么时候学会游泳的，Ask Photos会从你在谷歌Photos中存储的成百上千张照片中查找出含游泳、游泳证书等相关图片，最后总结给出回复：

　　Gemini也接入到了谷歌Workspace提供的一套生产力和协作工具中，包括谷歌邮箱、谷歌Docs、谷歌Calendar等。

　　例如在谷歌邮箱中自动分析邮件以及附件，识别整理好收据，然后一键在Drive和Sheets中处理。

　　如下图所示，当你提出一个问题后，背后的Gemini模型就会结合NotebookLM中的笔记内容，进行多模态的语音对话式回答。

　　与TPU v5e，Trillium的峰值计算性能提高4.7倍，HBM和带宽增加了1倍，芯片间互联（ICI）带宽也增加了1倍。另外，Trillium的能效比TPU v5e高出了67%以上。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。