作者:Ryan Daws 是 TechForge Media 的高级编辑,在科技新闻领域拥有十多年的丰富背景。他的专长在于识别[敏感词]的技术趋势,剖析复杂的主题,并围绕前沿的发展编织引人入胜的叙述。他的文章和对行业领先人物的采访使他被 Onalytica 等组织认可为关键影响者。此后,在他的领导下,出版物的表现获得了 Forrester 等领先分析机构的认可。在 X (@gadget_ry) 或 Mastodon (@gadgetry@techhub.social) 上找到他
谷歌公布了其人工智能产品的一系列更新,包括推出Gemini 1.5 Flash,增强Gemini 1.5 Pro,以及其对AI助手未来的愿景Project Astra的进展。
Gemini 1.5 Flash 是 Google 机型系列的新成员,旨在更快、更高效地大规模服务。虽然重量比 1.5 Pro 轻,但它保留了对大量信息进行多模态推理的能力,并具有突破性的 100 万个令牌的长上下文窗口。
“1.5 Flash 在摘要、聊天应用程序、图像和视频字幕、从长文档和表格中提取数据等方面表现出色,”Google DeepMind 首席执行官 Demis Hassabis 解释道。“这是因为它是由1.5 Pro通过一种称为'蒸馏'的过程训练的,在这个过程中,来自更大模型的基本知识和技能被转移到一个更小、更高效的模型中。
与此同时,谷歌显着改进了其 Gemini 1.5 Pro 型号的功能,将其上下文窗口扩展到突破性的 200 万个代币。增强了其代码生成、逻辑推理、多轮对话以及音频和图像理解功能。
该公司还将 Gemini 1.5 Pro 集成到 Google 产品中,包括 Gemini Advanced 和 Workspace 应用程序。 此外,Gemini Nano 现在可以理解多模态输入,从纯文本扩展到包括图像。
素材来源于YouTube,可前往YouTube平台观看
谷歌宣布推出下一代开放模型 Gemma 2,旨在实现突破性的性能和效率。Gemma 家族也在扩展 PaliGemma,这是该公司[敏感词]受 PaLI-3 启发的视觉语言模型。
后,谷歌分享了 Project Astra(高级视觉和说话响应式代理)的进展,这是它对 AI 助手未来的愿景。该公司开发了原型代理,可以更快地处理信息,更好地理解上下文,并在对话中快速响应。
“我们一直想建立一个在日常生活中有用的通用代理。Project Astra 展示了多模式理解和实时对话能力,“谷歌首席执行官 Sundar Pichai 解释道。
“有了这样的技术,很容易想象一个未来,人们可以通过手机或眼镜在身边有一个专业的人工智能助手。
素材来源于YouTube,可前往YouTube平台观看
谷歌表示,其中一些功能将在今年晚些时候出现在其产品中。开发人员可以在此处找到他们需要的所有与 Gemini 相关的公告。
Смотритетакже: GPT-4o 通过文本、音频和视觉集成提供类似人类的 AI 交互