突发！谷歌发布史上最强大模型gemini，打爆gpt-欧洲杯足彩官网

谷歌上线gemini 据称碾压gpt-4

2023-12-07 01:24:07　来源: 量子位

北京举报

分享至

金磊鱼羊发自凹非寺
量子位 | 公众号 qbitai

传闻中的谷歌杀手锏gemini，来了！

就在刚刚，谷歌ceo皮猜和哈萨比斯在谷歌欧洲杯足彩官网联名发文，宣布推出这一万众瞩目的多模态大模型。

标题明晃晃写着“最大”、“最强”，主打的就是一个干爆gpt-4。

具体来说，此次谷歌一共带来了gemini的三个版本：

gemini ultra：谷歌最大、最强模型，适用于高度复杂的任务
gemini pro：可扩展至各种任务的gemini模型
gemini nano：适用于端侧设备的高效gemini版本（1.8b/3.25b）

其中gemini ultra一上来就在32个基准测试中拿下30个sota，并且第一个在mmlu基准上达到人类专家水平。

而gemini pro从今天起，就会在bard中实装上线。

同时，谷歌gemini团队还公布了一份60页的详细技术报告。

消息一出，社交媒体瞬间炸了锅。

英伟达ai科学家jim fan就第一时间转发评论：

这是openai王座的有力竞争者。

话不多说，一起来看更多细节。

谷歌史上最强大模型gemini

在llm中的表现，也正如我们刚才所述，32个基准测试中拿下30个sota。

其中，通用、推理、数学和编程等大方向的成绩如下表所示：

△gemini 在包括文本和编码在内的一系列基准测试中达到sota

在多模态方面，gemini ultra在新的mmmu基准测试中也获得了59.4%的sota分数。

这项基准测试是由跨不同领域的多模式任务组成，需要大模型进行一个深思熟虑的推理过程。

根据谷歌给出的图像基准测试结果来看，gemini ultra在没有ocr系统的帮助下，表现优于之前最先进的模型。

△gemini 在一系列多模态基准测试中达到sota

接下来，我们以具体的案例来看一下gemini的能力。

例如科学家们经常要面对从成千上万的文献中提取数据的难题，像下面这篇研究，作者就通过手动的方法从上万篇遗传学论文中创建了数据集。

像这样的数据集是需得随着时间流逝而进行更新的，但现实的情况是，自2021年以来，这个领域便已有超过200000篇新增的论文……

再像以往手动的方式显然是不可行的，不过现在有了gemini，一切就变得简单了起来。

首先，通过自然语言的prompt，告诉gemini去过滤相关的科学论文：

只需片刻时间，gemini就能找到相关论文和非相关的论文。

而后，继续用prompt告诉gemini去阅读相关论文，并提取关键数据，甚至是可以要求它添加注释的那种。

如果你给gemini一个午休的时间长度，它就能阅读200000篇论文，从中筛选出250篇并提取数据！

并且由于gemini是多模态的，我们还可以让它对上面的数据表格做进一步的深入操作，例如更新图表：

对于学生党来说，gemini现在也可以成为非常得力的学习助手。

例如“喂”给gemini一张手写物理题，它不仅能看懂，而且还可以辨别手写答案的对错。

在此基础上，若是选择一个错误的题目，我们还可以跟gemini通过自然语言沟通，让它对每一个细节步骤进行详解。

在看图像做理解和推理方面，谷歌还亮出了更多有意思的案例。

例如替换图片素材的组合方式，gemini就能像人一样精准猜中所指的电影名字：

就连下面这种高难度的也能hold住：

再如寻找两张图片的相似之处：

更有意思的是，谷歌还特意用中文做了个demo，来展示gemini对多张图片的组合理解能力：

那么接下来的问题就是：gemini是如何做到的？

60页报告透露技术细节

谷歌gemini背后技术的杀手锏，便是原生多模态（natively multimodal）。

因为以往创建多模态大模型的方法，通常是为不同的模态训练单独的组件，然后将它们拼接在一起，大致模拟其中的一些功能。

这样训练出来的模型虽然有时可以很好地执行某些任务（比如描述图像），但在面对更具概念性和复杂推理的情况下，就会出现表现不佳的结果。

而谷歌gemini所强调的原生多模态，是指从一开始就对不同的模态进行预训练，然后用额外的多模态数据对其进行微调，以此来进一步完善大模型的有效性。

谷歌对此表示：

这样的训练方法，有助于gemini从头开始无缝地理解和推理各种输入，远远优于现有的多模态模型；而且它的功能在几乎每个领域都是最先进的。

具体到模型架构方面，gemini基于增强的transformer decoder打造，采用了高效attention机制（如multi-query attention），支持32k上下文长度。

尽管没有透露ultra和pro版本的具体参数规模，但技术报告中提到，谷歌使用tpuv5e和tpuv4来训练gemini。

训练gemini ultra使用了跨多个数据中心的大量tpuv4。这意味着与谷歌此前的主力大模型palm-2相比，gemini在规模上显著增大。

此前，palm-2被曝参数规模为3400亿。

gemini pro实装上线

竞争对手那边，openai的gpts惊艳全世界，微软的copilot更是先一步渗透进全线产品。

因此gemini一出，谷歌也当即强调：gemini将通过谷歌产品推向数十亿用户。

率先上线的是gemini pro。从今天起，谷歌的聊天机器人bard将由gemini pro微调版本驱动。谷歌表示：

这是bard自推出以来的最大升级。

谷歌还打算把gemini引入手机：pixel 8 pro将是第一款运行gemini nano的智能手机。

另外，谷歌计划在接下来几个月中，将gemini全面推向搜索、广告、chrome和duet ai等产品线。

根据官方数据，gemini能使用户的搜索生成体验（sge）速度更快、质量更高，比如在美国使用英语搜索延迟能减少40%。

值得关注还有，就在gemini正式亮相的同时，谷歌还推出了专为大模型而设计的新一代tpu——cloud tpu v5p。

那么，你觉得这一波，谷歌能赶上openai的脚步吗？

参考链接：
[1]https://blog.google/technology/ai/google-gemini-ai
[2]https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
[3]https://youtu.be/jv1vkhv4zq8?si=jjaw0uv0dkpp3evt

责任编辑：朴琳清_nbjs24703

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

notice: the content above (including the pictures and videos if any) is uploaded and posted by a user of netease hao, which is a social media platform and only provides information storage services.

/

/

突发！谷歌发布史上最强大模型gemini，打爆gpt-欧洲杯足彩官网

谷歌上线gemini 据称碾压gpt-4

谷歌史上最强大模型gemini

60页报告透露技术细节

gemini pro实装上线

万众期待的gemini大模型：比gpt-4强，但强的不多？

李金柱被开除党籍：其任内占用土地违建超4000亩球场

李金柱被开除党籍：其任内占用土地违建超4000亩球场

独行侠新老板:那个"操控世界"的犹太人

不叫"朱丽倩"!刘德华首次纠正太太名字

中植后还有多少"富人收割机"在暴雷路上

预售50万起/轴距超3米 问界m9预计12月26日上市

态度原创

没点大病，别去泰国鬼楼

她可能是内娱争议最大的女明星？

央企项目率先开卷！三亚安居房，价格首次低破一万元/㎡！

怎么不行？老师把一当红明星带进课堂引争议，家长怒了

带着纳糖跟山口堂弟一家见面，高高兴兴出去玩，喜娜跟哥哥亲近

预售50万起/轴距超3米问界m9预计12月26日上市