新未名空间

此帖转自 goodegg 在军事天地（Military）的帖子：冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂

deepseek一开源
谷歌就突破
之前Gemini被OpenAI压的死死的
连能做reasoning的模型都没有搞出来

冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂

2025年02月06日

Jeff Dean：一次生成就能出正确代码。

在 DeepSeek 的强烈攻势下，这次轮到谷歌坐不住了。

本周三，该公司全面发布 Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite 以及新一代旗舰大模型 Gemini 2.0 Pro 实验版本，并且还在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking。

图片

下图为三个模型在通用、代码、推理、事实性、多语言、数学、长上下文、图像、音频和视频等多领域任务中的性能指标。

图片

在大模型排行榜上，Gemini 2.0-Pro 在 Chatbot Arena 所有类别中排名第一。Pro 版在代码等复杂任务上表现突出，Gemini Advanced 用户目前已经可以在 App 上进行试用了。

有免费的么？

goodegg 写了： 2025年 2月 6日 02:51 此帖转自 goodegg 在军事天地（Military）的帖子：冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂

deepseek一开源
谷歌就突破
之前Gemini被OpenAI压的死死的
连能做reasoning的模型都没有搞出来

冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂

2025年02月06日

Jeff Dean：一次生成就能出正确代码。

在 DeepSeek 的强烈攻势下，这次轮到谷歌坐不住了。

本周三，该公司全面发布 Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite 以及新一代旗舰大模型 Gemini 2.0 Pro 实验版本，并且还在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking。

图片

下图为三个模型在通用、代码、推理、事实性、多语言、数学、长上下文、图像、音频和视频等多领域任务中的性能指标。

图片

在大模型排行榜上，Gemini 2.0-Pro 在 Chatbot Arena 所有类别中排名第一。Pro 版在代码等复杂任务上表现突出，Gemini Advanced 用户目前已经可以在 App 上进行试用了。

据说没通过草莓测试：

ds反复验证后回答3 结果还被不明真相的朝阳群众嘲笑说这么简单的问题还想那么久

我说再提示它一下吧。问“哪两个是r”。它还是错。

完了。它开始瞎猜了。

新未名空间

（转载）冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂

#1 （转载）冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂

#2 Re: （转载）冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂

#3 Re: （转载）冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂

#4 Re: （转载）冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂

#5 Re: （转载）冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂

#6 Re: （转载）冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂

#7 Re: （转载）冲击DeepSeek R1，谷歌发布新一代Gemini全型号刷榜，编程、物理模拟能力炸裂