DeepSeek-R1大战豆包、Kimi,国产AI大模型第一花落谁家?

与此前限定范围的测试不同,写武侠小说虽有大纲限制,但可发挥空间极大,各大AI大模型之间的差距和风格也会表现出较为明显的差异。

本轮测试中,豆包和Kimi在撰写时,分别为其取名为《剑影风云录》和《龙影霜华录》,与古龙大多数小说的取名风格并不相符,反而更像梁羽生的习惯。DeepSeek-R1、文心一言并未为小说取名,通义千问则是简单地命名为《华山之巅》。

QQ20250206-175021.png

(图源:豆包截图)

内容方面,通义千问依然是倒数,缺乏细节描写和转折,小雷未提到的人名或帮派名称,通义千问也没有主动加入任何一个。Kimi生成的内容质量更好一些,细节较为丰富,对于大纲的理解也更加到位,但与通义千问相同,仅仅是在大纲原定的人物着笔。

DeepSeek-R1、文心一言、豆包生成的内容质量更好,人物、招式、门派名称齐全,且剧情存在不少转折,还主动丰富了细节。例如DeepSeek-R1撰写的小说中,两位主人公原本是好朋友,因女人反目成仇,为续写埋下了伏笔;文心一言生成的内容中,叶飞霜在战斗中差点走火入魔,得到师兄相助才反败为胜;豆包则主动续写了一段内容,加入了叶飞霜功成名就后,被身边挚友背叛的情节。

QQ20250206-175123.png

(图源:DeepSeek截图)

遗憾的是,文心一言生成的内容忽视了大纲中的六扇门,将故事完全写成了江湖恩怨,豆包续写的内容反派刻画太少,导致小雷对其的评分稍微降低了一些。

这一轮测试DeepSeek-R1的表现依然远远领先其他AI大模型,但并不是其他几款AI大模型表现不好,文心一言和豆包的表现已经超过了小雷的预期,只是DeepSeek-R1的表现太好了,有情感纠葛、剧情转折,尤其是结尾部分的内容,颇有古龙遗风。

现阶段AI大模型写小说依然会有些吃力,需要用户尽可能将大纲细化。小雷匆忙想出的大纲过于笼统,或许是通义千问和Kimi表现不好的原因之一。

数学推理:AI大模型永远的痛

2024年苹果工程师曾发表了一篇论文,吐槽AI大模型并没有真实的数学推理能力,AI企业的宣传存在夸大成分。随后,各大AI企业纷纷以“复杂推理”为噱头,陆续推出了全新的大模型版本。然而数月时间过去,AI大模型真的具备推理能力了吗?

本轮测试小雷选择的数学题是2024年高考一卷第十四题,具体内容为:

甲、乙两人各有四张卡片,每张卡片上标有一个数字,甲的卡片上分别标有数字1,3,5,7,乙的卡片上分别标有数字2,4,6,8,两人进行四轮比赛,在每轮比赛中,两人各自从自己持有的卡片中随机选一张,并比较所选卡片上数字的大小,数字大的人得1分,数字小的人得0分,然后各自弃置此轮所选的卡片弃置的卡片在此后轮次中不能使用则四轮比赛后,甲的总得分不小于2的概率为?(正确答案:1/2)

站在人类的角度上,这道题的难度其实并不高,哪怕将每一种可能全部列出来再计算,所需的时间也不会特别多。然而在AI大模型眼中,这道题却是难上了天,DeepSeek-R1、豆包给出的答案都是17/24,Kimi、文心一言、通义千问给出的答案分别是1971/4096、243/256、551/576,居然再一次全部阵亡。

QQ20250206-181338.png

(图源:DeepSeek截图)

随后小雷又用OpenAI的o1、o3mini、GPT-4o三款大模型进行了计算,这三款大模型都算出了正确答案,但细节上也存在一些问题,如o1模型输出内容时出现了2=1/2,但不影响其计算出了正确答案。该情况表明,在数学推理方面,DeepSeek-R1与OpenAI旗下的大模型可能还有一定的差距。

微信图片_20250206181549.jpg

(图源:o1大模型截图)

最有趣的不是这些离谱的答案,而是AI大模型的推理过程,DeepSeek-R1和Kimi-k1.5会不断打断自己的思考过程,选择新的方案。数学推理依然是当前AI大模型难以攻克的关隘,前两项测试领先其他国产AI大模型的DeepSeek-R1,也在本轮测试中未能拉开差距。

盛名之下无虚士,DeepSeek的荣耀实至名归

2024年12月,DeepSeek-V3大模型刚上线之时,小雷便对其进行了测试。当时小雷的评价是,DeepSeek-V3在内容总结、文字生成方面能够媲美豆包、Kimi,但功能丰富性远不及其他AI智能体。

仅一个多月时间过去,基于V3大模型调整的R1大模型就实现了质的飞跃,在内容总结、文字生成方面相较赫赫有名的豆包、Kimi、文心一言、通义千问等AI大模型居然领先不少。当然,数学推理方面大家还是一样地“菜”,OpenAI仍处于领先地位。

DeepSeek-R1仅仅做到能力强,无法造成这么大的影响,最关键的是其训练成本大约只有600万美元,远低于GPT-4,预计只有GPT-5的1/200甚至更低。

过去我们的认知中,提升AI大模型的行业需要堆算力、买数据,AI企业也确实在这样做,如小米要建万卡集群、字节跳动计划在2025年投入400亿元购买AI算力芯片。Macquarie分析师质疑DeepSeek隐瞒了开发成本,经过他们的计算,R1大模型的训练成本应该在26亿美元左右。

DeepSeek却告诉我们,只需要数百万美元,折合人民币不到9位数,就能训练出媲美OpenAI o1大模型的产品。因DeepSeek-R1的冲击,最近一段时间全球算力芯片主要提供者NVIDIA股价一路狂跌,近两天虽有所回暖,但依然未能回到巅峰时期。

借助DeepSeek-R1的卓越表现,DeepSeek瞬间成为了AI行业的香饽饽,与各行各业巨头达成合作,甚至在工业AI领域实力超群的华为,也让小艺接入了DeepSeek-R1。因用户数量太多,近期DeepSeek官网频频出现服务器繁忙,API调用充值入口也因人数太多被关闭。

DeepSeek-R1训练和推理成本虽低,可大量用户涌入,DeepSeek当前拥有的算力,已无法满足用户的需求。中国企业最擅长的就是从1到正无穷,DeepSeek指明了道路,其他AI企业将快速跟上。DeepSeek若想留住这波流量,增加算力规模、提高用户体验迫在眉睫。