腾讯元宝领衔DeepSeek-R1搜索测评,谁将紧随其后?

   时间:2025-03-11 19:31 来源:ITBEAR作者:唐云泽

近日,SuperCLUE中文大模型测评基准发布了最新的测评报告,该报告针对接入了DeepSeek-R1技术的10家第三方平台进行了全面的联网搜索能力评估。此次测评不仅涵盖了文化生活、经济生活、实时新闻等基础检索内容,还深入考察了各平台在推理计算、分析排序、数据检索与分析等分析推理能力上的表现。

测评结果显示,各平台在整体表现上呈现出较大的差异。其中,腾讯元宝凭借出色的综合实力脱颖而出,成为了此次测评的佼佼者。在总榜单上,腾讯元宝不仅独占鳌头,还在分析推理能力榜单上位居首位,展现了其强大的联网搜索和分析推理能力。

紧随腾讯元宝之后的是阶跃AI和支付宝百宝箱,它们分别位列总榜单的第二和第三位。百度AI搜索和天工AI(高级模式)则以并列第四名的成绩紧随其后,而飞书知识问答和秘塔AI搜索(深入模式)则并列第五。这些平台在测评中均展现出了不俗的实力,但相较于腾讯元宝仍存在一定的差距。

在基础检索能力方面,腾讯元宝、阶跃AI和百度AI搜索均达到了100%的准确率,这一成绩无疑是对它们搜索技术精准度的肯定。然而,在分析推理能力这一更为复杂的测评维度上,仅有腾讯元宝、天工AI、支付宝百宝箱和阶跃AI得分超过了40分,显示出这一领域对于技术实力的更高要求。

报告还指出,各平台在平均耗时方面同样存在显著差异。从最少的字节火山引擎(每题耗时17.12秒)到最多的MiniMax(每题耗时73.51秒),不同平台之间的搜索效率差距显著。这一差异不仅体现在总平均耗时上,还体现在不同任务上的平均耗时差异上。整体来看,各平台的耗时分布范围较广,搜索效率差异明显。

所有平台在分析推理能力上的平均耗时都明显高于基础检索能力。这进一步说明,分析推理能力相较于基础检索能力来说更为复杂和耗时,需要平台具备更强的技术实力和算法优化能力。

 
 
更多>同类内容
推荐图文
推荐内容
点击排行
 
智快科技微信账号
ITBear微信账号

微信扫一扫
加微信拉群
电动汽车群
科技数码群