<label id="i4mai"><p id="i4mai"><tfoot id="i4mai"></tfoot></p></label>

<label id="i4mai"></label>
<kbd id="i4mai"><sub id="i4mai"><delect id="i4mai"></delect></sub></kbd>

番茄系統(tǒng)家園 - 免費(fèi)重裝系統(tǒng)！簡(jiǎn)單裝系統(tǒng)，人人都是裝機(jī)大師！

純凈版|穩(wěn)定版|旗艦版|專業(yè)版|企業(yè)版|家庭版|

首頁(yè)Win11系統(tǒng)Win10系統(tǒng)Win7系統(tǒng)WinXP系統(tǒng)軟件下載番茄一鍵裝機(jī)

系統(tǒng)文章

當(dāng)前位置：首頁(yè)>系統(tǒng)資訊 > DeepSeek/o3的弱點(diǎn)找到了！三心二意明明對(duì)了又改錯(cuò)了

DeepSeek/o3的弱點(diǎn)找到了！三心二意明明對(duì)了又改錯(cuò)了

來(lái)源：番茄系統(tǒng)家園瀏覽：時(shí)間：2025-02-04 19:50:30

最近 DeepSeek 和 o1/o3 这些超级智能的大模型不断给我们带来惊喜，不过也有人开始琢磨它们的弱点啦！

最新研究揭示：

在遇到高难度问题时，推理大模型可能像“三心二意的学生”一样频繁切换解题思路，却因缺乏深入探索而失败——这种现象被研究者称为Underthinking（欠思考）。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

研究团队来自腾讯AI实验室、苏州大学和上海交通大学，主要研究对象是开源的DeepSeek-R1和Qwen QwQ系列模型。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

通过分析AI的错误答案，他们发现当前的推理大模型经常在思考早期就走上了正确的路线，但倾向于“浅尝辄止”，很快开始探索别的思路，导致后续生成的数千个tokens对解题毫无贡献。

这种“无效努力”不仅浪费计算资源，还显著降低了答案的正确率。

“三心二意”是罪魁祸首

这一现象在解决数学竞赛题等更为复杂任务时尤为明显。

为了系统分析，团队在三个具有挑战性的测试集MATH500、GPQA Diamond和AIME2024上，对类o1模型QwQ-32B-Preview、DeepSeek-R1-671B等进行了实验。

下图比较了正确和错误回答中的token使用量和思维切换次数。平均来看，类o1模型在错误回答中比正确回答多消耗了225%的token，原因是思维切换频率增加了418%。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

为了深入分析这一现象，研究团队开发了一套评估框架，用于判断被放弃的推理路径是否实际上足以推导出正确答案。

结果观察到，许多模型在回答开头阶段的思路是正确的，但并未继续深入完成推理。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

超过70%的错误回答中至少包含一个正确的思路。此外，在超过50%的错误回答中，有10%以上的思路是正确的。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

如下图所示的例子，例如，Thought 1通过识别给定方程类似于以(0,0)和(20,11)为中心的椭圆方程，启动了正确的解释。

将两个表达式设为相等，是寻找满足这两个方程的公共点(x, y)的有效方法。

然而，模型并未专注于深入探索这一合理思路，使用进一步的代数操作和优化技术进行分析，而是频繁切换思路，额外消耗了约7270个token，却依然未能得出正确答案。

最终，它得出一个缺乏扩展COT过程支持的猜测答案。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

基于这些观察，研究人员提出了一个用于量化Underthinking程度的指标（Underthinking Metric）。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

这个指标通过测量错误答案中的token使用效率来评估推理效率，计算从回答开始到第一个正确思路出现所需的token数量与总token数量的比值。

实验结果表明，所有测试的类o1模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。

在MATH500-Hard和GPQA Diamond数据集上，性能更优的DeepSeek-R1-671B模型在取得更高准确率的同时，其UT得分也更高，表明错误回答中存在更多思维不足。

这意味着，尽管模型整体能力更强，但在不确定时可能生成更长但效率较低的推理过程，可能是因为模型探索了多个错误的推理路径，却未能有效收敛到正确解答。

相反，在AIME2024测试集中，DeepSeek-R1-671B模型不仅取得了更高的准确率，还表现出较低的UT得分，反映出较少的思维不足和更高的token效率。

这表明模型在该任务中，即使未得出正确答案，其推理过程依然保持专注和高效，团队表示这可能是因为模型与 AIME2024所要求的问题类型和推理过程更好地对齐。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

理解思维不足现象对于开发能够提供正确答案并具备有效推理过程的模型至关重要。

如何让AI学会“一心一意”

如何让模型像优秀学生一样“沉下心来钻研”？

研究者借鉴了人类考试策略，提出了一种“思路切换惩罚机制” （Thought Switching Penalty，TIP）。

其原理类似于考试时给自己定规矩：“先专注当前方法，至少尝试10分钟再换思路。”

技术细节上，TIP会对触发思路切换的关键词施加惩罚，降低这些词在解码过程中的生成概率，迫使模型在当前路径上探索更久。

例如，当模型开始写“Alternatively, we can consider…”时，TIP会通过调整参数（惩罚强度α和持续时间β），抑制这种过早的切换倾向。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

实验结果显示，加入TIP能让模型在数学测试上的准确率上升，同时UT Score下降，说明既减少了无效切换，又提高了答案质量。

例如在AIME2024数学竞赛测试上，加入TIP的QwQ-32B-Preview模型准确率从41.7%提升至45.8%，同时UT Score从72.4降至68.2。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

并且这种“无痛升级”无需重新训练模型，仅需调整解码策略，展现了其实用价值。

One More Thing

UC Berkeley教授Alex Dimakis几乎同时分享了类似的观察，

对于DeepSeek-R1和所有推理模型，错误的答案更长，而正确的答案要短得多。

基于此，他们提出一个简单的解决办法，称为“简洁解码” （Laconic decoding）。

并行运行5次模型，从答案中选择tokens最少的。

初步实验结果表示，简洁解码在AIME2024测试上能提高6%-7%的准确率，比Consensus Decoding更好也更快。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

论文地址：https://arxiv.org/abs/2501.18585

参考链接：

[1]https://x.com/tuzhaopeng/status/1885179412163027406

[2]https://x.com/AlexGDimakis/status/1885447830120362099

责任编辑：上方文Q

文章内容举报

推薦系統(tǒng)

雨林木風(fēng) winxp下載純凈版永久激活 winxp ghost系統(tǒng) sp3 系統(tǒng)下載
64位
系統(tǒng)大?。?/em>0MB系統(tǒng)類型：WinXP
雨林木風(fēng)在系統(tǒng)方面技術(shù)積累雄厚深耕多年，打造了國(guó)內(nèi)重裝系統(tǒng)行業(yè)知名品牌，雨林木風(fēng)WindowsXP其系統(tǒng)口碑得到許多人認(rèn)可，積累了廣大的用戶群體，是一款穩(wěn)定流暢的系統(tǒng)，雨林木風(fēng) winxp下載純凈版永久激活 winxp ghost系統(tǒng) sp3 系統(tǒng)下載，有需要的朋友速度下載吧。
系統(tǒng)等級(jí)：
進(jìn)入下載 >
蘿卜家園win7純凈版 ghost系統(tǒng)下載 x64 聯(lián)想電腦專用
64位
系統(tǒng)大?。?/em>0MB系統(tǒng)類型：Win7
蘿卜家園win7純凈版是款非常純凈的win7系統(tǒng)，此版本優(yōu)化更新了大量的驅(qū)動(dòng)，幫助用戶們進(jìn)行舒適的使用，更加的適合家庭辦公的使用，方便用戶，有需要的用戶們快來(lái)下載安裝吧。
系統(tǒng)等級(jí)：
進(jìn)入下載 >
雨林木風(fēng)xp系統(tǒng) xp系統(tǒng)純凈版 winXP ghost xp sp3 純凈版系統(tǒng)下載
64位
系統(tǒng)大?。?/em>1.01GB系統(tǒng)類型：WinXP
雨林木風(fēng)xp系統(tǒng) xp系統(tǒng)純凈版 winXP ghost xp sp3 純凈版系統(tǒng)下載，雨林木風(fēng)WinXP系統(tǒng)技術(shù)積累雄厚深耕多年，采用了新的系統(tǒng)功能和硬件驅(qū)動(dòng)，可以更好的發(fā)揮系統(tǒng)的性能，優(yōu)化了系統(tǒng)、驅(qū)動(dòng)對(duì)硬件的加速，加固了系統(tǒng)安全策略，運(yùn)行環(huán)境安全可靠穩(wěn)定。
系統(tǒng)等級(jí)：
進(jìn)入下載 >
蘿卜家園win10企業(yè)版免激活密鑰激活工具 V2023 X64位系統(tǒng)下載
64位
系統(tǒng)大?。?/em>0MB系統(tǒng)類型：Win10
蘿卜家園在系統(tǒng)方面技術(shù)積累雄厚深耕多年，打造了國(guó)內(nèi)重裝系統(tǒng)行業(yè)的蘿卜家園品牌，(win10企業(yè)版,win10 ghost,win10鏡像),蘿卜家園win10企業(yè)版免激活密鑰激活工具 ghost鏡像 X64位系統(tǒng)下載,其系統(tǒng)口碑得到許多人認(rèn)可，積累了廣大的用戶群體，蘿卜家園win10純凈版是一款穩(wěn)定流暢的系統(tǒng),一直以來(lái)都以用戶為中心，是由蘿卜家園win10團(tuán)隊(duì)推出的蘿卜家園
系統(tǒng)等級(jí)：
進(jìn)入下載 >
蘿卜家園windows10游戲版 win10游戲?qū)I(yè)版 V2023 X64位系統(tǒng)下載
64位
系統(tǒng)大?。?/em>0MB系統(tǒng)類型：Win10
蘿卜家園windows10游戲版 win10游戲?qū)I(yè)版 ghost X64位系統(tǒng)下載，蘿卜家園在系統(tǒng)方面技術(shù)積累雄厚深耕多年，打造了國(guó)內(nèi)重裝系統(tǒng)行業(yè)的蘿卜家園品牌，其系統(tǒng)口碑得到許多人認(rèn)可，積累了廣大的用戶群體，蘿卜家園win10純凈版是一款穩(wěn)定流暢的系統(tǒng),一直以來(lái)都以用戶為中心，是由蘿卜家園win10團(tuán)隊(duì)推出的蘿卜家園win10國(guó)內(nèi)鏡像版，基于國(guó)內(nèi)用戶的習(xí)慣，做
系統(tǒng)等級(jí)：
進(jìn)入下載 >
windows11下載蘿卜家園win11專業(yè)版 X64位 V2023官網(wǎng)下載
64位
系統(tǒng)大小：0MB系統(tǒng)類型：Win11
蘿卜家園在系統(tǒng)方面技術(shù)積累雄厚深耕多年，windows11下載蘿卜家園win11專業(yè)版 X64位官網(wǎng)正式版可以更好的發(fā)揮系統(tǒng)的性能，優(yōu)化了系統(tǒng)、驅(qū)動(dòng)對(duì)硬件的加速，使得軟件在WINDOWS11系統(tǒng)中運(yùn)行得更加流暢，加固了系統(tǒng)安全策略，WINDOWS11系統(tǒng)在家用辦公上跑分表現(xiàn)都是非常優(yōu)秀，完美的兼容各種硬件和軟件，運(yùn)行環(huán)境安全可靠穩(wěn)定。
系統(tǒng)等級(jí)：
進(jìn)入下載 >

相關(guān)文章

熱門(mén)系統(tǒng)

1微軟最新版win10 LTSC X64位純凈版系統(tǒng) windows10 LTSC 系統(tǒng)下載
系統(tǒng)大?。?/span>4.4GB
系統(tǒng)類型：Win10
2雨林木風(fēng)Win11游戲版系統(tǒng)下載 windows11 64位游戲?qū)Ｓ冒姹綱2021
系統(tǒng)大?。?/span>4.38GB
系統(tǒng)類型：Win11
3微軟Win11系統(tǒng) 64位正式版Ghost Windows11鏡像 2022.05
系統(tǒng)大?。?/span>4.55GB
系統(tǒng)類型：Win11
4深度技術(shù) Windows7 純凈版64位下載 v2021.09
系統(tǒng)大?。?/span>3.9GB
系統(tǒng)類型：Win7
5大地系統(tǒng) Win11精簡(jiǎn)穩(wěn)定版 GHOST鏡像 X64位 V2022.06下載
系統(tǒng)大?。?/span>4.7GB
系統(tǒng)類型：Win11

推薦軟件

推薦應(yīng)用

推薦游戲

熱門(mén)文章

常用系統(tǒng)

1蘿卜家園 Ghost Win10X64位 22H2 專業(yè)移安版
系統(tǒng)大?。?/span>0MB
系統(tǒng)類型：Win10
2winxp ghost 雨林木風(fēng)winxp 穩(wěn)定版 ISO系統(tǒng)下載無(wú)需激活密鑰永久激活
系統(tǒng)大?。?/span>1.01GB
系統(tǒng)類型：WinXP
3深度技術(shù) Windows10 64位專業(yè)精簡(jiǎn)版 V2024
系統(tǒng)大小：0MB
系統(tǒng)類型：Win7、Win8、Win10、Win11、WinXP、win12
4番茄花園win7娛樂(lè)版 64位簡(jiǎn)體中文版免密鑰官網(wǎng)鏡像下載
系統(tǒng)大?。?/span>4.48GB
系統(tǒng)類型：Win7
5深度技術(shù)WINDOWS10純凈版系統(tǒng)21H2 X64位 V2022.04下載
系統(tǒng)大?。?/span>4.75GB
系統(tǒng)類型：Win10
6番茄花園win10純凈版智能安裝版下載 GHOST鏡像 64位永久免費(fèi)下載
系統(tǒng)大?。?/span>0MB
系統(tǒng)類型：Win10
7Windows11新電腦加強(qiáng)版下載系統(tǒng)之家旗艦版 x64位免激活下載 v2023
系統(tǒng)大?。?/span>0MB
系統(tǒng)類型：Win11
8Win10免激活純凈版番茄花園Windows7下載 x64位ghost系統(tǒng) 免激活工具
系統(tǒng)大小：5.22GB
系統(tǒng)類型：Win10
9番茄花園win7純凈版簡(jiǎn)體中文 64位系統(tǒng)下載免激活工具
系統(tǒng)大?。?/span>4.48GB
系統(tǒng)類型：Win7

遼ICP備2021005367號(hào)-11 Copyright ? 2021-2026 番茄系統(tǒng)家園 m.zpim.cn 郵箱：613650621@qq.com
本站發(fā)布的軟件(Windows11/windows10/Windows7)來(lái)源于網(wǎng)絡(luò)僅為個(gè)人學(xué)習(xí)測(cè)試使用，請(qǐng)?jiān)谙螺d后24小時(shí)內(nèi)刪除，不得用于任何商業(yè)用途，否則后果自負(fù)，請(qǐng)支持購(gòu)買(mǎi)正版軟件！如侵犯到您的權(quán)益,請(qǐng)及時(shí)通知我們，我們會(huì)及時(shí)處理。

感谢您访问我们的网站，您可能还对以下资源感兴趣：
337p欧洲日本亚洲人