新浪财经

引蜘蛛软件

滚动播报 2026-04-24 16:59:46

(来源:上观新闻)

事情是这样的👱,小米发布MiM🔋o-V2-P🐷🆘ro的🇲🇨时候,我曾👲写过一篇文🗂章,叫《在大模型🇬🇺这件事上,雷军♍居然给马斯克🧝‍♀️🛂打样了》,在该文🚛的最后一🏌️‍♀️🤦‍♂️部分对👺🥡小米提出质🇦🇮疑🇹🇹。这一轮废旧手机🕑🙇‍♀️回收价的暴涨暴跌🐚🍋,根源在于上游存🔸🛑储芯片👩‍🔧市场的波🥕动🦈🎒。

把这些跑分放在3️⃣一起看,会🙈🌅发现这次模型的评🕜价标准正🏩🥵在发生变化:过🇿🇼去我们常用📐MMLU🥤🌓、GPQA这样📊🧻的指标看🥮🇸🇴模型的知识和推👭🖼理能力,🌗但现在更侧重于⚓🍮GDPval、☎🐋OSWor🤟👓ld这类“🧦🎈任务级评🐺估”🐹。每篇文💇‍♂️🌒章的诊断报告🌫📸也非常全面,不仅📓告诉你好的地方在💵💊哪,还有不太🚰好的数据背后🈚的原因是什👩‍🔬🌞么,以及可以改👩‍🦳🕚进的地方🈯😎是什么🚷。

还有六🐿边形小球滚动,📙🍩可以看模型的🇳🇦🎦物理理解🚨🈷。一个模型如果只👐看几段文🇩🇴🏋️‍♀️字,回答🕥🏥问题并不难🌦;但如果让它👩‍🍳⚒看完整代🥫🇰🇬码仓库、几十份🇳🇨合同、几🇷🇸⬜个月会🔵议记录🌑,再持续生成、♒检索、改🇪🇸代码、调用工👱‍♀️具,这个事情的难🇭🇳😢度会指数级增加🌔🌧。首程控↕⚡股投资董事许彪🇹🇨认为,目🕜前具身智🧱🇵🇭能大致相当🎛🇧🇾于大语言模🎗型GPT-🏜1到GPT🈶-2之间✌的水平,技👸➖术路径尚未😆◾收敛,🍒🇲🇶距离真正🚏的AGI还有相当😙💉长的周期🤲。