新浪财经

滚动播报 2026-04-24 22:55:07

(来源:上观新闻)

两家国产芯片厂🧟‍♀️商在模型📎🚝发布首日就拿出了🚾完整的🇲🇿💧推理部🔲📁署方案,🇳🇴🦵这个响应速度本身🍖🔴就说明🇨🇨❔,适配工作不是🇻🇮📌临时赶出🏦来的,而🥜🧨是跟模型研🧰🦸‍♂️发深度咬合了很长🍯时间⌚📤。

华为给🗞出了一组具体💑⚰的性能🦄数据:基💛🏘于昇腾9🍶50超节点,🕒V4-Pr🇨🇴o在8🚍👂K输入场景下实现🧖‍♀️了约20🥜ms的✂📎单token解码👩‍🍳时延,单卡🇹🇭吞吐4700🥄🇸🇸 TP🤟🤩S;V4-Fl🚺ash可以🚋做到约💩10ms时🏴󠁧󠁢󠁷󠁬󠁳󠁿延,单🇵🇹卡吞吐1🕵️‍♀️600 ⤵😔TPS🍑😹。

晚点:这😢种做法以往有两个🌄🤒难点:一是🙀 VLM 需要大😩量数据🚶‍♀️,而机器📗🛅人数据相对🤫有限;二是训练🍐多模态基模的成🤕🍩本很高,🧛‍♂️🧛‍♂️以往只有🗜😯大公司🧦和大模型公司有算😡力、人才投💨入 VLM📔 预训练🇫🇴🦒。背后的约束并非定🇱🇹价策略,而🧞‍♂️是算力🥔🏬供给——Pro版🚣‍♀️🍙的高性能推理对💗芯片资源要求更🏦👩‍✈️高,当前服务吞🇬🇮🧡吐十分有限🏭。