泛

滚动播报 2026-04-24 22:55:07

（来源：上观新闻）

两家国产芯片厂🧟‍♀️商在模型📎🚝发布首日就拿出了🚾完整的🇲🇿💧推理部🔲📁署方案，🇳🇴🦵这个响应速度本身🍖🔴就说明🇨🇨❔，适配工作不是🇻🇮📌临时赶出🏦来的，而🥜🧨是跟模型研🧰🦸‍♂️发深度咬合了很长🍯时间⌚📤。

华为给🗞出了一组具体💑⚰的性能🦄数据：基💛🏘于昇腾9🍶50超节点，🕒V4-Pr🇨🇴o在8🚍👂K输入场景下实现🧖‍♀️了约20🥜ms的✂📎单token解码👩‍🍳时延，单卡🇹🇭吞吐4700🥄🇸🇸 TP🤟🤩S；V4-Fl🚺ash可以🚋做到约💩10ms时🏴󠁧󠁢󠁷󠁬󠁳󠁿延，单🇵🇹卡吞吐1🕵️‍♀️600 ⤵😔TPS🍑😹。

晚点：这😢种做法以往有两个🌄🤒难点：一是🙀 VLM 需要大😩量数据🚶‍♀️，而机器📗🛅人数据相对🤫有限；二是训练🍐多模态基模的成🤕🍩本很高，🧛‍♂️🧛‍♂️以往只有🗜😯大公司🧦和大模型公司有算😡力、人才投💨入 VLM📔 预训练🇫🇴🦒。背后的约束并非定🇱🇹价策略，而🧞‍♂️是算力🥔🏬供给——Pro版🚣‍♀️🍙的高性能推理对💗芯片资源要求更🏦👩‍✈️高，当前服务吞🇬🇮🧡吐十分有限🏭。