久久久www成人免费无遮挡大片,欧美日韩亚洲高清一区二区,色999日韩国产欧美一区二区

訓(xùn)練、推理性價(jià)比創(chuàng)新高。

大語言模型（LLM），正在進(jìn)入 Next Level。

周五凌晨，阿里通義團(tuán)隊(duì)正式發(fā)布、開源了下一代基礎(chǔ)模型架構(gòu) Qwen3-Next。總參數(shù) 80B 的模型僅激活 3B ，性能就可媲美千問 3 旗艦版 235B 模型，也超越了 Gemini-2.5-Flash-Thinking，實(shí)現(xiàn)了模型計(jì)算效率的重大突破。

全新MoE架構(gòu)！阿里開源Qwen3-Next，訓(xùn)練成本直降9成

新模型立即在 Qwen.ai 上線，并上傳了 HuggingFace。

新模型網(wǎng)頁版：https://chat.qwen.ai/
HuggingFace：https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
Kaggle：https://www.kaggle.com/models/qwen-lm/qwen3-next-80b

Qwen3-Next 針對大模型在上下文長度擴(kuò)展（Context Length Scaling）和參數(shù)量擴(kuò)展（Total Parameter Scaling）的未來趨勢而設(shè)計(jì)。通義團(tuán)隊(duì)表示，其模型結(jié)構(gòu)相較 4 月底推出的 Qwen3 的 MoE 模型新增了多種技術(shù)并進(jìn)行了核心改進(jìn)，包括混合注意力機(jī)制、高稀疏度 MoE 結(jié)構(gòu)、一系列提升訓(xùn)練穩(wěn)定性的優(yōu)化，以及提升推理效率的多 token 預(yù)測（MTP）機(jī)制等。

模型結(jié)構(gòu)示意圖：

全新MoE架構(gòu)！阿里開源Qwen3-Next，訓(xùn)練成本直降9成

通義團(tuán)隊(duì)介紹了新架構(gòu)使用的一些機(jī)制。

混合架構(gòu)：Gated DeltaNet + Gated Attention

線性注意力打破了標(biāo)準(zhǔn)注意力的二次復(fù)雜度，在處理長上下文時(shí)有著更高的效率。通義團(tuán)隊(duì)發(fā)現(xiàn)，單純使用線性注意力或標(biāo)準(zhǔn)注意力均存在局限：前者在長序列建模上效率高但召回能力弱，后者計(jì)算開銷大、推理不友好。

通過系統(tǒng)實(shí)驗(yàn)，人們發(fā)現(xiàn) Gated DeltaNet 相比常用的滑動(dòng)窗口注意力（Sliding Window Attention）和 Mamba2 有更強(qiáng)的上下文學(xué)習(xí)（in-context learning）能力，并在 3:1 的混合比例（即 75% 層使用 Gated DeltaNet，25% 層保留標(biāo)準(zhǔn)注意力）下能一致超過超越單一架構(gòu)，實(shí)現(xiàn)性能與效率的雙重優(yōu)化。

在保留的標(biāo)準(zhǔn)注意力中，通義進(jìn)一步引入多項(xiàng)增強(qiáng)設(shè)計(jì)：

（1）沿用先前工作中的輸出門控機(jī)制，緩解注意力中的低秩問題；

（2）將單個(gè)注意力頭維度從 128 擴(kuò)展至 256；

（3）僅對注意力頭前 25% 的位置維度添加旋轉(zhuǎn)位置編碼，提高長度外推效果。

極致稀疏 MoE：僅激活 3.7% 參數(shù)

Qwen3-Next 采用了高稀疏度的 Mixture-of-Experts (MoE) 架構(gòu)，總參數(shù)量達(dá) 80B，每次推理僅激活約 3B 參數(shù)。實(shí)驗(yàn)表明，在使用全局負(fù)載均衡后，當(dāng)激活專家固定時(shí)，持續(xù)增加專家總參數(shù)可帶來訓(xùn)練 loss 的穩(wěn)定下降。

相比 Qwen3 MoE 的 128 個(gè)總專家和 8 個(gè)路由專家，Qwen3-Next 擴(kuò)展到了 512 總專家，10 路由專家與 1 共享專家的組合，在不犧牲效果的前提下最大化資源利用率。

訓(xùn)練穩(wěn)定性友好設(shè)計(jì)

通義團(tuán)隊(duì)發(fā)現(xiàn)，注意力輸出門控機(jī)制能消除注意力池與極大激活等現(xiàn)象，保證模型各部分的數(shù)值穩(wěn)定。Qwen3 采用了 QK-Norm，部分層的 norm weight 值會(huì)出現(xiàn)異常高的情況。為緩解這一現(xiàn)象，進(jìn)一步提高模型的穩(wěn)定性，通義在 Qwen3-Next 中采用了 Zero-Centered RMSNorm，并在此基礎(chǔ)上對 norm weight 施加 weight decay，以避免權(quán)重?zé)o界增長。

通義還在初始化時(shí)歸一化了 MoE router 的參數(shù)，確保每個(gè) expert 在訓(xùn)練早期都能被無偏地選中，減小初始化對實(shí)驗(yàn)結(jié)果的擾動(dòng)。

Multi-Token Prediction

Qwen3-Next 引入原生 Multi-Token Prediction (MTP) 機(jī)制，既得到了 Speculative Decoding 接受率較高的 MTP 模塊，又提升了主干本身的綜合性能。Qwen3-Next 還特別優(yōu)化了 MTP 多步推理性能，通過訓(xùn)練推理一致的多步訓(xùn)練，進(jìn)一步提高了實(shí)用場景下的 Speculative Decoding 接受率。

通義千問大模型負(fù)責(zé)人林俊旸在 X 上分享了新一代模型開發(fā)的細(xì)節(jié)。他表示團(tuán)隊(duì)已經(jīng)在混合模型和線性注意力機(jī)制上進(jìn)行了大約一年的實(shí)驗(yàn)。新的解決方案應(yīng)該足夠穩(wěn)定可靠，能夠應(yīng)對超長上下文。

Gated DeltaNet 加混合是經(jīng)過大量嘗試和錯(cuò)誤才實(shí)現(xiàn)的，而 Gated Attention 的實(shí)現(xiàn)就像是免費(fèi)的午餐，可以獲得額外好處。

全新MoE架構(gòu)！阿里開源Qwen3-Next，訓(xùn)練成本直降9成

得益于創(chuàng)新的混合模型架構(gòu)，Qwen3-Next 在推理效率方面表現(xiàn)出顯著優(yōu)勢。與 Qwen3-32B 相比，Qwen3-Next-80B-A3B 在預(yù)填充（prefill）階段展現(xiàn)出卓越的吞吐能力：在 4k tokens 的上下文長度下，吞吐量接近前者的七倍；當(dāng)上下文長度超過 32k 時(shí)，吞吐提升更是達(dá)到十倍以上。

在解碼（decode）階段，該模型同樣表現(xiàn)優(yōu)異 —— 在 4k 上下文下實(shí)現(xiàn)近四倍的吞吐提升，而在超過 32k 的長上下文場景中，仍能保持十倍以上的吞吐優(yōu)勢。

全新MoE架構(gòu)！阿里開源Qwen3-Next，訓(xùn)練成本直降9成

基于 Qwen3-Next 的模型結(jié)構(gòu)，通義團(tuán)隊(duì)訓(xùn)練了 Qwen3-Next-80B-A3B-Base 模型，該模型擁有 800 億參數(shù)（僅激活 30 億參數(shù)），實(shí)現(xiàn)了與 Qwen3-32B dense 模型相近甚至略好的性能，同時(shí)訓(xùn)練成本（GPU hours) 僅為 Qwen3-32B 的十分之一不到，在 32k 以上的上下文下的推理吞吐則是 Qwen3-32B 的十倍以上，實(shí)現(xiàn)了極致的訓(xùn)練和推理性價(jià)比。

通義團(tuán)隊(duì)開源了 Qwen3-Next-80B-A3B 的指令（Insctruct）模型和推理（Thinking）兩款模型。新模型解決了混合注意力機(jī)制 + 高稀疏度 MoE 架構(gòu)在強(qiáng)化學(xué)習(xí)訓(xùn)練中長期存在的穩(wěn)定性與效率難題，實(shí)現(xiàn)了 RL 訓(xùn)練效率與最終效果的雙重提升。

在編程（LiveCodeBench v6）、人類偏好對齊 (Arena-Hard v2) 以及綜合性能力 (LiveBench) 評測中，Qwen3-Next-Instruct 表現(xiàn)甚至超過了千問的開源旗艦?zāi)Ｐ停⒃诎ㄓ弥R(shí)（SuperGPQA）、數(shù)學(xué)推理（AIME25）等核心測評中全面超越了 SOTA 密集模型 Qwen3-32B；Qwen3-Next-Thinking 則全面超越了 Gemini2.5-Flash-Thinking，在數(shù)學(xué)推理 AIME25 評測中獲得了 87.8 分。而達(dá)到如此高水平的模型性能，僅需激活 Qwen3-Next 總參數(shù) 80B 中的 3B。

全新MoE架構(gòu)！阿里開源Qwen3-Next，訓(xùn)練成本直降9成

目前，Qwen3-Next 模型也已經(jīng)在很多第三方平臺(tái)中上線。

使用新模型在 anycoder 中的 vibe coding 示例：

全新MoE架構(gòu)！阿里開源Qwen3-Next，訓(xùn)練成本直降9成

日韩高清一区_国产亚洲一区二区三区四区_亚洲国产一二三_久热精品视频

全新MoE架構(gòu)！阿里開源Qwen3-Next，訓(xùn)練成本直降9成

電動(dòng)能源更多>>

新車性能更多>>

汽車測評更多>>

車市科技更多>>

每日報(bào)道更多>>

智駕游記更多>>