Deepseek並沒有使用 Transformer 架構？

2025年12月02日 · 作者: alexbeebie · 專欄: 當下科技

這絕對是誤解，DeepSeek 仍然 100% 基於 Transformer 架構，行內所說的 DeepSeek 的「架構創新」是指他們修改了 Transformer 的內部元件，而不是取代了 Transformer 本身。

Deepseek的核心仍是 Transformer，與 GPT-4、Claude、LLaMA 和 Gemini 一樣，DeepSeek 模型（V2、V3、R1）都是僅包含解碼器的 Transformer，它仍然依賴谷歌在 2017 年引入的基本機制：「注意力機制」（自註意力）和前饋網路。

然而，DeepSeek 雖保留了 Transformer 的「骨架」，但對其「肌肉」和「器官」進行了修改，使其效率更高。

想像一下，Transformer 架構就像一輛車（四個輪子、引擎、方向盤），GPT-4 / LLaMA 就像一輛巨大的 V8 引擎油老虎，它動力強勁，但重量很重，而且油耗很高。DeepSeek 並沒有發明直升機（直升機的架構與汽車完全不同，例如 Mamba 或 RWKV），它打造的是一輛混合動力賽車，仍是一輛汽車（基於 Transformer 架構），但他們重新設計了燃油噴射系統（MLA）和引擎管理系統（MoE），使其速度不變，但油耗降低了 90%。

那為什麼堅持使用 Transformer 架構呢？Transformer 架構是目前唯一被證明能夠可靠「擴展」的架構。隨著數據和計算量的增加，它會變得越來越聰明。其他非 Transformer 架構（例如 RNN、SSM 或 Mamba）尚未證明它們能夠在 6,710 億參數的大規模場景下超越 Transformer 架構。

簡言之，DeepSeek 是一個 Transformer，但它是 Transformer 的一個高度最佳化的變異版本。

0 likes

留言 (0)

還沒有留言，成為第一個留言的人吧！

發表留言

您必須登入才能留言。還沒有帳號？立即註冊

NEWSALLAMA
網誌

Deepseek並沒有使用 Transformer 架構？

推薦文章

茅莓膏 - 清熱、潤肺、化痰止咳，更對急慢性肝炎患者有輔助療效 - Mark哥醫師

「一滴入魂的酸香」下篇 - 認識酿造醋的品質秘密

日本人給我上的純樸之課

留言 (0)

發表留言

NEWSALLAMA 網誌

Deepseek並沒有使用 Transformer 架構？

分享此文章:

推薦文章

茅莓膏 - 清熱、潤肺、化痰止咳，更對急慢性肝炎患者有輔助療效 - Mark哥醫師

「一滴入魂的酸香」下篇 - 認識酿造醋的品質秘密

日本人給我上的純樸之課

留言 (0)

發表留言

NEWSALLAMA
網誌