Skip to main content

NEWSALLAMA
網誌

回前頁
大多數現代大型語言模型(LLM)都屬於Transformer架構 - 當下科技

大多數現代大型語言模型(LLM)都屬於Transformer架構

· · 專欄: 當下科技

準確來說,Transformer是架構(引擎設計​​),而LLM是應用(使用該引擎建造的車輛)。

Transformer是一種特定的深度學習架構,由Google研究人員在2017年著名的論文《注意力機制就是一切》(Attention Is All You Need)中提出。它依賴一種名為「自註意力機制」的機制來並行處理資料序列(例如文字),而不是順序處理。

LLM(大型語言模型)是一個通用術語,指的是經過大量文字資料訓練,能夠理解、產生和處理人類語言的AI模型。

Transformer與LLM的關係,你可以想像成「內燃機」與「跑車」之關係。

Transformer 是內燃機,一種特定的技術/設計,你可以用引擎製造汽車、卡車、船或發電機;同樣,你可以使用 Transformer 架構來建立 LLM(語言邏輯模型)、電腦視覺模型或蛋白質折疊模型(例如 AlphaFold)。

LLM 是跑車,是一種專門設計用於高速行駛的產品,大多數現代跑車都使用內燃機;同樣,大多數現代 LLM 都使用 Transformer,但並非所有 Transformer 都是 LLM。

Transformer 是一種 LLM,是錯誤概念,混淆的產生是因為如今幾乎所有著名的 LLM 都是基於 Transformer 架構建構的。

GPT(生成式預訓練 Transformer)其中的「T」正是 Transformer 的縮寫。

BERT(基於 Transformer 的雙向編碼器表示)也明確地以此命名。

Llama、Claude、Gemini這些都是以 Transformer 為基礎的模型。

是否可以在沒有 Transformer 的情況下建置 LLM?是可以的,2017 年之前,語言模型就已經存在,但它們使用的是不同的架構:

RNN(循環神經網路)

LSTM(長短期記憶網)

這些是過去的「大型語言模型」(LLM)(儘管當時它們通常不會被稱為「大型」,因為它們的可擴展性不如 Transformer);即使在今天,研究人員仍在嘗試使用非 Transformer 架構(例如 Mamba/SSM)來建構新型的 LLM。

正確的觀念是:Transformer 是建構大多數現代 LLM 所採用的架構。

0 likes

推薦文章

新鴻基地產的住宅物業才最值錢

新鴻基地產的住宅物業才最值錢

偶爾行過西九高鐵站,看到其上蓋興建中的物業,是超級大型的甲級商用樓面,雖未命名,但已差不多全然平頂,我相信一兩年後,該區就有全新商用單位可供租用。 幸好…

丹心一片搶銀行股

丹心一片搶銀行股

昨天美股不夠聽話,沒有大跌,那今早港股沒有平匯豐執了,無咁開心,但我仍會直入。 昨晚美科技股稍稍穩下來,但不見有甚麼起色,只是Telsa有點升勢,升3%…

留言 (0)

還沒有留言,成為第一個留言的人吧!

發表留言

您必須登入才能留言。還沒有帳號?立即註冊