Skip to main content

NEWSALLAMA
網誌

回前頁
人工智慧模型版本的更新,有甚麼改變? - 當下科技

人工智慧模型版本的更新,有甚麼改變?

· · 專欄: 當下科技

當 OpenAI 從 GPT-3.5 升級到 GPT-4,或者 Anthropic 從 Claude 2 升級到 Claude 3 時,它們進行了甚麼更新呢?

以下是對「更新」工作原理的詳細說明,區分了小版本更新和大版本升級。

1)「深入挖掘」(微調和資料更新)

通常發生在小版本更新中(例如,從 GPT-4 升級到 GPT-4 Turbo)。有時,他們會保留相同的「框架」(架構)和相同的基礎知識,但會改進我們之前討論過的「深度」層。

它們亦可能會意識到模型在 Python 程式設計方面表現不佳,需要透過提供更多高品質的 Python 問答範例來「深入挖掘」指令調優階段。

如果使用者抱怨模型過於懶惰或過於謙虛,開發者會調整對齊層(強化學習),這會改變模型的表達方式,但不會改變它所掌握的知識。

有時,開發者可以在不重建整個模型的情況下,用新資訊(例如最近的新聞)「修補」模型,但這在技術上難度較高,而且不如直接重新訓練常見。

2)「改變模型架構」(重新訓練)

通常發生在主版本升級時(例如,從 GPT-3 到 GPT-4),這是一個巨大的飛躍。當模型版本號升級時,開發者並非只對舊模型進行最佳化,他們通常會拋棄舊的「模型」,建造一個更大、更好的模型。

想像一下,舊模型有 10 億個連接(神經元),新模型可能擁有 1 兆個連接,較大的盒子可以容納更複雜的模式、細微差別和邏輯。

又或它們改變了數學運算。例如,它們可能會改變模型「關注」長文件的方式。例如舊模型在處理 3000 個單字後會忘記對話的開頭,新模型(例如 Claude 3 或 GPT-4o)的架構旨在記住 10 萬個以上的單字。這需要改變盒子的基本藍圖。

改變亦可以多模態,這是一項巨大的架構變革,如GPT-4o 能同時處理文字、音訊和圖像,這需要徹底重新設計神經網路的輸入和輸出。

3) 更好的「食物」(數據課程)

內容的品質亦是核心之一。從版本 1 升級到版本 2 時,開發者經常會意識到:「我們給上一版模型輸入了太多來自互聯網的垃圾數據。」為了進行更新,他們會更精心篩選資料。他們可能會使用教科書而不是 Reddit 評論。即使架構保持不變,輸入高品質的「食物」(數據)也能顯著提升模型的智慧程度。

因此,當我們看到更新時:

小更新(例如,“六月更新”):通常只是對現有模型進行「更深入的挖掘」(更好的微調/對齊)。

大更新(例如 GPT-5):通常涉及新的架構,更多的參數,與及「更好的內容」(使用更乾淨的資料從頭開始重新訓練)。

0 likes

推薦文章

台灣淡水漁人碼頭

台灣淡水漁人碼頭

一直也提不起勁到台灣旅遊,雖然該處自有一份獨特的文青氣息,但已到知命之年的我,就恐怕更突顯我的老氣,所以非常卻步到該地觀光。 一張免費的機票,引令我到台…

中國麗江束河古鎮

中國麗江束河古鎮

束河古鎮位於中國雲南省麗江古城西北方約4公里處,是一座歷史悠久的村落,它是納西族最早的定居點之一,也是茶馬古道沿線重要的文化和歷史遺址,而茶馬古道曾是連接中國…

寫在親恩還在時 (1)

寫在親恩還在時 (1)

這篇文章寫於2022年年中,那時父親還可行動自如,只是稍稍遲緩而已。三年後的今天,父親已不能自顧,起居需由別人幫忙扶持,回看這些文字,點滴情景,仍在心頭。 …

留言 (0)

還沒有留言,成為第一個留言的人吧!

發表留言

您必須登入才能留言。還沒有帳號?立即註冊