BERT、GPT-3、DALL-E 2、LLaMA、BLOOM;這些模型是自ChatGPT 發布以來我們見證的人工智慧革命中的一些明星。這些模型有什麼共同點?您猜對了:它們都是基礎模型。
基礎模型是人工智慧的最新發展。這些模型是根據旨在優化輸出的通用性和多功能性的演算法開發的。它們基於大規模神經網絡,通常在廣泛的資料來源和大量資料上進行訓練,以完成廣泛的下游任務,包括一些沒有專門開發和訓練的任務。
基礎模型的普及正在引發狹義人工智慧與通用人工智慧(AGI)(也稱為強人工智慧)的經典爭論。狹義人工智慧是指為特定任務而設計的人工智慧系統,但無法執行其計劃範圍之外的任務。相較之下,AGI 是一個假設的人工智慧系統,它可以像人類一樣理解、學習和應用知識來完成廣泛的任務。
雖然基礎模型仍然無法像人類一樣思考,但它們正在提供突破性的結果,使我們更接近通用人工智慧的門檻。這就是為什麼資料專業人員和非專家應該熟悉這些模型。
對於該主題的新手,我們的AI Essentials Skill Track將幫助 芬蘭電話號碼列表 您深入了解下一代 AI 模型。對於那些擁有現有技能的人來說,我們關於生成式人工智慧專案的文章讓您有機會測試您的知識。
讓我們仔細看看基礎模型!
什麼是基礎模型?理解關鍵概念
基礎模型是一個相對較新的術語,可能與其他流行概念重疊,例如生成式 AI、Transformer 和大型語言模型 (LLM)。
然而人工智慧的術語仍然存在爭議。以下定義清單將幫助您駕馭快速發展的人工智慧領域:
生成式人工智慧。這是一個廣泛的術語,用於描述主要功能是生成內容的人工智慧系統,與專為其他任務(例如分類和預測)設計的其他人工智慧系統形成鮮明對比。
變壓器。 Transformer 徹底改變了深度學習領域。它們提供了一種創新的架構,可以更有效地處理順序資料。 Transformer 特別適合處理文本,這就是為什麼它們已成為自然語言處理 (NLP) 和自然語言生成 (NLG) 領域的基石。然而,變壓器也被用於其他資料類型,例如圖像,並取得了同樣成功的結果。
大語言模型。法學碩士是用於建模和處理人類語言的人工智慧系統。 Transformer 是法學碩士背後的基礎技術。它們被稱為“大型”,因為它們有數億甚至數十億個參數,這些參數是使用大量的文字資料進行預訓練。
基礎模型。這是一個廣泛的術語,用於定義旨在產生廣泛且通用的輸出的人工智慧模型。它們能夠執行一系列可能的任務和應用,包括文字、視訊、圖像或音訊生成。這些模型的一個獨特特徵是它們可以是獨立系統或用作其他應用程式的「基礎」。例如,名為 GPT 的 LLM 是 ChatGPT 的基礎模型。
基礎模型如何運作?
基礎模型的基礎技術(無論其設計的任務是什麼以及用於訓練的資料類型如何)是變壓器。
Transformer 由Google 研究人員於 2017 年開發,提供了傳統循環神經網路(RNN) 和卷積神經網路(CNN)的替代方案來處理順序資料(即文字)。
變壓器的工作原理是預測序列中的下一個單字以形成連貫的反應。這個過程是透過一種稱為注意力的機制來完成的,該機制在生成回應時權衡不同單字的影響。
訓練 Transformer 涉及兩個步驟:預先訓練和微調。
預訓練
在此階段,變壓器接受大量原始(文字)資料的訓練,其中互聯網作為主要資料來源。
培訓是使用自我監督學習完成的,這是一種創新類型的培訓,不需要人類操作來標記數據。
預訓練的目標是學習語言的統計模式。由於實現 Transformer 更好效能的主流策略是增加模型的大小(即增加參數)和預訓練期間使用的資料量,因此此階段通常非常耗時且成本高昂。
微調
預訓練可以讓 Transformer 獲得對語言的基本理解,但不足以執行特定的實際任務。這就是模型經歷微調階段的原因,在該階段,它在人類審查者的幫助下遵循某些準則生成的更窄的、特定領域的資料集上進行訓練。
模態
基礎模型的另一個重要特徵是模態。根據可以作為輸入的資料基礎模型的類型,它們可以是單模態或多模態。前者只能接受一種類型的資料並產生相同類型的輸出,而後者可以接收多種輸入類型並產生多種類型的輸出(例如,GPT-4可以接受圖像和文字輸入並產生文字)輸出。
了解變壓器的工作原理可能很棘手,並且超出了本文的範圍。如需更詳細的解釋,請查看我們的文章什麼是 ChatGPT,其中我們直接向 ChatGPT 提出問題並了解Transformers 和 Hugging Face,以獲得更多技術觀點。
如果您想了解有關法學碩士如何運作的更多詳細信息,我們的大型語言模型 (LLM) 概念課程是一個很好的起點。
基礎模型的應用
基礎模型可以用作獨立系統,也可以用作無數下游人工智慧系統和應用程式的基礎。雖然大多數現