ChatGPT

前言 Introduction 如果你最近有用過 ChatGPT、Claude、Gemini，你已經在跟 LLM（Large Language Model）聊天了。這些模型看起來像懂很多、會推理、甚至比朋友還健談，但它們的核心動作其實無比樸實：預測下一個字。聽起來太簡單？沒錯，但模型規模一大、資料一多、演算法一調整，這個「下一字遊戲」就能演變成看起來像魔法的語言能力。這篇文章會用工程師看得順、初學者不會暈的方式，把 LLM 的概念、原理與常見應用一次講清楚。 LLM 是什麼？ LLM 的任務比你想像的還簡單從理論上看，LLM 是一種深度學習模型，被訓練去完成一件事情：在語境下，挑選「最可能出現的下一個 token」。 token 可以是中文字、英文單字的一部分、符號、甚至數字。當模型知道怎麼選下一個 token，然後不停重複這件事，就能組出一整段看起來像人寫的句子。為什麼它看起來「懂很多」？因為它被餵了大量內容：百科、文章、科技文、論壇討論…… 在海量語料裡找模式後，它自然會「講得像很懂」。我們的感官上就感覺它懂很多、很能理解。圖 1：LLM 下一字預測核心概念示意圖 LLM 是怎麼「學會」語言的？ LLM 的學習流程大致分成四個步驟，其實蠻務實的： 1. 收集大量文本（資料越多，模型越穩）來源包含書籍、文章、程式碼、論壇、維基百科等。資料不是越亂越好，但越多越有機會讀懂語言中的隱性規律。 2. 分詞（Tokenization）模型不直接處理字，而是處理 token。你可以把它想像成：「把一個蛋糕切成很多比較好吞的碎片」。 3. 預測下一個 token（核心任務）模型會計算所有候選 token 的機率：哪個最可能？哪個跟前文最適合？哪個不太會讓模型出糗？機率最高者 → 輸出。 4. 誤差反向調整（Backpropagation）預測錯了？ → 重新調參 → 再預測 → 再調 → 重複幾十億次這就是 LLM 的訓練人生。 ...