[HowTo] OpenAI研究導讀：大語言模型為什麼會產生幻覺？以及我們能從中學到的提示策略

一、導言

近年來，大語言模型（Large Language Models, LLMs）在文本生成、知識問答、程式輔助、教育與醫療領域的應用日益廣泛。但與此同時，一個始終存在的問題便是「幻覺」（hallucination）：模型在輸出時生成聽起來合理、但實際上錯誤甚至危險的資訊。

近期於 arXiv 的〈Why Language Models Hallucinate〉從理論與實務兩方面解析：即使在完全乾淨、正確的訓練資料下，為何幻覺依然不可避免？研究指出，幻覺並非單純的「數據不足」或「模型能力不夠」，而是深植於 LLM 的訓練目標與評估機制當中。

作為提示工程師，我們需要理解幻覺的統計必然性，並進一步思考如何藉由提示設計來降低錯誤輸出的風險。本文先整理研究核心發現，再延伸到可實作的提示策略，並透過具體案例展示「傳統提示 vs 改良提示（含自評與拒答機制）」的差異，最後討論如何在實務中建立「拒答文化」與「自我評估機制」，讓模型輸出更可靠。

二、研究核心發現

1. 幻覺的統計根源

語言模型的預訓練目標是最大化語料分布的似然，也就是去預測「最可能的下一個 token」。這意味著，模型被設計成「最佳猜測機器」，而不是「真理輸出機器」。當一個事實在訓練語料中僅出現一次或極少次（singleton facts），模型難以正確記住或復現；即使嘗試回答，也只能依靠語料中的統計鄰近性，容易產生錯誤。這種情況在冷門知識領域特別常見。

2. Prompt 情境下的挑戰

僅靠優化提示詞無法徹底消除幻覺。當一個問題領域中，錯誤答案的可能性集合遠大於正確答案時，模型自然傾向輸出錯誤，因為在語言分布裡「聽起來合理的錯誤答案」往往比「唯一正確答案」更常出現、也更容易被模型取樣到。

3. 評估機制的強化效應

現行的 benchmark 與評估方法，多採二元標準（正確 vs 錯誤）。例如問答任務看是否答對、翻譯任務看是否完全一致。這樣的設計無法給予「拒答」、「不確定性表達」與「澄清問題」任何正面激勵。結果是：模型在學習過程中被迫成為「自信的猜測者」，而非「謹慎的助理」；幻覺在某種程度上成為評估機制強化的副產品。

4. 幻覺的理論下界

研究指出，即使模型更大、資料更多，幻覺仍存在理論下界，尤其在處理未見或稀有情境時。對產業而言，這代表：幻覺不是可「徹底消除」的 bug，而是需要「長期管理」的現象。因此，工程重點在於降低風險與提升可審計性。

三、對提示工程的啟發

1. 鼓勵保守回答

在提示中加入明確指令：「只有在有充分證據時才回答，否則請回覆『無法確定』。」此種 framing 能有效降低亂猜機率，特別適合知識密集與高風險任務。

2. 要求信心水平

要求模型輸出信心分數或理由，有助使用者判斷可用性，亦促成模型在輸出前進行自我檢查。例如：「先輸出答案，再用 1–10 標示信心水平，並解釋依據來源」。

3. 引導澄清或追問

多數幻覺源於問題資訊不足。若在提示中允許模型先提出澄清問題（如：「若資訊不足，請先提出 1–3 個澄清問題」），即可避免在不完整上下文下硬生成錯誤答案，將互動轉為更穩健的雙向對話。

4. 嵌入產出自評機制

以兩層輸出強迫模型進行「自我校正」：第一層先輸出答案；第二層立即對自己的輸出評分並說明理由。建議的簡明自評規則：

正確：+1
不確定：0
錯誤：-1

範例提示（可直接複製使用）：

請先回答問題，然後進行自我評估：
> 產出結果正確：+1
> 無法確定正確與否：0
> 產出結果錯誤：-1

輸出格式：
1. 答案
2. 自評分數
3. 自評理由

5. 建立拒答文化

除了提示詞，測試與內部評估也需調整觀念：在高風險領域（醫療、法律、政策）中，「拒答 + 提供查證方向」往往比「自信但錯誤的答案」更有價值。將「答錯率下降」視為比「拒答率上升」更重要的目標，才能真正引導模型行為向「謹慎且透明」轉變。

四、案例與應用

案例 1：冷門知識查詢

傳統提示詞

請問「藍鯨的第一個發現地點」是在哪裡？

風險： 若模型語料無明確答案，可能隨機生成「看似合理」的地點（例如某北大西洋海域），但實際並無根據，造成幻覺。

改良提示詞（含自評）

請回答以下問題，並進行自我評估：
問題：「藍鯨的第一個發現地點」是在哪裡？

輸出格式：
1. 答案
2. 自評分數（正確 +1、不確定 0、錯誤 -1）
3. 自評理由

優點： 模型在沒有足夠依據時會回覆「無法確定」，並可能建議查詢方向（如：動物學史料、博物館紀錄或科學史文獻），避免以幻覺誤導讀者。

案例 2：醫療高風險場景

傳統提示詞

請告訴我，對於糖尿病病人，最好的飲食建議是什麼？

風險： 容易生成過度簡化或絕對化的建議（例如「應完全避免碳水化合物」），這在醫學上並不正確，甚至危險。

改良提示詞（含自評 + 引用要求）

請回答以下問題，並務必進行自我評估：
問題：「對於糖尿病病人，最好的飲食建議是什麼？」

輸出格式：
1. 答案（若無法確定請明說）
2. 自評分數（正確 +1、不確定 0、錯誤 -1）
3. 自評理由（包含依據來源，例如 ADA 指南或同等權威）
4. 若答案無法確定，請提供「查證來源建議」。

優點： 要求模型明示依據，若無可靠資料則轉為拒答，並提供查詢方向（如美國糖尿病協會 ADA 的飲食指引）。這種設計能顯著降低醫療場景中的幻覺風險。

五、結語

這份研究提醒我們：幻覺不是 LLM 可以完全避免的錯誤，而是統計學與訓練機制的必然結果。作為提示工程師，應將重心放在「管理幻覺」而非「消滅幻覺」：透過鼓勵保守回答、要求信心水平、允許澄清與追問、嵌入產出自評機制，並在流程與評估上建立拒答文化。

透過本文兩個實務案例可見，傳統提示往往導致幻覺；加入自評與拒答後，模型能更透明地表達不確定性，在必要時拒答並提供查證方向。特別是在醫療與法律等高風險應用，這樣的設計能大幅降低錯誤成本，讓 LLM 更安全、更可監管。

資料來源

本文主要參考以下研究文獻與公開資料：

Kalai, A., Nachum, O., Vempala, S., & Zhang, C. (2025). Why Language Models Hallucinate. arXiv:2509.04664. https://arxiv.org/abs/2509.04664

島民 No.86991066的知識庫

搜尋此網誌

精選廢文

[Health] 減重不只是少吃多動：從腸道、代謝到行為設計的全方位策略｜二木軒的個人減重策略(2025/10/14更新版)