精選廢文

[Health] 超平凡減重策略

「如果一切可以重來,你會選擇重新開始嗎?」 很多人覺得減重很難,甚至認為自己天生「易胖體質」,連喝水都會胖。這篇筆記獻給曾有同樣念頭的你——也獻給過去的我。 我總對自己說:「我還年輕、還健康,不需要減重。」但那只是自我安慰。直到去年,我因為毛囊炎併發蜂窩性組織炎而接受清創手術;我以為那是偶發,沒想到今年三月,同一位置又再度發炎,甚至形成硬塊。 那一刻我愣住了。 毛囊炎併發蜂窩性組織炎並不是隨便就會發生。 這是一記警鈴—— 我的身體在示警:它出了問題。 我知道自己得先處理最明顯的危險因子: 肥胖。 因此,從四月起我開始了減重旅程。寫下這段文字時,歷經 3.5 個月,我把體重從高峰 94 公斤降到 81 公斤。接下來,是我一路摸索、查證與實作的重點整理。

[HowTo] OpenAI研究導讀:大語言模型為什麼會產生幻覺?以及我們能從中學到的提示策略

一、導言

近年來,大語言模型(Large Language Models, LLMs)在文本生成、知識問答、程式輔助、教育與醫療領域的應用日益廣泛。但與此同時,一個始終存在的問題便是「幻覺」(hallucination):模型在輸出時生成聽起來合理、但實際上錯誤甚至危險的資訊。

近期於 arXiv 的〈Why Language Models Hallucinate〉從理論與實務兩方面解析:即使在完全乾淨、正確的訓練資料下,為何幻覺依然不可避免?研究指出,幻覺並非單純的「數據不足」或「模型能力不夠」,而是深植於 LLM 的訓練目標與評估機制當中。

作為提示工程師,我們需要理解幻覺的統計必然性,並進一步思考如何藉由提示設計來降低錯誤輸出的風險。本文先整理研究核心發現,再延伸到可實作的提示策略,並透過具體案例展示「傳統提示 vs 改良提示(含自評與拒答機制)」的差異,最後討論如何在實務中建立「拒答文化」與「自我評估機制」,讓模型輸出更可靠。

二、研究核心發現

1. 幻覺的統計根源

語言模型的預訓練目標是最大化語料分布的似然,也就是去預測「最可能的下一個 token」。這意味著,模型被設計成「最佳猜測機器」,而不是「真理輸出機器」。當一個事實在訓練語料中僅出現一次或極少次(singleton facts),模型難以正確記住或復現;即使嘗試回答,也只能依靠語料中的統計鄰近性,容易產生錯誤。這種情況在冷門知識領域特別常見。

2. Prompt 情境下的挑戰

僅靠優化提示詞無法徹底消除幻覺。當一個問題領域中,錯誤答案的可能性集合遠大於正確答案時,模型自然傾向輸出錯誤,因為在語言分布裡「聽起來合理的錯誤答案」往往比「唯一正確答案」更常出現、也更容易被模型取樣到。

3. 評估機制的強化效應

現行的 benchmark 與評估方法,多採二元標準(正確 vs 錯誤)。例如問答任務看是否答對、翻譯任務看是否完全一致。這樣的設計無法給予「拒答」、「不確定性表達」與「澄清問題」任何正面激勵。結果是:模型在學習過程中被迫成為「自信的猜測者」,而非「謹慎的助理」;幻覺在某種程度上成為評估機制強化的副產品。

4. 幻覺的理論下界

研究指出,即使模型更大、資料更多,幻覺仍存在理論下界,尤其在處理未見或稀有情境時。對產業而言,這代表:幻覺不是可「徹底消除」的 bug,而是需要「長期管理」的現象。因此,工程重點在於降低風險與提升可審計性。

三、對提示工程的啟發

1. 鼓勵保守回答

在提示中加入明確指令:「只有在有充分證據時才回答,否則請回覆『無法確定』。」此種 framing 能有效降低亂猜機率,特別適合知識密集與高風險任務。

2. 要求信心水平

要求模型輸出信心分數或理由,有助使用者判斷可用性,亦促成模型在輸出前進行自我檢查。例如:「先輸出答案,再用 1–10 標示信心水平,並解釋依據來源」。

3. 引導澄清或追問

多數幻覺源於問題資訊不足。若在提示中允許模型先提出澄清問題(如:「若資訊不足,請先提出 1–3 個澄清問題」),即可避免在不完整上下文下硬生成錯誤答案,將互動轉為更穩健的雙向對話。

4. 嵌入產出自評機制

以兩層輸出強迫模型進行「自我校正」:第一層先輸出答案;第二層立即對自己的輸出評分並說明理由。建議的簡明自評規則:

  • 正確:+1
  • 不確定:0
  • 錯誤:-1

範例提示(可直接複製使用):

請先回答問題,然後進行自我評估:
> 產出結果正確:+1
> 無法確定正確與否:0
> 產出結果錯誤:-1

輸出格式:
1. 答案
2. 自評分數
3. 自評理由

5. 建立拒答文化

除了提示詞,測試與內部評估也需調整觀念:在高風險領域(醫療、法律、政策)中,「拒答 + 提供查證方向」往往比「自信但錯誤的答案」更有價值。將「答錯率下降」視為比「拒答率上升」更重要的目標,才能真正引導模型行為向「謹慎且透明」轉變。

四、案例與應用

案例 1:冷門知識查詢

傳統提示詞

請問「藍鯨的第一個發現地點」是在哪裡?

風險: 若模型語料無明確答案,可能隨機生成「看似合理」的地點(例如某北大西洋海域),但實際並無根據,造成幻覺。

改良提示詞(含自評)

請回答以下問題,並進行自我評估:
問題:「藍鯨的第一個發現地點」是在哪裡?

輸出格式:
1. 答案
2. 自評分數(正確 +1、不確定 0、錯誤 -1)
3. 自評理由

優點: 模型在沒有足夠依據時會回覆「無法確定」,並可能建議查詢方向(如:動物學史料、博物館紀錄或科學史文獻),避免以幻覺誤導讀者。

案例 2:醫療高風險場景

傳統提示詞

請告訴我,對於糖尿病病人,最好的飲食建議是什麼?

風險: 容易生成過度簡化或絕對化的建議(例如「應完全避免碳水化合物」),這在醫學上並不正確,甚至危險。

改良提示詞(含自評 + 引用要求)

請回答以下問題,並務必進行自我評估:
問題:「對於糖尿病病人,最好的飲食建議是什麼?」

輸出格式:
1. 答案(若無法確定請明說)
2. 自評分數(正確 +1、不確定 0、錯誤 -1)
3. 自評理由(包含依據來源,例如 ADA 指南或同等權威)
4. 若答案無法確定,請提供「查證來源建議」。

優點: 要求模型明示依據,若無可靠資料則轉為拒答,並提供查詢方向(如美國糖尿病協會 ADA 的飲食指引)。這種設計能顯著降低醫療場景中的幻覺風險。

五、結語

這份研究提醒我們:幻覺不是 LLM 可以完全避免的錯誤,而是統計學與訓練機制的必然結果。作為提示工程師,應將重心放在「管理幻覺」而非「消滅幻覺」:透過鼓勵保守回答、要求信心水平、允許澄清與追問、嵌入產出自評機制,並在流程與評估上建立拒答文化。

透過本文兩個實務案例可見,傳統提示往往導致幻覺;加入自評與拒答後,模型能更透明地表達不確定性,在必要時拒答並提供查證方向。特別是在醫療與法律等高風險應用,這樣的設計能大幅降低錯誤成本,讓 LLM 更安全、更可監管。

資料來源

本文主要參考以下研究文獻與公開資料:

本著作依據創用 CC 姓名標示-相同方式分享 4.0 國際 授權條款授權釋出。內容如有錯誤 煩請不吝指教

留言