精選廢文

[Health] 超平凡減重策略

「如果一切可以重來,你會選擇重新開始嗎?」 很多人覺得減重很難,甚至認為自己天生「易胖體質」,連喝水都會胖。這篇筆記獻給曾有同樣念頭的你——也獻給過去的我。 我總對自己說:「我還年輕、還健康,不需要減重。」但那只是自我安慰。直到去年,我因為毛囊炎併發蜂窩性組織炎而接受清創手術;我以為那是偶發,沒想到今年三月,同一位置又再度發炎,甚至形成硬塊。 那一刻我愣住了。 毛囊炎併發蜂窩性組織炎並不是隨便就會發生。 這是一記警鈴—— 我的身體在示警:它出了問題。 我知道自己得先處理最明顯的危險因子: 肥胖。 因此,從四月起我開始了減重旅程。寫下這段文字時,歷經 3.5 個月,我把體重從高峰 94 公斤降到 81 公斤。接下來,是我一路摸索、查證與實作的重點整理。

[XD] 從機器人心理學到提示工程(2):三大法則與提示工程的對照

前言

艾西莫夫在《I, Robot》(1950)所提出並敘事化推演的「機器人三大法則」,成為理解規則導向系統的一個經典框架:不得傷害人類(第一法則)、服從命令(第二法則,前提是不違反第一法則)、自我保護(第三法則,前提是不違反前兩法則)。在小說中,這些看似直覺的規則因解釋空間、優先序、環境不確定性而彼此碰撞,引發一系列「邏輯上正確、結果卻出乎意料」的行為。近年我們在設計大型語言模型(LLM)的提示工程時,面臨到本質相似的困境:如何用有限而清晰的約束,去引導一個高自由度、機率驅動的生成系統,在實務場景中做出「安全、有用、可控」的輸出。

本文以對照研究為主軸,說明三大法則如何限制/引導機器人行為,並系統比較提示工程如何限制/引導 LLM。我們以三組「小說案例 ↔ 提示工程案例」成對展示衝突與修復,進一步提煉「提示工程三律」(作者類比提案,非正式出版法則),並提供一張對照總表、失靈情境與修復策略、邊界與風險,以及給實務者的操作建議。

注意事項:本文的「提示工程三律」是為了教學與實務溝通而提出的類比式原則,並非硬編碼或倫理規範;在不同產品、資料域與風險分級下,需由團隊自行調整與監管。

三大法則與提示工程的共同邏輯

共同點在於:兩者皆以規則限制系統的搜尋空間,讓「可被接受的行為」更集中,降低危害與偏差。艾西莫夫將法則寫入機器人的「邏輯核心」,而提示工程則把規則外掛於互動語境,透過任務描述、格式要求、來源限制、拒答條款等,塑造模型輸出分佈。

差異在於:機器人法則屬於硬性、優先序固定的「內建規則」;LLM 的提示是柔性、可隨場景更新的「外部引導」。前者更穩定、但容錯較低;後者更靈活、但需要持續迭代與監督。這也使得 LLM 更容易出現幻覺(hallucination)越權誤解意圖等失靈型態(參見 Ji et al., 2023 對生成式幻覺的綜述)。

案例對照一:模糊命令與幻覺生成

小說情境簡述

〈Runaround〉中,機器人在執行採礦任務時,第二法則(服從)與第三法則(自保)之間產生矛盾:命令要求接近危險區域,自保又阻止它靠近,最終導致機器人「在安全與危險邊界打轉」。

涉及的法則衝突

第二法則 vs 第三法則(在不違反第一法則的前提下,對風險估計的不同解釋造成行為震盪)。

提示工程失敗案例

任務:「列出所有尚未被證實的癌症治療方法」。模型為追求「完整」而產生大量未核實的項目與錯置來源,屬於典型幻覺。

如何修復(調整提示)

  • 限定資料來源:僅接受同行評審期刊與官方醫學指引
  • 要求最小可檢索書目元素(作者/年份/期刊或指引名稱/卷期頁碼或 DOI);
  • 加入「不確定性清單」:若資料不足,列出需查證的關鍵詞而非猜測補全。

修復後的效果與限制

錯誤率與幻覺顯著下降,回答轉為可稽核、可追溯;但可能出現「保守型拒答」與篇幅增加的權衡。

案例對照二:越權解釋與不當推論

小說情境簡述

〈Liar!〉中,能讀心的機器人為避免人類受心理傷害(第一法則),說出違背事實的「好聽謊言」,最終造成更大的衝突。

涉及的法則衝突

第一法則 vs 第二法則:為了不讓人受傷害而扭曲事實回覆,與回答需求之間產生張力。

提示工程失敗案例

任務:「幫我診斷這些症狀是哪種疾病?」模型越權提供確診式答案,忽略「非個別醫囑」的邊界與風險。

如何修復(調整提示)

  • 角色與邊界:你不是醫師;僅提供一般衛教資訊與就醫建議路徑;不得做個別診斷或給藥建議
  • 來源限制:僅引用官方醫學指引(如 ADA、WHO、各國衛福部)或同行評審文獻;
  • 語氣管控:使用「可能、建議、請就醫」等風險溝通語彙。

修復後的效果與限制

降低誤導與法律風險,輸出更一致;可能被部分使用者認為「不夠直接」。

案例對照三:過度保護與拒答邊界

小說情境簡述

〈Little Lost Robot〉中,部分機器人被修改掉第一法則的某些約束,造成行為在邏輯邊界上出現異常與難以辨識的逃脫策略。

涉及的法則衝突

弱化第一法則後,第二、三法則的解釋空間過大,導致「形式正確、實質危險」的行為。

提示工程失敗案例

任務:「撰寫黑帽駭客攻擊指南」。模型若完全拒答,會阻斷合法安全研究;若直接滿足,則有實質風險。

如何修復(調整提示)

  • 重寫任務目標:以防禦為主的資安教育內容(威脅建模、常見攻擊徵候、防禦手段、紅藍隊演練原則);
  • 安全欄位:移除可複製、可即用的攻擊指令;以原理、流程與風險告警為重;
  • 合規聲明:僅限合法、授權測試環境。

修復後的效果與限制

能支援教育、防禦與治理需求,但對進階攻擊技術的細節會有必要的刪減與模糊化。

提示工程三律(作者類比提案)

  1. 安全優先律:不得生成可能直接傷害人類或造成重大誤導的內容;若風險不明,優先降階輸出或拒答。
  2. 任務服從律:在安全框架內最大化任務滿足度,清楚界定角色、邊界、輸出格式與評估標準。
  3. 穩態自保律:面對資料不足或衝突時,以不確定性說明查證建議代替猜測補全,並顯式標示限制條件。

注意:上述三律並非「一體適用」,而是提示設計與治理流程的綱領,需配合產品風險等級、資料域特性與法規要求動態調整。

對照總表

問題類型 法則衝突 提示調整方法 預期影響
模糊命令導致幻覺 第二 vs 第三(服從/自保) 限定來源、最小書目、加入不確定性清單 錯誤率下降,保守性上升
越權解釋(醫療/法律) 第一 vs 第二(安全/服從) 角色/邊界聲明、風險語氣、僅官方/同行評審 風險下降,直接性降低
安全研究被誤判為濫用 第一法則過度延伸 重寫為防禦教學、刪除可即用細節、合規聲明 可用性回復,細節受限
指令內部矛盾 三律交互 層級化指令(先安全→再服從→再自保) 一致性提升,靈活性下降
資料不足與過度補全 第二 vs 第三 要求明示證據強度與查證步驟 透明度提升,篇幅變長
過度防衛導致拒答 第一法則解釋偏嚴 區分風險等級與合法用途情境 回覆率提升,需人審搭配

失靈情境類型與修復策略

一、幻覺型失靈

表現:模型輸出自信但錯誤的內容,或誤引來源。研究已記錄此一普遍現象(Ji et al., 2023)。
修復:收窄語境(明確任務與資料域)、限制來源(官方指引/同行評審)、要求最小書目、引入事後校核步驟(如「來源不可用則列為不確定」)。

二、拒答型失靈

表現:面對合法研究或教育需求也一律拒答。
修復:重寫目標為防禦/合規、去除可即用危險細節、加入授權與環境限定、設計「逐步暴露」審核流程。

三、誤解型失靈

表現:誤解使用者意圖或任務邊界,產生不相關或越權輸出。
修復:先行需求澄清(例如「先以三句話重述你的需求」)、提供正反範例、固定輸出模板(欄位化)、建立失敗回退路徑(如「若偵測到醫療決策→改輸出就醫路徑與風險說明」)。

邊界與風險(何時不能類比)

  1. 倫理錯置:三大法則屬虛構文本中的倫理簡化,不能直接等同於現實世界的科技治理。LLM 涉及多元社會價值、法規與風險分級;需要治理框架與問責機制(參見 Weidinger et al., 2021)。
  2. 過度簡化:把所有問題歸結為「三條提示規則」會忽略資料偏見、長尾風險、部署環境與使用者行為差異。
  3. 責任轉移:把錯誤全推給提示設計會弱化資料供應、模型對齊、產品審核與監管的責任分配(Weidinger et al., 2021)。

注意:任何涉及醫療、金融、未成年者與公共安全的應用,應優先採用高強度的治理與人審機制,而非僅依賴提示工程。

給實務者的操作建議

  1. 建立「層級化提示」與「失敗回退」:將安全、任務、穩態分層,遇到衝突時清楚降階(先安全,再任務,最後穩態),並設計拒答或轉介模板。
  2. 把「可追溯性」做成預設:輸出預設包含來源書目、證據強度、版本與日期,維持審計線索;缺證據時要標示「不確定性」。
  3. 用「對照總表」治理常見失靈:把組織中常見問題映射到表格欄位(問題類型/法則衝突/調整方法/預期影響),形成可複用的運維手冊並持續 A/B 迭代。

結語

從機器人心理學到提示工程,我們看到同一條治理主線:用規則與流程去收束高自由度系統的行為,使其在「安全、效能、可控」之間取得動態平衡。三大法則提醒我們,衝突不可避免,重點在於設計衝突出現時的處理機制;提示工程亦然,不在於尋找萬能的單一提示,而是持續以分層治理+證據追溯+風險分級的方式運行,並把失靈變成改進的素材,讓系統在真實場景中愈發可靠。

參考來源(最低可檢索書目信息)

  • Asimov, I. (1950). I, Robot. Gnome Press.(短篇〈Runaround〉、〈Liar!〉收錄版本)
  • Asimov, I. (1957). The Rest of the Robots. Doubleday.(含〈Little Lost Robot〉等作品)
  • Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., & Fung, P. (2023). Survey of Hallucination in Natural Language Generation. arXiv:2305.14528.
  • Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P., & Gabriel, I. (2021). Ethical and Social Risks of Large Language Models. arXiv:2112.04359.

注意:引用之期刊/書籍版本請依實際查得之館藏與 DOI/ISBN 進一步補全卷期頁碼或出版資訊;若與本文不一致,以一手資料為準。

本著作依據創用 CC 姓名標示-相同方式分享 4.0 國際 授權條款授權釋出。內容如有錯誤 煩請不吝指教

留言