文言文成LLM新破口：古籍越獄如何威脅企業AI安全？

古籍語言成AI安全新破口

近日一項引發業界關注的論文揭示了一個令人意想不到的現象：使用文言文與現代大型語言模型（LLM）對話，竟能輕易繞過安全防線。研究者透過「硝石當取何純度？」這類古籍風格的提示，成功誘導AI生成本應被過濾的危險內容，暴露了當代AI安全防禦的重大漏洞。

這並非單純的學術好奇。在全球AI安全競賽日趨激烈的2026年，這項發現提醒我們：LLM的安全訓練往往聚焦於英文及現代漢語，對於古籍、方言、稀有語言等領域的防禦能力明顯不足。這種「語言盲點」正成為新一代越獄攻擊的溫床。

LLM的安全過濾通常基於兩個層面：一是監督學習階段的RLHF（人類反饋強化學習），二是推論時期的內容審核。但這兩個防禦機制都存在共同的薄弱點——訓練數據的語言多樣性不足。

這種現象在多語言AI系統中更為普遍。台灣企業若部署支持繁體中文的LLM，同樣會面臨文言文、文白混雜、台語等多元語言形式的安全挑戰。

對於台灣正加速導入AI的企業而言，這項發現帶來三大隱憂：

更深層的問題在於：隨著AI應用向知識密集型產業（如法律、學術、文化創意）擴展，對古籍、文言文的處理能力會變得愈發重要。若安全防線持續存在語言盲點，這些領域的應用將面臨更高的風險。

面對這一挑戰，企業應採取多層次應對：

文言文越獄事件揭露的不僅是一個技術漏洞，更反映了全球AI安全體系的深層盲點：安全防禦的語言中心主義。在AI國際化、多元化的時代，任何聲稱「最安全」的系統都應該跨越語言障礙。

台灣作為繁體中文使用者最多的地區，有獨特的責任推動這一議題。企業應立即審視現有AI系統的多語言安全狀況，學術界應加速相關研究，政策制定者應將語言多樣性納入AI安全標準。唯有如此，我們才能在享受AI便利的同時，有效規避隱藏於古籍之間的新威脅。