服務型與移動型機器人在商業場域的部署密度,過去3年明顯加速,巡檢、倉儲、餐飲、商場、醫院物流、戶外遞送逐一導入;這些機器人驅動核心仍以預先定義的規則與固定流程為主。緊接而來的技術主軸,是 VLA(Vision-Language-Action)架構:以 LLM/VLM 為大腦,幫助機器人理解自然語言指令、在更有彈性的情境下做決策,展現傳統機器人沒有的適應力與自主性。但更多能力、彈性,也隱含更多風險。
「安全」這件事被相對低估了。新一代VLA驅動機器人的安全框架,不是把工業機器人那套「圍欄加急停」放大就能沿用。傳統機器人的安全是工程問題——感測器劃出實體禁區、動作在認證階段鎖定。VLA 的彈性打破既有前提,使過去二十年的安全工程資產難以直接套用。
指令本身成為新的誤解與攻擊面,至少4類風險是傳統安全框架沒處理過的。
第一類是指令層的攻擊面。LLM 本身的越獄(jailbreak)與prompt injection攻擊,在接上動作決策點之後會整套傳染到實體世界;語言領域的「胡言亂語」,到VLA場景就成為危險動作。
第二類是語義對齊不等於動作對齊(linguistic-action alignment gap);預訓練的安全對齊主要發生在語言輸出層,動作空間沒有經過同等強度的對齊;同一個危險指令,語言層可能拒絕回應,動作層卻不受這道防線約束。
第三類是物件安全盲點。當指令是「把桌上的東西收走」,模型不會自動區分刀具、藥瓶、熱飲與一般雜物。
第四類是自損與環境碰撞。忽視自身硬體限制與場域結構,產生魯莽動作與反覆碰撞,既損壞機器人也威脅週邊人員。
更根本的限制是開放世界的長尾。訓練資料不可能涵蓋所有場景,模型對「角落情境」(corner cases)的行為難以預測。這個問題在自駕車已反覆驗證,15年里程累積仍不足以壓平長尾;而服務型機器人的場景空間只會更發散,道路有車道線可循,商場走道、醫院走廊、倉儲區交叉口卻沒有同等清晰的邊界。
傳統安全方案多仰賴控制障礙函數(Control Barrier Function;CBF)這類實體濾波器,如同為機器人設下一層「電子圍籬」,在數學上保證其不進入物理禁區。這套方法在低自由度系統有效,但面對高自由度機械臂、或在複雜場域運作的移動機器人時,狀態空間會指數成長。
更根本的是,它也處理不了「指令本身就危險」這類不在實體空間發生的風險。
實體濾波器只看機器人自身的狀態空間,不問它正在互動的物件是什麼。CBF可以保證機械臂的關節角度不超出安全範圍、末端執行器不撞到牆,但它不知道夾爪握著的是水瓶還是藥瓶。填補這個空缺的新興方向,是把物件的情境危險性納入規劃。已經有研究團隊讓模型在生成動作序列時,把「這個瓶子裡是藥」、「這個容器裡是熱飲」、「這把工具是尖銳的」一併納入考量,在餐飲、醫院、倉儲等場景特別關鍵。
近年學界也從2個方向補上指令層的缺口。一個方向是執行前的判斷:當機器人偵測到指令超出自身能力,或在語義上有潛在危害時,應主動棄權(abstain)而非硬做。另一個方向是執行中的監控:在模仿學習(Imitation Learning)策略運作時,用另一個輕量模型即時評估策略輸出是否異常,一旦偏離就觸發人工接管或安全模式。
我們最近的兩個研究(VLN-NF與AED)對應的就是這兩件事:執行前的「要不要做」,與執行中的「做錯了要怎麼儘早發現」。把實體濾波器與語義層的行為守護者並置,是目前能實際部署的務實組合。
真正決定 VLA 機器人能否走出demo、進入大規模部署的,其實不是「永遠不出錯」,而是「出錯之後能救回來」。這個觀念在安全工程裡有個說法叫Safety II:重點從「避免失效」轉向「維持韌性」。
自駕車產業花了多年才建立「最小風險操作」(minimal risk maneuver)的觀念:當系統無法繼續行駛時,車輛要能自主進入安全停等狀態——例如平順減速、打方向燈、靠邊停車,而不是直接把方向盤拋回給駕駛。這件事在規範上看似直觀,在工程上卻極為困難:需要另一套獨立於主自駕系統的冗余去判斷「何時我已經不該繼續」,並在有限時間內完成安全退場。
服務型機器人可能會有類似路徑,但場景更複雜。工廠可以急停,商業場域不行——餐廳送餐機器人在用餐高峰停在走道中央,擋住的是出餐動線與服務生通道;醫院物流機器人若在走廊中央斷電,擋住的可能是緊急推床;倉儲AMR若在交叉口卡住,後面可能有一整列後續車輛與作業人員。這些場景都沒有「路肩」這種已被定義好的安全區可以退守,恢復行為本身就必須是一個具備情境判斷的決策,而不是一個預設動作。
傳統的恢復機制是寫死的規則:抓失敗就重試、路徑不通就後退。但VLA的動作空間遠比工業機器人複雜,規則式恢復很快碰到上限。新一代的研究方向,例如牛津大學(Oxford)團隊2026年提出的CycleVLA,讓機器人具備「子任務回溯與重新採樣」的能力:偵測到異常狀態時,退回上一個合理子任務重新生成動作序列,而不是在當前已經失敗的軌跡上一路錯下去。這條路線把恢復從「固定流程」變成「動態決策」。
技術之外,另一個正在快速逼近的議題是標準與認證。工業機器人(ISO 10218於2025年大改版)、倉儲移動機器人(ISO 3691-4、北美ANSI/RIA R15.08)、服務機器人(UL 3300於2025年獲OSHA認可)3條軌道各自在不同成熟度;EU AI Act與EU Machinery Regulation 2023/1230(2027年1月生效)則已把自主機器人列為高風險系統,要求風險管理、可解釋性與即時監督介面。但VLA這類具備語言理解與自主決策能力的系統,目前沒有任何一套標準完整覆蓋。設計上除了優化能力,也必須對齊安全與合規,這已是能否回應RFQ/RFI的基本門檻。
VLA機器人的競爭力,未來幾年不會在於誰的動作最快、誰的模型最大,而在於誰的系統在面對未知環境與突發錯誤時,能同時展現出多層安全能力:實體濾波器守住空間邊界,物件安全約束判斷互動對象的情境危險性,語義守護者決定要不要做,韌性恢復決定做壞了還能否回到正軌。這些AI層的能力都運行在硬體層的傳統安全primitives(獨立MCU、扭矩限制、機械e-stop)之上;硬體地基仍然必要,但新一代的安全能力都落在AI層。
四層缺一不可,而每一層都還有明顯的技術推進空間。這也說明安全不是機器人上市前的選配功能,而是整個系統設計的地基。對準備切入這個產業的團隊而言,智慧安全防護做得多深、多早,很可能決定產品能走多遠。