椽經閣 - 徐宏民專欄

徐宏民

國立台灣大學資訊工程學系教授

現任國立台灣大學資訊工程學系教授，曾任富智捷（MobileDrive）技術長暨副總經理，推動ADAS及智慧座艙系統產品進入全球車用市場。紐約哥倫比亞大學電機博士，專精於機器學習、電腦視覺、自駕車、機器人等領域。為訊連科技研發團隊創始成員，慧景科技（thingnario）共同創辦人，NVIDIA AI Lab計畫主持人；曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會，擔任多家科技公司AI策略顧問。

Sim-to-Real：虛擬世界的侷限

上一篇談到機器人訓練資料的4種來源：遙控示範、模擬器、影片、穿戴設備。其中模擬器看似最方便——資料生成邊際成本接近零、場景參數（天候、情境等）可以隨意調整。從MuJoCo、IsaacSim到Genesis，業界持續推進高逼真度物理引擎，NVIDIA也不斷強調世界模型Cosmos在機器人訓練上的優勢。模擬器值得投入的理由不少。強化學習要靠大量試誤，在實體機器人上幾乎不可行；VLA基礎模型在預訓練階段也需要大量多樣場景，這兩件事前幾篇已談過。上一篇也介紹過把模擬當成資料工廠、合成大量軌跡的「重模擬」路線。模擬器更是加速應用開發的標準工具：給定機器人結構、夾爪規格、場域布局，工程師可以先在虛擬環境中迭代演算法、驗證任務規劃，不必等實機。這件事在ADAS與自駕領域已是標準做法，移動機器人與工廠自動化也在跟進。不過模擬器訓練出的策略搬到真實機器人時，常常表現不如預期；現象一般稱為sim-to-realgap。接觸力學是第一個盲點，上一篇已點出布料、電線、食材這類柔性物體是目前物理引擎的共同難題，但另有幾個較少被提及的盲點。第一個是力回饋與精準度。夾爪抓起一個紙杯不壓扁、擰開瓶蓋的扭矩判斷、插針孔的次毫米對位，這些動作在真實世界要靠觸覺、扭力感測與視覺迴圈一起完成；模擬器裡的感測器多半是理想模型，與真實感測器的雜訊分布並不一致。消費端夾爪看似容忍度大，但一進到電子業的組裝場域、醫療器材或食品加工，容差瞬間收斂到數十微米到幾毫牛頓的區間；即使模擬精度與真實系統相當，殘餘的sim-to-real落差仍會直接反映在成功率。第二個是驅動端與系統端的落差。模擬器多半假設電機瞬時響應、通訊完美、狀態完全可觀測；真實系統卻有電力電子的延遲、齒輪反向間隙、電池電壓波動造成的扭矩不穩，再疊上封包遺失、時脈同步誤差、以及感測受限下的決策缺口。更關鍵的是，這些差距會隨時間漂移：機構磨損、電池老化、現場網路變動，模擬器即使再精細，也跟不上現場長期運轉的累積。第三個是物件層級的風險。前一篇談VLA安全時已詳述情境危險性：同樣一個抓取動作，物件是刀還是湯匙、是熱飲還是冷飲，風險天差地別；這層語義層的風險，虛擬環境在幾何與動力學層面上不會主動標註，必須靠真實場域的資料補齊。還有一層更難處理的問題——物件狀態的變動，而這些變動往往不在物理引擎的描述語言裡。微波爐是不是正在被佔用、抹布是不是髒的、平底鍋剛用過還沒洗、油是不是已經酸敗。自然語言指令通常不會把這些條件寫明，但實際執行時缺一不可。我們近期的研究就把這類「動態可操作性」（dynamic affordance）納入評估，要求代理人在動作前先判斷物件當下是否可用，而非當成固定幾何體；測試結果顯示，這個額外的判斷確實能改善代理人在新場景下的表現。這類問題暴露一個本質限制：物理引擎模擬的是「物件怎麼動」，不是「物件現在可不可以用」。前者是物理，後者是常識。虛擬世界可以把桌面渲染到以假亂真，但「桌面髒污還是剛被擦拭過」這件事，模擬器不會主動生成，也不容易標註。真實場域的不確定性，很大比例是這類狀態變動累積而來。傳統機器學習對訓練資料的基本要求，在VLM／LLM新典範之下並沒有放寬，大致有3個面向。第一是視覺與場景的多樣性：模型要在不同光源、視角、雜物分布、場景配置下都能穩定運作，視覺長尾覆蓋不足，泛化能力就有限。第二是失敗模式的多樣性，這和視覺多樣性是兩件事；機器人真正要學的不是「做對一次」，而是在各種失敗邊緣能不能察覺並調整，這類分布只能刻意取得，不會自然出現。第三是領域貼合度：要讓模型學會某個場域的操作邊界，資料必須來自該場域，一個合格的物流倉、醫院藥局、餐飲廚房，都有自己獨特的動作分布與例外情境。回到模擬器，這三件事它能補的程度不一。視覺多樣性已有相當進展，特別是場景合成與domain randomization，但接觸密集場景仍有差距。失敗模式合成則是模擬器較具獨特性的角色：不安全操作、碰撞、摔落、錯抓這類情境，在真實場景上難以大量反覆上演，模擬器可以放心重現危險操作、組合極端條件，是「安全地大量失敗」的少數可行路徑之一。至於領域貼合度，模擬器只能部分逼近，難以取代真實場域資料；這也是其他訓練資料必要的原因。機器人產業真正需要的，或許不是更逼真的模擬器，而是讓部署現場本身成為持續訓練的資料來源。實體機器在真實場域運作時，能察覺自身錯誤、退回安全狀態，並把偏差訊號回饋到模型迭代。這個思路在數位世界剛被走通。近期的代理型AI（Agentic AI）推理並非總是準確，但搭配驗證（verification）、錯誤偵測與再修正機制，系統在迭代中逐步收斂到可用水準。實體AI（Physical AI）有機會走上同一條路：用模擬器建立預訓練的底層，用真實場域的錯誤訊號回饋微調，把部署規模轉化為模型進化的燃料。這裡的「驗證」不只是軟體驗證，還包括獨立的安全監控層；前一篇談VLA安全時提到的執行前棄權、執行中監控，正是這個迴路的實體版本。模擬器仍是地基，但模型真正變強的地方，會在實體部署之上。機器人部署場域的營運資料，未來幾年會逐步變成比硬體規格更關鍵的資產；誰能蒐集、清洗、回饋這些資料進模型，誰就能把「單次出貨」變成「持續累積的優勢」。Sim-to-Real的問題，未必能靠「把模擬做得無比接近真實」徹底解決，這條路的邊際報酬看來正在遞減。比較務實的方向，或許是接受虛擬與現實之間確實存在的差異，透過場域資料微調、驗證與修正迭代逐步提高成功率。如同代理型AI在數位世界走過的路，機器人也可能藉此在實體世界站穩腳步。

2026-05-06

VLA機器人的「安全」該如何設計？

服務型與移動型機器人在商業場域的部署密度，過去3年明顯加速，巡檢、倉儲、餐飲、商場、醫院物流、戶外遞送逐一導入；這些機器人驅動核心仍以預先定義的規則與固定流程為主。緊接而來的技術主軸，是 VLA（Vision-Language-Action）架構：以 LLM/VLM 為大腦，幫助機器人理解自然語言指令、在更有彈性的情境下做決策，展現傳統機器人沒有的適應力與自主性。但更多能力、彈性，也隱含更多風險。「安全」這件事被相對低估了。新一代VLA驅動機器人的安全框架，不是把工業機器人那套「圍欄加急停」放大就能沿用。傳統機器人的安全是工程問題——感測器劃出實體禁區、動作在認證階段鎖定。VLA 的彈性打破既有前提，使過去二十年的安全工程資產難以直接套用。指令本身成為新的誤解與攻擊面，至少4類風險是傳統安全框架沒處理過的。第一類是指令層的攻擊面。LLM 本身的越獄（jailbreak）與prompt injection攻擊，在接上動作決策點之後會整套傳染到實體世界；語言領域的「胡言亂語」，到VLA場景就成為危險動作。第二類是語義對齊不等於動作對齊（linguistic-action alignment gap）；預訓練的安全對齊主要發生在語言輸出層，動作空間沒有經過同等強度的對齊；同一個危險指令，語言層可能拒絕回應，動作層卻不受這道防線約束。第三類是物件安全盲點。當指令是「把桌上的東西收走」，模型不會自動區分刀具、藥瓶、熱飲與一般雜物。第四類是自損與環境碰撞。忽視自身硬體限制與場域結構，產生魯莽動作與反覆碰撞，既損壞機器人也威脅週邊人員。更根本的限制是開放世界的長尾。訓練資料不可能涵蓋所有場景，模型對「角落情境」（corner cases）的行為難以預測。這個問題在自駕車已反覆驗證，15年里程累積仍不足以壓平長尾；而服務型機器人的場景空間只會更發散，道路有車道線可循，商場走道、醫院走廊、倉儲區交叉口卻沒有同等清晰的邊界。傳統安全方案多仰賴控制障礙函數（Control Barrier Function；CBF）這類實體濾波器，如同為機器人設下一層「電子圍籬」，在數學上保證其不進入物理禁區。這套方法在低自由度系統有效，但面對高自由度機械臂、或在複雜場域運作的移動機器人時，狀態空間會指數成長。更根本的是，它也處理不了「指令本身就危險」這類不在實體空間發生的風險。實體濾波器只看機器人自身的狀態空間，不問它正在互動的物件是什麼。CBF可以保證機械臂的關節角度不超出安全範圍、末端執行器不撞到牆，但它不知道夾爪握著的是水瓶還是藥瓶。填補這個空缺的新興方向，是把物件的情境危險性納入規劃。已經有研究團隊讓模型在生成動作序列時，把「這個瓶子裡是藥」、「這個容器裡是熱飲」、「這把工具是尖銳的」一併納入考量，在餐飲、醫院、倉儲等場景特別關鍵。近年學界也從2個方向補上指令層的缺口。一個方向是執行前的判斷：當機器人偵測到指令超出自身能力，或在語義上有潛在危害時，應主動棄權（abstain）而非硬做。另一個方向是執行中的監控：在模仿學習（Imitation Learning）策略運作時，用另一個輕量模型即時評估策略輸出是否異常，一旦偏離就觸發人工接管或安全模式。我們最近的兩個研究（VLN-NF與AED）對應的就是這兩件事：執行前的「要不要做」，與執行中的「做錯了要怎麼儘早發現」。把實體濾波器與語義層的行為守護者並置，是目前能實際部署的務實組合。真正決定 VLA 機器人能否走出demo、進入大規模部署的，其實不是「永遠不出錯」，而是「出錯之後能救回來」。這個觀念在安全工程裡有個說法叫Safety II：重點從「避免失效」轉向「維持韌性」。自駕車產業花了多年才建立「最小風險操作」（minimal risk maneuver）的觀念：當系統無法繼續行駛時，車輛要能自主進入安全停等狀態——例如平順減速、打方向燈、靠邊停車，而不是直接把方向盤拋回給駕駛。這件事在規範上看似直觀，在工程上卻極為困難：需要另一套獨立於主自駕系統的冗余去判斷「何時我已經不該繼續」，並在有限時間內完成安全退場。服務型機器人可能會有類似路徑，但場景更複雜。工廠可以急停，商業場域不行——餐廳送餐機器人在用餐高峰停在走道中央，擋住的是出餐動線與服務生通道；醫院物流機器人若在走廊中央斷電，擋住的可能是緊急推床；倉儲AMR若在交叉口卡住，後面可能有一整列後續車輛與作業人員。這些場景都沒有「路肩」這種已被定義好的安全區可以退守，恢復行為本身就必須是一個具備情境判斷的決策，而不是一個預設動作。傳統的恢復機制是寫死的規則：抓失敗就重試、路徑不通就後退。但VLA的動作空間遠比工業機器人複雜，規則式恢復很快碰到上限。新一代的研究方向，例如牛津大學（Oxford）團隊2026年提出的CycleVLA，讓機器人具備「子任務回溯與重新採樣」的能力：偵測到異常狀態時，退回上一個合理子任務重新生成動作序列，而不是在當前已經失敗的軌跡上一路錯下去。這條路線把恢復從「固定流程」變成「動態決策」。技術之外，另一個正在快速逼近的議題是標準與認證。工業機器人（ISO 10218於2025年大改版）、倉儲移動機器人（ISO 3691-4、北美ANSI/RIA R15.08）、服務機器人（UL 3300於2025年獲OSHA認可）3條軌道各自在不同成熟度；EU AI Act與EU Machinery Regulation 2023/1230（2027年1月生效）則已把自主機器人列為高風險系統，要求風險管理、可解釋性與即時監督介面。但VLA這類具備語言理解與自主決策能力的系統，目前沒有任何一套標準完整覆蓋。設計上除了優化能力，也必須對齊安全與合規，這已是能否回應RFQ/RFI的基本門檻。VLA機器人的競爭力，未來幾年不會在於誰的動作最快、誰的模型最大，而在於誰的系統在面對未知環境與突發錯誤時，能同時展現出多層安全能力：實體濾波器守住空間邊界，物件安全約束判斷互動對象的情境危險性，語義守護者決定要不要做，韌性恢復決定做壞了還能否回到正軌。這些AI層的能力都運行在硬體層的傳統安全primitives（獨立MCU、扭矩限制、機械e-stop）之上；硬體地基仍然必要，但新一代的安全能力都落在AI層。四層缺一不可，而每一層都還有明顯的技術推進空間。這也說明安全不是機器人上市前的選配功能，而是整個系統設計的地基。對準備切入這個產業的團隊而言，智慧安全防護做得多深、多早，很可能決定產品能走多遠。

2026-04-28

機器人訓練資料從哪裡來？

太平洋兩岸的機器人新創與頂尖實驗室，這一年來在一件事上達成共識：模型架構不再是唯一焦點，資料成為競爭的核心資源。不論技術路線如何演變，多數團隊最終都會遇到同一個瓶頸——機器人行動「訓練資料」的規模嚴重不足。大語言模型的成功，建立在數十兆個從網路爬取的文字資料上；機器人需要的是機器人在真實物理環境中的動作序列、感測器數值與任務標註。研究估算，目前主流機器人訓練資料集的規模，比語言模型少了3個數量級以上。2025年底，Physical Intelligence的π₀在少量示範後的自主執行中，於數分鐘內完成疊衣任務；NVIDIA 的GR00T N1.6在同一個模型框架下可以同時操控7種不同機械手臂。這類進展的背後，架構設計看似重要，但資料規模才是關鍵。資料缺口，是機器人基礎模型能否真正大規模實際部署的天花板。面對這個落差，學術與產業界正從4個方向同時突破資料障礙：遙控示範、模擬器、網路影片、穿戴設備。4條路線各具特色，可以互相配搭。遙控示範（teleoperation）是目前高品質資料的主要來源。操作人員透過 VR 頭盔或主從控制臂等遠端介面操控機器人，系統同步記錄動作序列與感測器數據：資料真實，實體互動完整，動作標註精確。openVLA的訓練基礎就是採用97萬筆這類示範資料。近來也出現更輕量的工具，史丹福大學（Stanford）團隊開發的 UMI（Universal Manipulation Interface）以手持夾爪裝置，內建魚眼鏡頭與慣性感測器，操作人員在任意場景示範即可錄製，大幅降低收集門檻。問題在於規模：每筆資料仍需人力投入，以中國各地的機器人訓練中心為例，工作人員每天重複數百次開關微波爐、疊衣服，擴張速度終究受制於人力極限。模擬器（simulator）提供的是另一個極端：近乎無限的資料量、幾乎零邊際成本、可精確控制場景參數。從商業平台到MuJoCo、Genesis等開源工具，各樣投入都在朝高逼真物理模擬推進。但核心難題不在畫面是否逼真，而在接觸力學（contact dynamics）：兩物體碰觸瞬間的摩擦力、形變與反作用力，即使模型極度精細，轉移到真實機器人後仍常出現誤差。布料、電線、食材等柔性物體尤為困難，傳統剛體模擬難以精確處理。面對sim-to-real gap，目前嘗試2條路線：一是「域隨機化」（domain randomization），刻意擾動光影、質感、摩擦係數，讓模型學會不依賴特定環境特徵；二是 NVIDIA 的Cosmos世界基礎模型，以大量真實影像學習物理直覺，讓神經網路本身充當更逼真的模擬器。2條路都有進展，但讓模擬器成為可靠的免費資料工廠，仍有一段距離。網路影片是規模最大、卻最難直接使用的來源。YouTube上海量人類執行日常任務的影像，蘊含豐富的物件互動與動作語義，但影片裡看不到力道、關節角度與夾爪狀態，也沒有任何動作標註，且人手與機器人末端執行器存在根本的形態差異（embodiment gap）。Meta的Ego4D等大規模第一視角人類行為資料集，是目前這個方向最具代表性的嘗試。跨具身學習（cross-embodiment learning）是跨越這道障礙的主要技術路線：透過匯集來自不同機器人平台與人類示範的資料聯合訓練，讓模型學到不依賴特定硬體形態的通用動作表示；我們近期的研究也證實，這是一個有效的策略。具身智慧（Physical Intelligence）最新研究進一步顯示：當跨具身預訓練規模足夠大，「人類影片遷移到機器人動作」的能力會自然出現，不需要複雜的動作轉換層，意味著網路影片的可用性比原本預期的更高。穿戴設備（wearable devices）是最近快速發展的路線。輕量外骨骼或動作捕捉裝置讓操作人員在自然場景中活動，同步記錄全身動作與環境互動，再轉換為機器人可學習的格式。NuExo、HumanoidExo已能在戶外場景收集全上肢動作資料，場景多樣，資料自然，操作者的活動自由度也遠高於固定工作站的遙控示範。難點在於「動作轉換」（motion retargeting）：人體關節結構與機器人機械結構不完全對應，需要精密幾何映射，且轉換品質因平台而異。綜合目前領先團隊的做法，目前正在收斂出一個「兩段式」資料架構，邏輯上與LLM的預訓練／微調高度相似。第一階段是大規模、多元的預訓練，以網路影片、合成模擬資料為基礎，讓模型建立視覺語義與通用動作直覺；第二階段是少量、高品質的微調，以遙控示範或穿戴設備錄下的真實機器人資料，將能力實際部署到特定任務與平台。各家在這個資料策略的分歧，集中在對模擬器的信任程度。NVIDIA的GR00T N1是「重模擬」策略的代表：訓練資料呈3層金字塔，底層是網路影片與人類動作影像，中層是Isaac平台與Cosmos模型生成的合成軌跡，頂層才是真實遙控示範資料。NVIDIA曾在11小時內生成78萬條合成軌跡，相當於6,500小時人工示範；加入合成資料後，模型表現比純真實資料提升40%，是其力推模擬路線的具體依據。相對地，許多新創——尤其是中國團隊——對sim-to-real持保留態度。在精細操作上，模擬器的接觸力學與真實世界仍有落差，與其花工程資源橋接誤差，不如直接擴大真實資料的收集規模。具身智慧的 π₀以橫跨7種機器人平台、68項任務、超過1萬小時的遙控示範資料進行跨具身預訓練，針對新任務微調僅需1至20小時。Generalist AI的GEN-0則更為徹底，完全不用模擬，以27萬小時的純真機互動資料訓練，每週持續新增逾萬小時。這幾條路線背後有一個共同的結構：遙控示範與穿戴設備錄下的資料，目前主要扮演「微調材料」而非「訓練主體」的角色，提供的是最後那10%讓模型真正能用的能力，而非語義理解的來源。這個分工，正在促使各條路線重新定位自己的核心競爭力：模擬器拚的是物理引擎真實度，網路影片拚的是動作標註技術，遙控示範拚的是針對特定任務的示範品質。投資機構（如Merrill Lynch）預估2025年全球人形機器人出貨量約1.8萬台，是2024年的7倍；協作型機械手臂、自主移動機器人（AMR）等更成熟的平台部署規模更大，也都在加速整合新一代AI模型。電動車廠與第三方物流業者已在工廠與物流中心商業運轉。資料積累與部署量之間的正向循環已開始運作：部署量愈大，場域資料愈多；資料愈多，模型泛化愈強；模型愈強，部署門檻愈低。真正的競爭優勢，在於誰能以最符合成本的方式取得有效資料、在實際場域中持續迭代，進而建立起真正的資料護城河（moat）。

2026-04-24

智慧機器人如何學動作技能？

煎蛋翻面不到2秒，但每一步都是連續的感測判斷與力道決策；塗果醬、擺餐盤同樣如此。這類「低階技能」（atomic skill）的難點不在於執行固定軌跡，而在於複雜環境正確執行。前一篇討論的VLA架構解決的是（高階）任務規劃，本文要回答的是更深入的問題：機器人怎麼把每一個（低階）基本動作做好？傳統工廠機器人的動作，是不同性質的事。抓取、插件、焊接、鎖螺絲，關鍵字是「重複性」與「受控條件」：同一款零件在同一個位置，同樣的夾爪、同樣的軌跡、同樣的速度，不需要處理複雜變動環境。這類動作可以用固定程式精確執行，但容錯空間極低，環境稍有偏差就失效。過去教導機器手臂的主流方式，叫「示教法」（teach-and-playback）：操作員透過示教器（teach pendant）將手臂逐點移至目標位置、記錄各路徑點的關節角度，再讓機器人依序重放。環境固定的場景至今仍適用，但示教法本身沒有感測（甚至推理）能力——它只知道「下一個路徑點在哪裡」，換了零件或場景就要重新示教，遇到變動情境也無從判斷。從「執行固定軌跡」到「應對多變場景」，需要從根本上換一種動作學習邏輯。目前學界與業界收斂出2條主軸：強化學習（Reinforcement Learning；RL）與模仿學習（Imitation Learning；IL）。強化學習（RL）的基本邏輯是「從嘗試中學習」。機器人不看示範，自行在環境中試探；每次行動之後，根據結果的好壞（「獎勵信號」）調整策略，慢慢摸索出完成任務的方法。理論上，只要定義好成功標準（比如「蛋翻面後完整不破」），機器人甚至可能摸索出人類沒想到的解法。但是，RL在實體機器人上有一個根本缺陷：它需要大量的試誤次數才能收斂，而每一次試誤在真實機器人上都消耗時間，且有損壞設備的風險。在模擬器裡可以讓機器人不眠不休地失敗幾百萬次；搬到真實機器人上，同樣的學習量可能需要幾年。這就是為什麼 RL 在機器人領域目前主要的定位，是在模擬環境中預訓練，而非從頭在實體上學習。模仿學習（IL）走的是另一條路：讓機器人觀察人類示範，從中學習，而非從零試誤。在理解模仿學習之前，有一個基礎概念值得先釐清：「策略」（policy）。策略是機器人的決策核心：給定當下的感測狀態（攝影機畫面、關節角度、觸覺數值），輸出下一步應該執行的動作。訓練機器人動作的本質，就是在訓練一個好的策略。最直覺的模仿學習方式叫行為複製（behavioral cloning）：把人類示範的「狀態與對應動作」當作訓練資料，用監督式學習訓練策略。簡單，但有一個根本弱點：示範都是「做對了」的過程，機器人從未學過「偏掉了該怎麼辦」。執行時只要出現細微偏差，後續每一步的判斷都可能進一步出錯，誤差層層累積。任務愈長、步驟越多，這個問題愈致命。目前解決這個問題最具代表性的方向是「擴散策略」（Diffusion Policy）。它的技術來自於這幾年大家熟悉的（影像）生成式 AI，背後用的就是擴散模型：從隨機雜訊出發，經過多輪降噪處理，逐漸收斂出高品質影像。研究人員把同樣的架構搬進機器人控制，把輸出從畫素值換成連續的動作序列。傳統行為複製傾向輸出「平均解」，遇到同一任務有多種合理做法時往往哪邊都不對。擴散策略換了角度：不輸出單一動作，而是學習「給定當下狀態，合理動作的機率分布」，再從這個分布中採樣。降噪過程同時生成接下來若干步的完整動作序列，讓機器人不必每一步重新決策，動作因此更穩定、流暢。在相對少量的示範資料條件下，Diffusion Policy就能讓機器手臂完成需要精細力道控制的操作任務，是目前資料效率與效果兼顧最好的方法之一。更新的策略學習方向是「流匹配」（Flow Matching）。概念更直觀：與其從雜訊出發反覆降噪，不如直接學習從雜訊到目標動作的最短路徑，推論步驟因此大幅減少，速度更快、訓練也更穩定。目前已有機器人基礎模型採用此架構，在學界與業界逐漸受到重視。2條路線各有天花板。RL的試誤成本在實體機器人上難以接受，目前主要在模擬環境中預訓練，而非直接在實體上學習。IL的效果上限受制於示範資料的品質，示範者沒做過的，機器人就不會。實務上兩者通常搭配使用：模仿學習建立初始策略，強化學習在模擬環境中補足長尾情境。但不論哪條路，核心限制都指向同一件事：訓練資料。這也是太平洋兩岸的領先機器人研究團隊們已有的共識。示範資料從哪來、如何在可接受的成本下大規模取得，已經成為這場競賽真正的核心問題——這也是下一篇要探討的主題。

2026-04-15