還是以上圖為例,如果在狀態s2時頂層提出一個g2子目標(很難完成),這時智慧體來檢測這個子目標,底層策略執行最多5個動作來到達g2,最終達不到這個目標,這時生成下面的transition:(獎勵為-H)[initial state=s2,a...