while1grad_fxk=subs(grad_fx,var_x,xk)...
圖注:並行分散式取樣計算架構如圖所示,多個Actor程序在多個CPU上並行執行,Actor負責根據本地網路引數對應的策略與環境互動和探索,並生成軌跡資料供Learner訓練...