當(dāng)前位置: 首頁 > 工業(yè)控制產(chǎn)品 > 運(yùn)動控制 > 工業(yè)機(jī)器人 > 直角坐標(biāo)型工業(yè)機(jī)器人
發(fā)布日期:2022-04-18 點(diǎn)擊率:48
近兩年機(jī)器智能取得重大突破,像圍棋九段高手李世石敗北Alpha Go,DeepMind團(tuán)隊(duì)研發(fā)的機(jī)器人在Atari多項(xiàng)游戲上超越人類水平。這些突破主要得益于從基于深度學(xué)習(xí)的視覺、語音、語義感知到動作反饋的激勵懲罰強(qiáng)化訓(xùn)練模式。本文從概念上分析深度強(qiáng)化學(xué)習(xí)的要點(diǎn),部分摘于ICML 2016 Tutorial里的Deep Reinforcement Learning[1]的報告。
強(qiáng)化學(xué)習(xí),即機(jī)器人根據(jù)環(huán)境里動作得到的懲罰和激勵去自動調(diào)整策略。通過訓(xùn)練,機(jī)器人學(xué)到一組策略:在環(huán)境狀態(tài)S下應(yīng)采取動作A,(可)能獲得最大累積獎勵V。
強(qiáng)化學(xué)習(xí)有豐富的交叉學(xué)科背景,包括經(jīng)濟(jì)學(xué)、工程學(xué)、神經(jīng)科學(xué)里的博弈論、優(yōu)化控制,條件反射系統(tǒng)。
下一篇: PLC、DCS、FCS三大控
上一篇: 索爾維全系列Solef?PV