오늘부로 Batch Reinforcement Learning을 공부해 보려고 한다.

 

대충 자료들을 조사해 봤는데, 다음과 같다 :

 

방금 BCQ 논문을 introduction 까지만 봤는데, 대충 추측하기로는 VAE로 action distribution을 학습한뒤, action sampling시 latent space에서 truncated sampling을 적용한는 방식이 될 듯 하다.

 

꽤 흥미로워 보여서 빨리 다 읽어봐야겠다.

zanzun