오늘부로 Batch Reinforcement Learning을 공부해 보려고 한다.
대충 자료들을 조사해 봤는데, 다음과 같다 :
- Post
- Tutorial
- Research Paper
- ChatGPT
방금 BCQ 논문을 introduction 까지만 봤는데, 대충 추측하기로는 VAE로 action distribution을 학습한뒤, action sampling시 latent space에서 truncated sampling을 적용한는 방식이 될 듯 하다.
꽤 흥미로워 보여서 빨리 다 읽어봐야겠다.
'공업일반' 카테고리의 다른 글
공일 2025.3.19 - 프로젝트 계획서 (feat. The Bitter Lesson) (0) | 2025.03.19 |
---|---|
공일 2025.3.18 (Transformer 구현) (0) | 2025.03.19 |
공일 2025.3.13 (Transformer 이론 공부) (0) | 2025.03.19 |
공일 2025.3.12 (0) | 2025.03.19 |
오늘부로 Batch Reinforcement Learning을 공부해 보려고 한다.
대충 자료들을 조사해 봤는데, 다음과 같다 :
- Post
- Tutorial
- Research Paper
- ChatGPT
방금 BCQ 논문을 introduction 까지만 봤는데, 대충 추측하기로는 VAE로 action distribution을 학습한뒤, action sampling시 latent space에서 truncated sampling을 적용한는 방식이 될 듯 하다.
꽤 흥미로워 보여서 빨리 다 읽어봐야겠다.
'공업일반' 카테고리의 다른 글
공일 2025.3.19 - 프로젝트 계획서 (feat. The Bitter Lesson) (0) | 2025.03.19 |
---|---|
공일 2025.3.18 (Transformer 구현) (0) | 2025.03.19 |
공일 2025.3.13 (Transformer 이론 공부) (0) | 2025.03.19 |
공일 2025.3.12 (0) | 2025.03.19 |