ML-Agents Crawler 환경을 stable-baselines3로 학습하기
·
인공지능
ML-Agents를 이용해서 환경을 만들고 이를 학습시키보던 중 신기한(?) 현상을 발견했다.모든 hyperparameter가 같음에도 불구하고 ML-Agents 알고리즘과 SB3(Stable-Baselines3) 알고리즘의 성능 차이가 너무 크게 났던 것이다. (ML-Agents PPO가 SB3 PPO보다 훨씬 우세했다.)ML-Agents와 SB3의 PPO 코드를 엄청 뜯어보고 고친 결과 SB3 PPO를 이용해 Crawler환경에서 ML-Agents PPO의 성능을 동일하게 재현할 수 있었다.따라서 이 글에서는 SB3 PPO로 ML-Agents PPO의 성능을 재현하는 방법을 써보려고 한다. ML-Agents Crawler 환경본론에 들어가기에 앞서, 테스트에 사용된 Crawler환경에 대해서 간략히 ..
백준 - 랜덤 걷기(3946)
·
PS
문제 다음과 같이 dp를 정의하자.$\text{dp}[n,k]$ : $n$번 진행했을때 가장 오른쪽 위치가 $k$일 확률 $n$번의 이동은 ($1$번의 이동) + ($n-1$번의 이동)으로 나눌 수 있다.이 아이디어를 적용해 다음과 같이 점화식을 구성할 수 있다.$$ \text{dp}[n,k] =p_\text{left} \cdot \text{dp}[n-1,k+1] +p_\text{stay} \cdot \text{dp}[n-1,k] +p_\text{right} \cdot \text{dp}[n-1,k-1] $$그런데, 가장 오른쪽의 위치가 $0$인 경우는 특별히 고려해 줄게 더 있다.이유는 설명하지 않겠지만 결과를 이야기 하자면, $\text{dp}[n,0]$를 계산할때 $p_\text{left} \cdot..
백준 - 전령들(3319)
·
PS
문제  이 문제의 dp 점화식은 어렵지 않게 구할 수 있다.$\text{dp}[i]$ : i번째 정점에서 1번 정점까지 메시지를 전하는데 걸리는 최소 시간$\text{dp}[i] = \min_j \left( \text{dp}[p_j] - v_i d_{p_j} \right) + s_i + v_i d_i$$p_j$ : 현재 정점의 $j$번째 parent$d_i$ : 1번 정점부터 i번째 정점 까지의 거리위 점화식의 $ \text{dp}[p_j] - v_i d_{p_j} $ 는 $ - d_{p_j} $와 $ \text{dp}[p_j] $ 를 각각 기울기와 y절편 으로 하는 직선에 대해 $x=v_i$ 일때의 값으로 볼 수 있으니까 CHT를 이용할 수 있다. 풀이 1 (내 풀이)DFS로 1번 노드부터 순서대로 d..
zanzun
zanzun blog