공일 2025.3.20 - Batch Reinforcement Learning
·
공업일반
오늘부로 Batch Reinforcement Learning을 공부해 보려고 한다. 대충 자료들을 조사해 봤는데, 다음과 같다 :PostOffline (Batch) Reinforcement Learning: A Review of Literature and Applications한국어 번역 글TutorialOffline Reinforcement Learning: From Algorithms to Practical ChallengesResearch Paper  Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems A Survey on Offline Reinforcement Learning: Taxonomy, R..
공일 2025.3.19 - 프로젝트 계획서 (feat. The Bitter Lesson)
·
공업일반
어쩌다가 인터넷에서 다음 글을 접했다.http://www.incompleteideas.net/IncIdeas/BitterLesson.html The Bitter Lesson www.incompleteideas.net번역본https://chatgpt.com/share/67da3bc7-fd24-800c-a7f1-1228ddbdb443 강화학습을 접해봤다면 한번쯤은 들어봤을 Rich Sutton이 쓴 글이다.우리 연구의 방향이 특정 도메인에 대한 지식을 활용하는 방향 보다는 컴퓨팅 능력을 최대한 활용하는 방향으로 가야 한다는 이야기를 하는 것이다.울림(?)을 주는 글이니 안읽어 봤다면 읽어보길 추천한다. 내 공일 프로젝트 주제도 이러한 관점에서, 데이터와 컴퓨팅 능력을 최대한 활용하는 방향이 되는것도 좋을것 ..
공일 2025.3.18 (Transformer 구현)
·
공업일반
공부 목적으로 Transformer를 구현하고 한-영 번역기를 만들어 봤다.막상 Transformer구현 자체는 그리 어렵지 않았고, 데이터 처리를 구현하면서 꽤 애먹었다. Transformer Codeimport torch as thimport math_SQRT_EPS = 1e-5class LayerNorm(th.nn.Module) : def __init__(self, n_dim:int, eps:float=_SQRT_EPS) : super().__init__() self.eps = eps self.gamma = th.nn.Parameter(th.ones(size=(n_dim,), dtype=th.float32), requires_grad=True) ..
공일 2025.3.13 (Transformer 이론 공부)
·
공업일반
대신 수업시간에 짬내서 transformer를 공부했다. https://peterbloem.nl/blog/transformers요 블로그로 공부했는데, 처음 transformer를 공부하기에 괜찮은 글인듯 하다.  오늘 구현은 못할것 같고, 나중에 집가서 한번 더 꼼꼼히 읽고, 구현 해봐야겠다.
공일 2025.3.12
·
공업일반
아직 주제 선정을 못했다.2학년 2학기부터 rl quadruped locomotion을 해봤다 보니 이번에는 새로운걸 공부해서 다른 주제로 프로젝트를 해보려고 한다. 오늘은 간략하게 프로젝트 주제 선정에 앞서 공부할 내용들을 정리해 봤다.ML/DLTransformerVITDecision TransformerVAEVQ-VAEGenerativeDiffusionFlow MatchingRLOffline RLRobotics & Optimal Control Inverse kinematics MCPAdaptive Control, Robust Control 거의 다 모르는 내용들이고 키워드만 들어본 수준이지만, 개인적으로 재미있을것 같은 것들이라 공부해보려고 한다.플젝 주제 선정은 어느정도 공부한 이후에 해야지..
ML-Agents Crawler 환경을 stable-baselines3로 학습하기
·
인공지능
ML-Agents를 이용해서 환경을 만들고 이를 학습시키보던 중 신기한(?) 현상을 발견했다.모든 hyperparameter가 같음에도 불구하고 ML-Agents 알고리즘과 SB3(Stable-Baselines3) 알고리즘의 성능 차이가 너무 크게 났던 것이다. (ML-Agents PPO가 SB3 PPO보다 훨씬 우세했다.)ML-Agents와 SB3의 PPO 코드를 엄청 뜯어보고 고친 결과 SB3 PPO를 이용해 Crawler환경에서 ML-Agents PPO의 성능을 동일하게 재현할 수 있었다.따라서 이 글에서는 SB3 PPO로 ML-Agents PPO의 성능을 재현하는 방법을 써보려고 한다. ML-Agents Crawler 환경본론에 들어가기에 앞서, 테스트에 사용된 Crawler환경에 대해서 간략히 ..
백준 - 랜덤 걷기(3946)
·
PS
문제 다음과 같이 dp를 정의하자.$\text{dp}[n,k]$ : $n$번 진행했을때 가장 오른쪽 위치가 $k$일 확률 $n$번의 이동은 ($1$번의 이동) + ($n-1$번의 이동)으로 나눌 수 있다.이 아이디어를 적용해 다음과 같이 점화식을 구성할 수 있다.$$ \text{dp}[n,k] =p_\text{left} \cdot \text{dp}[n-1,k+1] +p_\text{stay} \cdot \text{dp}[n-1,k] +p_\text{right} \cdot \text{dp}[n-1,k-1] $$그런데, 가장 오른쪽의 위치가 $0$인 경우는 특별히 고려해 줄게 더 있다.이유는 설명하지 않겠지만 결과를 이야기 하자면, $\text{dp}[n,0]$를 계산할때 $p_\text{left} \cdot..
백준 - 전령들(3319)
·
PS
문제  이 문제의 dp 점화식은 어렵지 않게 구할 수 있다.$\text{dp}[i]$ : i번째 정점에서 1번 정점까지 메시지를 전하는데 걸리는 최소 시간$\text{dp}[i] = \min_j \left( \text{dp}[p_j] - v_i d_{p_j} \right) + s_i + v_i d_i$$p_j$ : 현재 정점의 $j$번째 parent$d_i$ : 1번 정점부터 i번째 정점 까지의 거리위 점화식의 $ \text{dp}[p_j] - v_i d_{p_j} $ 는 $ - d_{p_j} $와 $ \text{dp}[p_j] $ 를 각각 기울기와 y절편 으로 하는 직선에 대해 $x=v_i$ 일때의 값으로 볼 수 있으니까 CHT를 이용할 수 있다. 풀이 1 (내 풀이)DFS로 1번 노드부터 순서대로 d..
2023 IOI 교육생 선발 면접 문제 - 2번
·
수학
문제무한한 격자판이 있다고 하자.각 셀은 0 또는 1의 상태를 가질 수 있다.각 셀은 단위 시간 마다 다음 규칙에 따라서 상태가 바뀐다.$t$ 시간에 어떤 셀의 위치를 $(r,c)$ 라고 할 때 $(r+1,c)$와 $(r,c+1)$ 위치의 셀이 모두 $1$ 이면 $t+1$시간에 $(r,c)$ 셀의 상태는 1이다.$t$ 시간에 어떤 셀의 위치를 $(r,c)$ 라고 할 때 $(r+1,c)$ 또는 $(r,c+1)$ 위치의 셀이 $0$ 이면 $t+1$시간에 $(r,c)$ 셀의 상태는 0이다.초기에 상태가 1인 셀들이 유한하다고 할 때, 시간이 충분히 흐른다면 모든 셀들의 상태가 0이 됨을 보이시오.증명$t$ 시간에 1인 셀의 개수를 $n_t$, 초기에 1인 셀의 개수를 $m=n_0$, 각 셀의 상태를 $s(r,..
백준 - 수열 나누기(10067)
·
PS
문제 가장 먼저 문제에서 다음을 관찰해야 한다 :어떤 수열이 최종적으로 k개의 그룹으로 나누고, 이 각 그룹의 합이 인덱스 순서대로 $s_1,s_2,\cdots,s_k$ 라고 하자.그러면 처음 수열에서 어떠한 순서로 나누든간에 점수는 $\sum_{1 \leqslant i 즉, 우리는 이제 어떤 수열을 적절하게 m번 나누기만 하면 된다. (위의 관찰 이전에는 그룹을 나누는 순서도 고려했어야 되지만, 이제는 순서는 고려할 필요가 없게 되었다.) $\text{dp}[k][i]$를 "수열의 1~i 까지의 구간에 대해서 k번 나눌때 얻을 수 있는 최대 점수"로 정의하고 점화식을 구해보자.$$\begin{align}\text{dp}[k][i]&= \max_{1 \leqslant k &= \max_{1 \leqsla..
zanzun
'분류 전체보기' 카테고리의 글 목록