공일 2025.3.20 - Batch Reinforcement Learning
·
공업일반
오늘부로 Batch Reinforcement Learning을 공부해 보려고 한다. 대충 자료들을 조사해 봤는데, 다음과 같다 :PostOffline (Batch) Reinforcement Learning: A Review of Literature and Applications한국어 번역 글TutorialOffline Reinforcement Learning: From Algorithms to Practical ChallengesResearch Paper  Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems A Survey on Offline Reinforcement Learning: Taxonomy, R..
공일 2025.3.19 - 프로젝트 계획서 (feat. The Bitter Lesson)
·
공업일반
어쩌다가 인터넷에서 다음 글을 접했다.http://www.incompleteideas.net/IncIdeas/BitterLesson.html The Bitter Lesson www.incompleteideas.net번역본https://chatgpt.com/share/67da3bc7-fd24-800c-a7f1-1228ddbdb443 강화학습을 접해봤다면 한번쯤은 들어봤을 Rich Sutton이 쓴 글이다.우리 연구의 방향이 특정 도메인에 대한 지식을 활용하는 방향 보다는 컴퓨팅 능력을 최대한 활용하는 방향으로 가야 한다는 이야기를 하는 것이다.울림(?)을 주는 글이니 안읽어 봤다면 읽어보길 추천한다. 내 공일 프로젝트 주제도 이러한 관점에서, 데이터와 컴퓨팅 능력을 최대한 활용하는 방향이 되는것도 좋을것 ..
공일 2025.3.18 (Transformer 구현)
·
공업일반
공부 목적으로 Transformer를 구현하고 한-영 번역기를 만들어 봤다.막상 Transformer구현 자체는 그리 어렵지 않았고, 데이터 처리를 구현하면서 꽤 애먹었다. Transformer Codeimport torch as thimport math_SQRT_EPS = 1e-5class LayerNorm(th.nn.Module) : def __init__(self, n_dim:int, eps:float=_SQRT_EPS) : super().__init__() self.eps = eps self.gamma = th.nn.Parameter(th.ones(size=(n_dim,), dtype=th.float32), requires_grad=True) ..
zanzun