공일 2025.3.20 - Batch Reinforcement Learning
·
공업일반
오늘부로 Batch Reinforcement Learning을 공부해 보려고 한다. 대충 자료들을 조사해 봤는데, 다음과 같다 :PostOffline (Batch) Reinforcement Learning: A Review of Literature and Applications한국어 번역 글TutorialOffline Reinforcement Learning: From Algorithms to Practical ChallengesResearch Paper  Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems A Survey on Offline Reinforcement Learning: Taxonomy, R..
공일 2025.3.19 - 프로젝트 계획서 (feat. The Bitter Lesson)
·
공업일반
어쩌다가 인터넷에서 다음 글을 접했다.http://www.incompleteideas.net/IncIdeas/BitterLesson.html The Bitter Lesson www.incompleteideas.net번역본https://chatgpt.com/share/67da3bc7-fd24-800c-a7f1-1228ddbdb443 강화학습을 접해봤다면 한번쯤은 들어봤을 Rich Sutton이 쓴 글이다.우리 연구의 방향이 특정 도메인에 대한 지식을 활용하는 방향 보다는 컴퓨팅 능력을 최대한 활용하는 방향으로 가야 한다는 이야기를 하는 것이다.울림(?)을 주는 글이니 안읽어 봤다면 읽어보길 추천한다. 내 공일 프로젝트 주제도 이러한 관점에서, 데이터와 컴퓨팅 능력을 최대한 활용하는 방향이 되는것도 좋을것 ..
공일 2025.3.18 (Transformer 구현)
·
공업일반
공부 목적으로 Transformer를 구현하고 한-영 번역기를 만들어 봤다.막상 Transformer구현 자체는 그리 어렵지 않았고, 데이터 처리를 구현하면서 꽤 애먹었다. Transformer Codeimport torch as thimport math_SQRT_EPS = 1e-5class LayerNorm(th.nn.Module) : def __init__(self, n_dim:int, eps:float=_SQRT_EPS) : super().__init__() self.eps = eps self.gamma = th.nn.Parameter(th.ones(size=(n_dim,), dtype=th.float32), requires_grad=True) ..
공일 2025.3.13 (Transformer 이론 공부)
·
공업일반
대신 수업시간에 짬내서 transformer를 공부했다. https://peterbloem.nl/blog/transformers요 블로그로 공부했는데, 처음 transformer를 공부하기에 괜찮은 글인듯 하다.  오늘 구현은 못할것 같고, 나중에 집가서 한번 더 꼼꼼히 읽고, 구현 해봐야겠다.
공일 2025.3.12
·
공업일반
아직 주제 선정을 못했다.2학년 2학기부터 rl quadruped locomotion을 해봤다 보니 이번에는 새로운걸 공부해서 다른 주제로 프로젝트를 해보려고 한다. 오늘은 간략하게 프로젝트 주제 선정에 앞서 공부할 내용들을 정리해 봤다.ML/DLTransformerVITDecision TransformerVAEVQ-VAEGenerativeDiffusionFlow MatchingRLOffline RLRobotics & Optimal Control Inverse kinematics MCPAdaptive Control, Robust Control 거의 다 모르는 내용들이고 키워드만 들어본 수준이지만, 개인적으로 재미있을것 같은 것들이라 공부해보려고 한다.플젝 주제 선정은 어느정도 공부한 이후에 해야지..
zanzun
'공업일반' 카테고리의 글 목록