zanzun blog

공일 2025.3.20 - Batch Reinforcement Learning

2025.03.20·

공업일반

오늘부로 Batch Reinforcement Learning을 공부해 보려고 한다. 대충 자료들을 조사해 봤는데, 다음과 같다 :PostOffline (Batch) Reinforcement Learning: A Review of Literature and Applications한국어 번역 글TutorialOffline Reinforcement Learning: From Algorithms to Practical ChallengesResearch Paper Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems A Survey on Offline Reinforcement Learning: Taxonomy, R..

공일 2025.3.19 - 프로젝트 계획서 (feat. The Bitter Lesson)

2025.03.19·

공업일반

어쩌다가 인터넷에서 다음 글을 접했다.http://www.incompleteideas.net/IncIdeas/BitterLesson.html The Bitter Lesson www.incompleteideas.net번역본https://chatgpt.com/share/67da3bc7-fd24-800c-a7f1-1228ddbdb443 강화학습을 접해봤다면 한번쯤은 들어봤을 Rich Sutton이 쓴 글이다.우리 연구의 방향이 특정 도메인에 대한 지식을 활용하는 방향 보다는 컴퓨팅 능력을 최대한 활용하는 방향으로 가야 한다는 이야기를 하는 것이다.울림(?)을 주는 글이니 안읽어 봤다면 읽어보길 추천한다. 내 공일 프로젝트 주제도 이러한 관점에서, 데이터와 컴퓨팅 능력을 최대한 활용하는 방향이 되는것도 좋을것 ..

공일 2025.3.18 (Transformer 구현)

2025.03.19·

공업일반

공부 목적으로 Transformer를 구현하고 한-영 번역기를 만들어 봤다.막상 Transformer구현 자체는 그리 어렵지 않았고, 데이터 처리를 구현하면서 꽤 애먹었다. Transformer Codeimport torch as thimport math_SQRT_EPS = 1e-5class LayerNorm(th.nn.Module) : def __init__(self, n_dim:int, eps:float=_SQRT_EPS) : super().__init__() self.eps = eps self.gamma = th.nn.Parameter(th.ones(size=(n_dim,), dtype=th.float32), requires_grad=True) ..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

전체 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역