Miscellaneous62 [2025-1] 조환희 - Flow-based Models 1. 사전지식아래와 같은 식이 있다고 하자.여기서 a는 scale, b 는 bias 이다.이떄 역함수를 표현하는 방법은 아래와 같이 된다.행렬에서도 똑같다.W는 scale 행렬, B는 bias 행렬이다. y = Wx + B 처럼 벡터 공간(행렬)에서 선형변환(Linear Transformation) Wx과 Bias 행렬 B가 더해지는 변환을 Affine Transformation(아핀변환) 이라고 한다. 생성모델을 만들 때 우리는 최대한 특정 y=f(x)와 비슷한 잠재변수 z를 계산해 모델을 만든다. 그럼 아래와 같이 z를 이용해 x와 최대한 닮은 z를 계산할 수 있을 것이다.Flow based 모델은 변수 x를 최대한 잘 표현할 수 있는 잠재변수 z를 계산하는 z = f(x)를 학습하되, f의 역함수 .. 2025. 2. 15. [2025-1] 박제우 - A Unified Approach to Interpreting Model Predictions https://arxiv.org/abs/1705.07874 A Unified Approach to Interpreting Model PredictionsUnderstanding why a model makes a certain prediction can be as crucial as the prediction's accuracy in many applications. However, the highest accuracy for large modern datasets is often achieved by complex models that even experts struggle to interpret, such as ensemble or deep learning models, cre...arxiv.org.. 2025. 2. 8. [2025-1] 노하림 - A2C A2C 알고리즘A2C는 정책 기울기(Policy Gradient) 방법을 기반으로 하며, 액터-크리틱 구조를 사용하여 정책(Actor)과 가치 함수(Critic)를 동시에 학습하는 알고리즘이다. A2C는 기존 강화 학습 알고리즘의 단점을 보완하며, 샘플의 분산을 줄이고 안정적인 학습을 가능하게 한다. 또한 정책과 가치 함수를 동시에 학습하며 정책의 안정성과 학습 효율성을 모두 높인다. 어드밴티지 함수\[ A(s, a) = Q(s, a) - V(s) \]\( Q(s, a) \): 특정 상태에서 특정 행동의 가치 \( V(s) \): 상태의 가치Q함수에 상태 함수 $s_t$만 들어간 경우 액션 함수가 아닌 상태 함수가 들어가 적분에 영향을 주지 않는다. 이 경우 Q함수의 구조가 단순해지며 액션에 대한 정보가.. 2025. 1. 26. [2025-1] 김은서 - Actor-Critic https://youtu.be/DnwRhx5EI38?si=z-krgX0xE_5I9Zc0 1. Policy Gradientpolicy gradient는 강화학습에서 정책(policy)을 직접 학습하는 방법이다. 여기서 정책은 $\pi_{θ}(a|s)$로 표현되며, 상태 s에서 행동 a를 선택할 확률 분포를 나타낸다.policy gradient의 목표는 정책을 업데이트하여 expected return을 최대화 하는 것이다. 목표 함수는 다음과 같다.$$ J(θ)=E_{π_{θ}}[R] $$핵심은 이 $J(θ)$를 최대화하기 위한 기울기를 계산하는 것이다. 따라서 policy gradient 정리는 다음과 같다.$$ ∇_{θ}J(θ)\cong \int_{\tau}^{}\sum_{t=0}^\infty∇_{θ}l.. 2025. 1. 26. 이전 1 ··· 4 5 6 7 8 9 10 ··· 16 다음