발단

각각의 토큰별로 normalize 한 다음에 feature별로 $\gamma, \beta$를 구하는 것이 어색함
다른 자료(아래 우측)와 비교했을 때, $\gamma, \beta$ 가 BN과 LN의 normalization 방식 차이(batch에 대해서냐, 각 sample에 대해서냐)에 따라 다르게 계산되는지가 헷갈림
왜, 언제 Layer Normalization을 쓰는지?
정두해 캠퍼님의 질문이 딱 내가 궁금한 내용과 맞아 떨어짐
위 내용을 정리 싹 정리하고자함

Untitled

Batch Normalization

장점
- 학습 속도 가속화
- 가중치 초기화에 대한 민감도 감소
- 모델의 일반화 효과
관련 연구 : 입력 데이터의 정규화(Normalization)
- 하나의 데이터가 각각의 feature에 대해 동일한 값의 범위를 갖도록 함
- 학습 속도 개선(Large LR 사용 가능)
Motivation: 각 레이어에 대한 입력 분포를 정규화
- 초기 입력 뿐만 아니라 각각의 hidden layer에 대해서도 분포를 정규화하여 성능 향상
- 초기 입력이 정규분포를 띄어도 학습을 진행하면서 그 입력 분포가 바뀔 수 있는데, 이를 개선해서 성능을 향상시켜보자
Method
- 각 feature에 대하여 batch 차원(i)으로 normalize 한 후, 각 feature에 대한 $\gamma, \beta$ 를 학습한다(입력 데이터의 차원 수 만큼의 $\gamma, \beta$).
- 일반적인 FC Layer와 ConvNet에서의 방식 차이가 조금 있는데, ConvNet에서는 Spatial 정보(H, W 차원) 또한 데이터 샘플로 취급해준다(즉, filter가 stride하면서 겹치는 각각의 데이터를 배치 데이터로 취급(아래에서 N처럼 취급)하여 Normalize할 전체 배치 샘플에 포함시키는 방식