정보 : Sinusoidal Positional Encoding

0. Positional Encoding 이란

Positional Encoding은 Transformer에서 사용되는 테크닉이다.

Trasnformer의 기본 입력은 Sequence이고, 이를 처리하는 주요 Layer는 Self-Attention이다.

Sequence는 기본적으로 순서에 따른 정보(선후,거리)가 존재한다.

Self-Attention은 RNN과 달리 순서 정보를 내부적으로 모델링 할 수는 구조이다.

Positional Encoding은 이를 극복하기위해 임베딩 벡터에 위치 정보를 더해주는 테크닉이다.

1. Types of Positional Encoding

특정 Sequence에 Position정보를 더해주려면 어떻게 할 수 있을까? Naive한 방법부터 실제 Transofrmer에 사용되는 Sinusoidal 방식까지 살펴보자.

1. Count

방법 : 그냥 Index를 세서 Position으로 넣어준다.

문제 : 일반적으로 Network에 들어가는 Feature대비 Scale이 너무크다. Gradient관련 문제가 생긴다.

2. Normalized Count

방법 : Count 방법의 문제를 해결하기 위해 가장 큰 값으로 나눈다.

문제 : 가장 큰 값이 길이에 따라 가변적이므로 Position 정보가 매번 바뀐다. 길이가 10인 Sequence의 5번째 위치값이나, 길이가 20인 Sequence의 10번째 위치값이 같다.

3. Count but Using Binary

방법 : Count하고 결과를 Binary Vector로 표현한다. 값이 0~1에 존재하고, 위치에 따라 고정된 값을 뱉는다.

문제 : Discrete함수의 결과값이라 거리로 사용하기 힘들다

왜 Discrete 하면 거리로 사용하기 힘든가?

4. Continous Binary Vector

Binary Vector를 Continous하게 만들기 위해선, 그 사이를 주기를 갖고 보간해줄 함수가 필요하다. 이때 삼각함수가 적절한 도구가 될 수 있다. [-1,1]의 범위를 갖고 있으며 주기성또한 존재하기 때문이다. 삼각함수를 적용하기 위한 설명을 위해 아래 그림을 보자.