Word2Vec#

Word to Vector

왜 씀? 단어들 사이의 관계가 벡터의 덧셈과 뺄셈으로 표현됨

방법#

NNLM, RNN 등보다 훨씬 빠름 (은닉층이 없음)

계층적 softmax -> Huffman tree 사용해서 log V번 쿼리&공간으로 단어 찾기 + 자주 사용되는 단어는 루트 가깝게

RNN + Attention, CNN + Attention 있었음
But RNN, CNN 구림 -> Attention만 써보죠?

Encoder, decoder가 있음

Positional embedding - sinusoid 사용

$PE_{pos+k}$ 가 $PE_{pos}$ 의 linear function이 되기 때문에 relative position에 대한 attention이 잘 계산될 거라는 기대가 있음

빠르다! 좋다!

실제로 multi-head attention이 문장의 서로 다른 문맥적 구조를 파악한다.

Attention masking으로는 해결이 안 됨 -> 마스크 토큰을 따로 만들어서 문장으로 집어넣음

Layer (Attention 부분), Head (Attention 통과된걸 output으로 바꿔줌)

보통 Fine-tuning을 씀
왜냐 Feature-based는 head가 학습되려면 layer만큼 깊이가 있어야 하기 때문에 Fine-tuning이 더 빠르고 성능도 잘 나옴

Bert는 subword로 tokenize함 (e.g. singing -> sing + ##ing)

여러 special token도 존재함