문장을 분석한 뒤 6가지 감정 중 하나로 분류하는 모델을 검색하고, 해당 모델에 대해 학습 및 테스트하고 서버에 올리는 과정을 정리했다.
ALBERT는 BERT 모델의 경량화 된 버전으로 이를 이해하려면 BERT 모델을 먼저 이해해야 한다.
BERT는 Bidrectional Encoder Representations from Transformers의 약자로 Transformer 기반의 자연어 처리를 위한 NLP 모델이다. BERT는 위 사진의 모델 아키텍쳐 중 인코더만 사용하는 모델이다.
unlabeled data로 모델을 미리 학습 시킨 후, 특정 task를 가지고 있는 labeled data로 transfer learning을 한다.
BERT의 pre-trained 과정
Model Arcitecture
Transformer 중에서 Encoder 부분만 사용

위 그림과 같이 BERT는 3가지 embedding 값의 합으로 이루어져 있음
WordPiece Embedding과, Position Embedding을 사용햇다. wordpiece embedding은 세상의 모든 단어들을 다 학습할 수는 없기 때문에 사용할 단어를 한정 짓는 방법이다.
모든 Sentence의 첫 번째 Token은 [CLS] (special classification token)을 가지게 된다. 이 토큰은 학습 후, token sequence의 결합된 의미를 가지게 된다. 따라서 classifier를 붙이면 단일 문장 혹은 연속된 문장의 classification을 하는데 도움이 된다.
BERT 모델의 성능 비교
