이번 논문은 저번 프로젝트에서 유용하게 사용했던 모델인 koELECTRA 모델을 리뷰해보도록 하겠습니다.
학습의 효율성에 초점을 둔 부분이 매우 흥미로웠습니다.
📍Introduction
현재 다양하고 널리 사용중인 MLM 모델들은 입력 시퀀스의 토큰 중 약 15%를 마스킹하고, 이를 복원하는 task를 통해 학습합니다. 기존 autoregressive language modeling 학습에 비해 양방향 정보를 고려하여 효과적입니다.
하지만 , 문제 역시 있었습니다.
1. 하나의 시퀀스(per example)에서 15%만 학습하고, 나머지는 버려지기 때문에 학습에 비용이 많이 듭니다.
2. Mismatch : 학습 시 사용된 [MASK] 토큰을 모델이 참고하여 예측하지만, 실제로는 해당 토큰이 존재하지 않습니다.
이 문제들에 대해 논문은 다음의 task를 제시합니다.
- RTD(Replaced Token Detection) task
- Generator를 이용하여 실제 입력 시퀀스의 토큰 일부를 가짜 토큰으로 바꿉니다.
- 각 토큰들이 original 인지, replaced 인지 Discriminator가 맞추는 이진 분류 task입니다.
위의 Figure 1를 통해 성능과 효율성을 볼 수 있습니다.
동일한 모델 크기, 데이터, 계산량으로 비교했을 때 모든 학습 과정에서 높은 GLUE 성능을 보입니다. 더해, 다른 방식들에 비해 빨간색 ELECTRA가 빠르게 성능이 향상됩니다.
- 수치비교
- ELECTRA-small : GPU x 1, 4days (BERT- large 대비 1/135의 계산량, 1/20의 파라미터 수)
- ELECTRA-large : 더 적은 파라미터, 1/4의 계산량으로 RoBERTa, XLNet과 비슷한 성능
this is more compute-efficient and parameter-efficient than existing generative approaches for language representation learning. ➡ 전보다 더욱 효율적이다!
✅Method
RTD task를 위해서 generator G 와 discriminator D 가 필요합니다.
두 네트워크는 모두 transformer encoder 구조로 구성되어 있습니다.
$$D(x,t) = sigmoid(w^Th_{D}(x)_{t}) ➡ output\; layer$$
3. 마지막으로, MLM loss로 학습합니다.
최종적으로,
다음의 loss function을 최소화 하고, 이 구조로 pre-training을 마친 뒤에 Generator를 버리고, Discriminator만 가져와 downstream task로 fine-tuning을 진행합니다.
- Discriminator를 속이기 위해 적대적(adversarially)으로 학습시키는 게 아님
➡
'Paper Review > NLP' 카테고리의 다른 글
Transformer : Attention is All you Need Paper 정리 (0) | 2022.06.10 |
---|
댓글