본문 바로가기
Paper Review/NLP

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators 정리 리뷰 (1) _ intro, method

by hyelog 2022. 7. 9.

이번 논문은 저번 프로젝트에서 유용하게 사용했던 모델인 koELECTRA 모델을 리뷰해보도록 하겠습니다.

학습의 효율성에 초점을 둔 부분이 매우 흥미로웠습니다.

 

📍Introduction

현재 다양하고 널리 사용중인 MLM 모델들은 입력 시퀀스의 토큰 중 약 15%를 마스킹하고, 이를 복원하는 task를 통해 학습합니다. 기존 autoregressive language modeling 학습에 비해 양방향 정보를 고려하여 효과적입니다.

하지만 , 문제 역시 있었습니다.

 1. 하나의 시퀀스(per example)에서 15%만 학습하고, 나머지는 버려지기 때문에 학습에 비용이 많이 듭니다.

 2. Mismatch : 학습 시 사용된 [MASK] 토큰을 모델이 참고하여 예측하지만, 실제로는 해당 토큰이 존재하지 않습니다.

 

이 문제들에 대해 논문은 다음의 task를 제시합니다.

  • RTD(Replaced Token Detection) task
    • Generator를  이용하여 실제 입력 시퀀스의 토큰 일부를 가짜 토큰으로 바꿉니다.
    • 각 토큰들이 original 인지, replaced 인지 Discriminator가 맞추는 이진 분류 task입니다.

왼쪽이 오른쪽 줌-인한 버전

위의 Figure 1를 통해 성능과 효율성을 볼 수 있습니다.

동일한 모델 크기, 데이터, 계산량으로 비교했을 때 모든 학습 과정에서 높은 GLUE 성능을 보입니다. 더해, 다른 방식들에 비해 빨간색 ELECTRA가 빠르게 성능이 향상됩니다. 

  • 수치비교
    • ELECTRA-small : GPU x 1, 4days (BERT- large 대비 1/135의 계산량, 1/20의 파라미터 수)
    • ELECTRA-large : 더 적은 파라미터, 1/4의 계산량으로 RoBERTa, XLNet과 비슷한 성능

this is more compute-efficient and parameter-efficient than existing generative approaches for language representation learning. ➡ 전보다 더욱 효율적이다!

 

✅Method

RTD의 기본 구조

RTD task를 위해서 generator G 와 discriminator D 가 필요합니다.

두 네트워크는 모두  transformer encoder 구조로 구성되어 있습니다.

 

MLM loss func

 

$$D(x,t) = sigmoid(w^Th_{D}(x)_{t}) ➡ output\; layer$$

3. 마지막으로, MLM loss로 학습합니다.

Discriminator loss func

최종적으로, 

최종 loss func

다음의 loss function을 최소화 하고, 이 구조로 pre-training을 마친 뒤에 Generator를 버리고, Discriminator만 가져와 downstream task로 fine-tuning을 진행합니다.

  • Discriminator를 속이기 위해 적대적(adversarially)으로 학습시키는 게 아님

 

 

'Paper Review > NLP' 카테고리의 다른 글

Transformer : Attention is All you Need Paper 정리  (0) 2022.06.10

댓글