ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators 정리 리뷰 (1)

이번 논문은 저번 프로젝트에서 유용하게 사용했던 모델인 koELECTRA 모델을 리뷰해보도록 하겠습니다.

학습의 효율성에 초점을 둔 부분이 매우 흥미로웠습니다.

📍Introduction

현재 다양하고 널리 사용중인 MLM 모델들은 입력 시퀀스의 토큰 중 약 15%를 마스킹하고, 이를 복원하는 task를 통해 학습합니다. 기존 autoregressive language modeling 학습에 비해 양방향 정보를 고려하여 효과적입니다.

하지만 , 문제 역시 있었습니다.

1. 하나의 시퀀스(per example)에서 15%만 학습하고, 나머지는 버려지기 때문에 학습에 비용이 많이 듭니다.

2. Mismatch : 학습 시 사용된 [MASK] 토큰을 모델이 참고하여 예측하지만, 실제로는 해당 토큰이 존재하지 않습니다.

이 문제들에 대해 논문은 다음의 task를 제시합니다.

RTD(Replaced Token Detection) task
- Generator를 이용하여 실제 입력 시퀀스의 토큰 일부를 가짜 토큰으로 바꿉니다.
- 각 토큰들이 original 인지, replaced 인지 Discriminator가 맞추는 이진 분류 task입니다.

위의 Figure 1를 통해 성능과 효율성을 볼 수 있습니다.

동일한 모델 크기, 데이터, 계산량으로 비교했을 때 모든 학습 과정에서 높은 GLUE 성능을 보입니다. 더해, 다른 방식들에 비해 빨간색 ELECTRA가 빠르게 성능이 향상됩니다.

수치비교
- ELECTRA-small : GPU x 1, 4days (BERT- large 대비 1/135의 계산량, 1/20의 파라미터 수)
- ELECTRA-large : 더 적은 파라미터, 1/4의 계산량으로 RoBERTa, XLNet과 비슷한 성능

this is more compute-efficient and parameter-efficient than existing generative approaches for language representation learning. ➡ 전보다 더욱 효율적이다!

✅Method

RTD task를 위해서 generator G 와 discriminator D 가 필요합니다.

두 네트워크는 모두 transformer encoder 구조로 구성되어 있습니다.

$h (x) = [h_{1}, h_{2}, \dots, h_{n}]$

$h (x) = [h_{1}, h_{2}, \dots, h_{n}]$

$$D(x,t) = sigmoid(w^Th_{D}(x)_{t}) ➡ output\; layer$$

3. 마지막으로, MLM loss로 학습합니다.

최종적으로,

다음의 loss function을 최소화 하고, 이 구조로 pre-training을 마친 뒤에 Generator를 버리고, Discriminator만 가져와 downstream task로 fine-tuning을 진행합니다.

$h (x) = [h_{1}, h_{2}, \dots, h_{n}]$

Discriminator를 속이기 위해 적대적(adversarially)으로 학습시키는 게 아님
➡

$h (x) = [h_{1}, h_{2}, \dots, h_{n}]$

저작자표시 비영리 변경금지

'Paper Review > NLP' 카테고리의 다른 글

Transformer : Attention is All you Need Paper 정리 (0)	2022.06.10

[ BEing BETTER ]

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators 정리 리뷰 (1) _ intro, method

📍Introduction

✅Method

$h (x) = [h_{1}, h_{2}, \dots, h_{n}]$

$h (x) = [h_{1}, h_{2}, \dots, h_{n}]$

최종적으로,

$h (x) = [h_{1}, h_{2}, \dots, h_{n}]$

'Paper Review > NLP' 카테고리의 다른 글

댓글

티스토리툴바

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators 정리 리뷰 (1) _ intro, method

📍Introduction

✅Method

👉Generator

👉Discriminator

최종적으로,

👉GAN 과의 차이점

REFERENCE

'Paper Review > NLP' 카테고리의 다른 글

관련글

댓글

티스토리툴바

$h (x) = [h_{1}, h_{2}, \dots, h_{n}]$

$h (x) = [h_{1}, h_{2}, \dots, h_{n}]$

$h (x) = [h_{1}, h_{2}, \dots, h_{n}]$