NLP1 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators 정리 리뷰 (1) _ intro, method 이번 논문은 저번 프로젝트에서 유용하게 사용했던 모델인 koELECTRA 모델을 리뷰해보도록 하겠습니다. 학습의 효율성에 초점을 둔 부분이 매우 흥미로웠습니다. 📍Introduction 현재 다양하고 널리 사용중인 MLM 모델들은 입력 시퀀스의 토큰 중 약 15%를 마스킹하고, 이를 복원하는 task를 통해 학습합니다. 기존 autoregressive language modeling 학습에 비해 양방향 정보를 고려하여 효과적입니다. 하지만 , 문제 역시 있었습니다. 1. 하나의 시퀀스(per example)에서 15%만 학습하고, 나머지는 버려지기 때문에 학습에 비용이 많이 듭니다. 2. Mismatch : 학습 시 사용된 [MASK] 토큰을 모델이 참고하여 예측하지만, 실제로는 해당 토큰이 존재하지 않.. 2022. 7. 9. 이전 1 다음