본문 바로가기

Paper Review/NLP2

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators 정리 리뷰 (1) _ intro, method 이번 논문은 저번 프로젝트에서 유용하게 사용했던 모델인 koELECTRA 모델을 리뷰해보도록 하겠습니다. 학습의 효율성에 초점을 둔 부분이 매우 흥미로웠습니다. 📍Introduction 현재 다양하고 널리 사용중인 MLM 모델들은 입력 시퀀스의 토큰 중 약 15%를 마스킹하고, 이를 복원하는 task를 통해 학습합니다. 기존 autoregressive language modeling 학습에 비해 양방향 정보를 고려하여 효과적입니다. 하지만 , 문제 역시 있었습니다. 1. 하나의 시퀀스(per example)에서 15%만 학습하고, 나머지는 버려지기 때문에 학습에 비용이 많이 듭니다. 2. Mismatch : 학습 시 사용된 [MASK] 토큰을 모델이 참고하여 예측하지만, 실제로는 해당 토큰이 존재하지 않.. 2022. 7. 9.
Transformer : Attention is All you Need Paper 정리 더보기 원래는 논문리뷰를 하려다가 갑자기 틀어 정리 글을 쓰게 되었다. 허허헣 이런 글을 처음 쓸려니까 너무 어려운거 같다..ㅋㅋ 정리를 좀 더 체계적으로 할 필요성을 느낀다ㅏ다ㅏㅏ Abstract Past : The sequnce transduction model - include complex recurrent or convolutional neural network - encoder and decoder - BEST : connected the encoder and decoder through attention mechanism 더보기 병렬화 어려움 sequence 길이가 길수록 critical한 메모리 제약 문제 장기 의존성 문제(Long-Term Dependency) This Paper : Tr.. 2022. 6. 10.