수강목적 🔽

1. NLP 프로젝트의 필요성 + pytorch 사용방법 알고 싶음...

2. 논문 읽기 & 구현 방법 알고 싶음

혼자 하니까 확실히 능률이 떨어지는 느낌이라 신청했다.
더욱이 관심있던 NLP를 집중적으로 다룬다니.

논문 읽는 힘이 길러지길!

1. Sentiment Analysis

Sentiment Analysis(감성분석)은 텍스트에 들어있는 정서적 상태를 식별, 추출하여 분석하는 연구를 말합니다. 텍스트에서 뉘앙스로 느껴지는 모호한 감성은 감성 분석을 어렵게 하는 원인 중 하나입니다.

이를 이용하여 리뷰 및 설문조사 응답, 온라인 소셜 미디어 등 마케팅과 고객 서비스 등에 이용하여 적용할 수 있습니다.

예를 들어 기업과 관련된 홍보물의 댓글을 판단하여 기업은 홍보 제품에 대한 여론의 반응을 조사할 수도 있고, 소비자는 관련 제품을 이용할지 안 할지 등을 판단할 수 있는 기준이 됩니다.

[평가 지표]

F-1 score
recall
precision

📌 DATA SET

https://huggingface.co/datasets/sst

SST (Stanford Sentiment Treebank) as SST-5 or SST fine-grained

언어에서 감성의 구조적 효과를 완전히 분석할 수 있는 구문 분석 트리(완전 레이블링 된)가 있는 첫 번째 말 뭉치

the first corpus with fully labeled parse trees that allows for a complete analysis of the compositional effects of sentiment in language.

11,855 single sentences from movie reviews
parsed with the Stanford parser : 구문 분석
215,154 unique phrases (each annotated by 3 human judges)

Label

negative
somewhat negative
neutral
somewhat positive
positive

SST-2 or SST binary
- negative
- somewhat negative
or
- somewhat positive
- positive

데이터 구성

Default

{'label': 0.7222200036048889,
 'sentence': 'Yet the act is still charming here .', 
 'tokens': 'Yet|the|act|is|still|charming|here|.',
 'tree': '15|13|13|10|9|9|11|12|10|11|12|14|14|15|0'}

dictionary (참조용)

{'label': 0.7361099720001221, 'phrase': 'still charming'}

ptb(Penn Treebank)

{'ptb_tree': '(3 (2 Yet) (3 (2 (2 the) (2 act)) (3 (4 (3 (2 is) (3 (2 still) (4 charming))) (2 here)) (2 .))))'}

Data Fields

sentence : 영화에 대한 의견을 나타내는 완전한 문장
label : 0.0에서 1.0 사이의 척도에서 의견의 "긍정성" 정도
tokens : 문장을 구성하는 토큰
tree : 부모 포인터 트리 형식의 문장 구문 분석 트리
phrase : 완전한 문장의 하위 문장
ptb_tree : Penn Treebank 스타일의 문장 구문 분석 트리로, 각 구성 요소의 긍정적인 감정 정도가 0에서 4 사이의 척도로 표시

📌 SOTA Model : RoBERTa

BERT의 replication study with fine-tuning

[keyword]

설계 중요성 강조
NSP loss 제거
longer sequence
dynamic masking
bigger batch size

2. Language Modelling

Language modeling은 문서 내 다음에 올 단어 혹은 문자를 예측하는 연구입니다.

이 연구는 언어 모델을 훈련 시킬 때, 또 더 나아가 text generation, text classification, question answering 등 다양한 NLP task에 적용되어 집니다.

[General Type]

N-gram Language Models
Neural Langauge Models

[평가 지표]

cross-entropy
perplexity

📌 DATA SET

https://huggingface.co/datasets/wikitext

위키 텍스트 언어 모델링 데이터 세트는 위키 백과의 검증된 Good 및 Featured 기사 집합에서 추출한 1억 개 이상의 토큰의 모음입니다. 전처리된 Penn Treebank(PTB) 버전과 비교하여 WikiText-2는 2배 이상, WikiText-103은 110배 이상 큽니다. WikiText 데이터셋은 또한 훨씬 더 많은 어휘를 제공하며 PTB에서 모두 제거된 원래의 대소문자, 구두점 및 숫자를 유지합니다. 전체 기사로 구성되어 있기 때문에 데이터 세트는 장기적인 종속성을 활용할 수 있는 모델에 적합합니다.

데이터 구성

내부 예시

{
    "text": "\" The gold dollar or gold one @-@ dollar piece was a coin struck as a regular issue by the United States Bureau of the Mint from..."
}

📌 SOTA Model : GPT-3 / BERT

GPT-3

[keyword]

sparse self-attention
meta-learning → in-context learning

BERT

[keyword]

transformer 구조 활용
MLM 구조
unlabeled data train → transfer learning using labeled data

저작자표시 비영리 변경금지

'Data Science > NLP' 카테고리의 다른 글

Week 1-3 NLG subtask _ Multi-Document Summarization, Text Generation (1)	2022.05.11
Week 1-2 NLU subtask _ Text Classification, Topic Models (1)	2022.05.11

[ BEing BETTER ]

Week 1-1 NLP subtask _ Sentiment Analysis, Language Modelling

1. Sentiment Analysis

📌 DATA SET

SST (Stanford Sentiment Treebank) as SST-5 or SST fine-grained

데이터 구성

Data Fields

📌 SOTA Model : RoBERTa

2. Language Modelling

📌 DATA SET

데이터 구성

📌 SOTA Model : GPT-3 / BERT

GPT-3

BERT

'Data Science > NLP' 카테고리의 다른 글

댓글

티스토리툴바

Week 1-1 NLP subtask _ Sentiment Analysis, Language Modelling

1. Sentiment Analysis

📌 DATA SET

SST (Stanford Sentiment Treebank) as SST-5 or SST fine-grained

데이터 구성

Data Fields

📌 SOTA Model : RoBERTa

2. Language Modelling

📌 DATA SET

데이터 구성

📌 SOTA Model : GPT-3 / BERT

GPT-3

BERT

'Data Science > NLP' 카테고리의 다른 글

관련글

댓글

티스토리툴바