Natural Language Generation(NLG)
주어진 정보를 기반으로 정보 축약, 보강, 재구성하는 분야입니다.
1. Multi-Document Summarization
관련 정보를 캡처하고 중복 정보를 필터링하여 짧은 텍스트 조각으로 문서 세트를 나타내는 프로세스입니다. 다중 문서 요약에 대한 두 가지 두드러진 접근 방식은 추출 및 추상 요약입니다. 추출 요약 시스템은 문서에서 두드러진 스니펫, 문장 또는 구절을 추출하는 것을 목표로 하는 반면, 추상 요약 시스템은 문서 내용을 간결하게 의역하는 것을 목표로 합니다.
[평가지표]
고 수준의 NLP task 지표로 쓰이는 이유는 ROUGE score가 대체로 인간의 판단과 양의 상관관계를 보이기 때문입니다.
- ROUGE-N
- ROUGE-1 : unigram
- ROUGE-2 : bigram
- ROUGE-L
📌 DATA SET
NEWSROOM
요약 시스템을 교육하고 평가하기 위한 대규모 데이터 세트입니다. 여기에는 38개 주요 출판물의 뉴스룸에서 저자와 편집자가 작성한 130만 개의 기사와 요약이 포함되어 있습니다.
Dataset Structure
- 예시
{
"compression": 33.880001068115234,
"compression_bin": "medium",
"coverage": 1.0,
"coverage_bin": "high",
"date": "200600000",
"density": 11.720000267028809,
"density_bin": "extractive",
"summary": "some summary 1",
"text": "some text 1",
"title": "news title 1",
"url": "url.html"
}
- text: a string feature.
- summary: a string feature.
- title: a string feature.
- url: a string feature.
- date: a string feature.
- density_bin: a string feature.
- coverage_bin: a string feature.
- compression_bin: a string feature.
- density: a float32 feature.
- coverage: a float32 feature.
- compression: a float32 feature.
📌 SOTA Model : PRIMER
데이터 세트별 아키텍처와 레이블이 지정된 데이터의 미세 조정에 대한 필요성을 줄이는 요약에 중점을 둔 다중 문서 표현을 위해 사전 훈련된 모델
2. Text Generation
이 작성한 텍스트와 구별할 수 없는 것처럼 보이도록 텍스트를 생성하는 작업입니다.
[평가 지표]
- METEOR
- ROUGE
- BLEU
📌 DATA SET
PERSONA-CHAT
페르소나를 기준으로 한 다중 턴 대화가 포함되어 있습니다. 데이터 세트는 훈련을 위한 8939개의 완전한 대화, 검증을 위한 1000개, 테스트를 위한 968개의 대화로 구성됩니다. 각 대화는 인공 페르소나를 가정한 두 명의 크라우드 소스 작업자 사이에서 수행되었습니다.
모두 소문자이며 구두점을 구분하는 각 절/문장 주위에 추가 공간이 있습니다.
Dataset Structure
- 예시
"i really like celine dion . what about you ?"

📌 SOTA Model : GPT-2
[keyword]
- Fine-tunning X
- zero shot learning : downstream에 바로 적용
'Data Science > NLP' 카테고리의 다른 글
Week 1-2 NLU subtask _ Text Classification, Topic Models (1) | 2022.05.11 |
---|---|
Week 1-1 NLP subtask _ Sentiment Analysis, Language Modelling (2) | 2022.05.09 |
댓글