본문 바로가기
Data Science/NLP

Week 1-3 NLG subtask _ Multi-Document Summarization, Text Generation

by hyelog 2022. 5. 11.

Natural Language Generation(NLG)

주어진 정보를 기반으로 정보 축약, 보강, 재구성하는 분야입니다.

1. Multi-Document Summarization

관련 정보를 캡처하고 중복 정보를 필터링하여 짧은 텍스트 조각으로 문서 세트를 나타내는 프로세스입니다. 다중 문서 요약에 대한 두 가지 두드러진 접근 방식은 추출 및 추상 요약입니다. 추출 요약 시스템은 문서에서 두드러진 스니펫, 문장 또는 구절을 추출하는 것을 목표로 하는 반면, 추상 요약 시스템은 문서 내용을 간결하게 의역하는 것을 목표로 합니다.

 

[평가지표]

 

고 수준의 NLP task 지표로 쓰이는 이유는 ROUGE score가 대체로 인간의 판단과 양의 상관관계를 보이기 때문입니다.

  • ROUGE-N
    • ROUGE-1 : unigram
    • ROUGE-2 : bigram
  • ROUGE-L

📌 DATA SET

NEWSROOM

요약 시스템을 교육하고 평가하기 위한 대규모 데이터 세트입니다. 여기에는 38개 주요 출판물의 뉴스룸에서 저자와 편집자가 작성한 130만 개의 기사와 요약이 포함되어 있습니다.

 

Dataset Structure

  • 예시
{
    "compression": 33.880001068115234,
    "compression_bin": "medium",
    "coverage": 1.0,
    "coverage_bin": "high",
    "date": "200600000",
    "density": 11.720000267028809,
    "density_bin": "extractive",
    "summary": "some summary 1",
    "text": "some text 1",
    "title": "news title 1",
    "url": "url.html"
}
  • text: a string feature.
  • summary: a string feature.
  • title: a string feature.
  • url: a string feature.
  • date: a string feature.
  • density_bin: a string feature.
  • coverage_bin: a string feature.
  • compression_bin: a string feature.
  • density: a float32 feature.
  • coverage: a float32 feature.
  • compression: a float32 feature.

📌 SOTA Model : PRIMER

데이터 세트별 아키텍처와 레이블이 지정된 데이터의 미세 조정에 대한 필요성을 줄이는 요약에 중점을 둔 다중 문서 표현을 위해 사전 훈련된 모델

2. Text Generation

이 작성한 텍스트와 구별할 수 없는 것처럼 보이도록 텍스트를 생성하는 작업입니다. 

 

[평가 지표]

  • METEOR
  • ROUGE
  • BLEU

📌 DATA SET

PERSONA-CHAT

페르소나를 기준으로 한 다중 턴 대화가 포함되어 있습니다. 데이터 세트는 훈련을 위한 8939개의 완전한 대화, 검증을 위한 1000개, 테스트를 위한 968개의 대화로 구성됩니다. 각 대화는 인공 페르소나를 가정한 두 명의 크라우드 소스 작업자 사이에서 수행되었습니다.

두 소문자이며 구두점을 구분하는 각 절/문장 주위에 추가 공간이 있습니다. 

 

Dataset Structure

  • 예시
"i really like celine dion . what about you ?"

data fields

📌 SOTA Model : GPT-2

[keyword]

  • Fine-tunning X
  • zero shot learning : downstream에 바로 적용

댓글