트랜스퍼 러닝
특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법
기존에는 태스크를 처음부터 학습했었기 때문에, 트랜스퍼 러닝은 학습 속도가 빨라지고 새로운 태스크를 더 잘 수행하는 경향이 생김.
기존 태스크1을 Upstream 태스크라고 부르고 새롭게 할 태스크2를 Downstream 태스크라고 부른다.
업스트림 테스크를 학습하는 과정을 프리트레인(pretrain)이라고 부른다.
업스트림 태스크
다음 단어 맞히기
자연어의 문맥(context)을 모델에 내재화하고 다양한 다운스트림 태스크에 적용해 성능을 향상시켰다.
GPT 계열의 경우 다음 단어 맞히기를 태스크로 프리트레인했다.
→ 예) ‘티끌 모아 00’에서 ‘태산’을 넣을 수 있도록 학습한다. 당연히 ‘태산’이 나올 확률을 높히고 다른 단어들의 확률을 낮추는 방향으로 업데이트 된다.
이러한 다음 단어 맞히기 태스크를 수행한 모델을 '언어 모델(Language Model)’이라고 한다.
빈칸 채우기
BERT 계열 모델이 이 태스크로 프리트레인했다.
→ 예) ‘티끌 00 태산’에서 ‘모아’를 넣을 수 있도록 학습한다. 당연히 ‘모아’가 나올 확률을 높히고 다른 단어들의 확률을 낮추는 방향으로 업데이트 된다.
이러한 빈칸 채우기 태스크를 수행한 모델을 ‘마스크 언어 모델(Masked Language Model)’이라고 한다.
지도 학습
사람이 만든 정답 데이터로 모델을 학습하는 방법
따라서 데이터를 만들 때 필요한 비용이 많이 들고, 사람의 실수가 끼어들 수 있음
자기지도 학습
Self-supervised Learning
위에 2가지 사례(다음 단어 맞히기, 빈칸 채우기)는 수작업 없이 다량의 학습 데이터를 웹 문서, 백과사전, 뉴스 등으로 싸게 만들어낼 수 있다.
→ 덕분에 업스트림 태스크를 수행한 모델은 성능이 기존보다 월등히 좋다.
다운스트림 태스크
우리가 풀어야할 자연어 처리의 구체적인 과제
: 업스트림에 공을 들인 이유는 다운스트림을 잘하기 위함
보통 다운스트림 태스크는 프리트레인된 모델을 구조 변경 없이 그대로 사용하거나 태스크 모듈을 덧붙인 형태로 수행
파인 튜닝 (Fine-tuning)
프리트레인된 모델을 다운 스트림 태스크에 맞게 업데이트하는 기법
다른 다운스트림 태스크 학습 방식 : 프롬프트 튜닝, 인컨텍스트 러닝(제로샷, 원샷, 퓨샷 러닝)
'AI' 카테고리의 다른 글
[AI] 선형 회귀 (Linear Regression) (0) | 2023.05.31 |
---|---|
[AI - NLP] Word Embedding (0) | 2023.05.29 |