언어 모델 미세조정
사전 훈련된 언어 모델은 일반적인 언어 이해 능력을 갖추고 있습니다. 하지만 특정 작업에 대해 더 정확하게 응답하도록 만들기 위해서는 추가적인 조정이 필요합니다.
예를 들어, GPT는 사전 훈련 단계에서 주어진 문장을 기반으로 다음에 올 단어를 예측하는 방식으로 학습됩니다. 하지만 이러한 방식만으로는 사용자의 지시에 효과적으로 반응하거나 자연스럽게 대화를 이어가는 데에는 한계가 있습니다.
예를 들어, 사용자가 "이 문장을 영어로 번역해줘"라고 요청했을 때, 사전 훈련된 모델은 다음과 같은 응답을 생성할 수 있습니다:
입력: 이 문장을 영어로 번역해줘
출력: 그러면 고맙겠어
이러한 응답은 자연스러운 문장의 전개알 수 있지만, 지시 수행은 아닙니다.
사용자가 "이 문장을 영어로 번역해줘"라고 요청했을 때 모델이 "Translate this sentence into English."라고 정확하게 응답하는 것이 바람직합니다. 하지만 사전 훈련만 된 모델은 이를 단순한 문장 생성 요청으로 인식할 수 있으며 "그러면 고맙겠어"와 같은 비문맥적인 출력을 생성할 수도 있습니다. 이런 반응은 사용자의 기대와는 다르며, 모델이 지시를 정확히 이해하지 못한 결과입니다.
따라서, 모델이 “지시란 무엇인지”, 그리고 "그 지시에 어떻게 반응해야 하는지"를 배우도록 하기 위해 지시와 그에 대한 적절한 응답이 포함된 지도 학습 데이터를 이용한 추가적인 학습이 필요합니다.
이를 보완하기 위해, 사전 훈련된 모델에 대해 사후 학습(post-training)이라는 과정을 진행합니다. 사후 학습이란, 이미 훈련된 모델을 특정 작업에 맞게 조정하는 추가적인 지도 학습 단계를 의미합니다.
이러한 과정을 통해 언어 모델은 단순한 텍스트 생성 능력을 넘어서 사용자의 요청에 맞는 구체적인 작업을 수행하는 방향으로 발전할 수 있습니다.
GPT의 발전¶
GPT 시리즈는 2018년에 처음 발표된 이후, 언어 모델의 학습 방식에 있어 중요한 진화를 거쳐왔습니다. 초기에는 단순히 다음 단어를 예측하는 언어 모델링 중심의 학습이 이루어졌지만 최근에는 사용자의 지시를 이해하고 그에 따라 정확하게 반응하는 능력이 핵심으로 떠올랐습니다.
| 모델 | 학습 방식 | 인스트럭션 튜닝 | 특징 |
|---|---|---|---|
| GPT-1 | Causal LM + Supervised fine-tuning | 없음 | 각 태스크에 맞춘 별도 미세조정 필요 |
| GPT-2 | Causal LM only | 없음 | 프롬프트 기반 few-shot 가능성 제시 |
| GPT-3 | Causal LM only | 없음 | 프롬프트만으로 다양한 태스크 대응 시도 |
| InstructGPT | Causal LM → Instruction Tuning → RLHF | 있음 | 사용자 지시를 따르는 학습 구조 도입 |
| GPT-3.5 | Instruct 기반 + 대화 최적화 | 있음 | 실용적인 챗봇 서비스로 발전 |
| GPT-4 | 인스트럭션 튜닝 + RLHF + 멀티모달 학습 | 있음 | 텍스트, 이미지, 음성을 함께 처리 가능 |
GPT-1 ~ GPT-2: 전통적인 언어 모델링 기반¶
GPT-1과 GPT-2는 주어진 문장을 기반으로 다음 단어를 예측하는 기본적인 언어 모델링 방식으로 학습되었습니다.
사용된 데이터: BookCorpus(GPT-1), WebText(GPT-2)
학습 목표: 문맥상 자연스러운 다음 단어 생성
입력 형식: 일반 문장 시퀀스
출력 형식: 문맥에 따른 단어 생성
사용자의 지시나 명령을 인식하거나 수행하지는 못함
InstructGPT 이후: 인스트럭션 튜닝 기반 학습¶
InstructGPT부터는 다음과 같은 형식의 지도 학습 데이터가 도입되었습니다.
{ “instruction”: “Translate the following sentence into English.”, “input”: “나는 오늘 도서관에 갔어요.”, “output”: “I went to the library today.” }
이러한 학습은 단순한 언어 모델링을 넘어 "지시에 따른 응답"을 명확하게 학습할 수 있도록 구성된 구조입니다. 또한 RLHF(Reinforcement Learning with Human Feedback) 기법을 활용하여 사람의 선호도에 맞는 출력을 생성하도록 미세조정도 함께 진행되었습니다.
GPT-4: 복합 지시와 멀티모달 입력에 대한 대응¶
GPT-4는 텍스트뿐만 아니라 이미지, 음성 등 다양한 입력을 함께 처리할 수 있으며 더 복잡하고 다양한 지시에 대해 보다 정확한 응답을 생성할 수 있습니다.
멀티모달 입력 대응 (GPT-4o 기준)
고차원적인 지시 이해 및 표현 방식 학습
지식 기반 질의응답, 문체 지정, 형식 제한 등 복합 조건 수행 가능
요약¶
GPT-1과 GPT-2는 언어 생성 중심의 모델로, 지시 수행 능력은 없었습니다.
GPT-3는 프롬프트 기반의 작업 수행이 가능해졌지만, 인스트럭션 튜닝은 적용되지 않았습니다.
InstructGPT부터는 지시-응답 쌍 기반의 지도 학습이 도입되었고, RLHF로 정제된 응답 생성이 가능해졌습니다.
GPT-4는 복합 지시를 이해하고 멀티모달 데이터를 처리할 수 있는 고도화된 형태로 발전하였습니다.
이와 같은 과정을 거치며, GPT 계열 언어 모델은 단순한 생성기를 넘어 사용자의 요청을 이해하고 정확히 수행하는 범용 언어 시스템으로 진화하게 되었습니다.