대형 언어 모델
사전 훈련된 BERT와 GPT는 전례 없는 성능을 보여주며, 언어 모델의 규모 확장에 있어 중요한 전환점을 마련했습니다. 기존 딥러닝 연구에서도 모델의 크기와 깊이(depth) 가 성능 향상에 핵심적이라는 사실은 알려져 있었지만, 그 병목 중 하나는 충분한 훈련 데이터의 확보였습니다.
그러나 BERT와 GPT는 비지도 학습 기반의 사전훈련 방식을 채택함으로써, 기존처럼 사람이 일일이 레이블을 부여하는 지도학습 방식의 한계를 넘어서게 되었습니다. 이로 인해 대규모 텍스트 데이터를 인터넷 등으로부터 자유롭게 수집하여 학습할 수 있었고, 그 결과 모델의 크기를 획기적으로 키울 수 있는 토대가 마련되었습니다.
이후 OpenAI는 GPT-2, 그리고 이어서 GPT-3를 연이어 공개했으며, 이들 모델은 이전 버전에 비해 규모와 성능 면에서 획기적인 도약을 이뤘습니다.
특히 GPT-3는 전작인 GPT-2에 비해 파라미터 수가 수십 배 증가했으며, 이로 인해 단순한 미세조정 없이도 다양한 태스크를 수행할 수 있는 few-shot / zero-shot 능력을 보여주었습니다.
GPT 계열 모델 비교¶
| 모델 | 출시 연도 | 파라미터 수 | 주요 특징 |
|---|---|---|---|
| GPT-1 | 2018 | 117M | 최초의 사전학습 + 미세조정 구조 도입 |
| GPT-2 | 2019 | 1.5B | 대규모 언어 생성 능력, 공개 범위 논란 발생 |
| GPT-3 | 2020 | 175B | Few-shot / Zero-shot 학습 가능, API 상용화 시작 |
| GPT-3.5 | 2022 | 약 175B | ChatGPT에 활용, 실용성 개선 |
| GPT-4 | 2023 | 비공개 (수백B 추정) | 멀티모달 지원, 높은 정답률과 안정성 |
| GPT-4o | 2024 | 비공개 | 멀티모달 네이티브(text, image, audio), 초고속 응답 |