LLaMa - 딥러닝 언어 모델

소개¶

LLaMA(Large Language Model Meta AI)는 메타(Meta)가 개발한 대규모 언어 모델(LLM) 시리즈로, 2023년 처음 발표된 이후 빠르게 주목받고 있는 혁신적인 언어 모델입니다. LLaMA는 7억 개에서 650억 개의 매개변수를 가진 다양한 크기의 모델을 제공하며, 전적으로 공개된 데이터로 학습되었다는 점에서 AI 연구와 개발의 민주화를 촉진합니다.

주요 특징¶

효율적인 학습과 추론
- LLaMA-13B는 GPT-3(175B)보다 10배 작은 크기로도 대부분의 성능 지표에서 이를 능가합니다.
- 추론 속도가 최적화되어 실제 응용 사례에서 높은 효율성을 제공합니다.
오픈 데이터 기반 학습
- 상업적 데이터가 아닌 전적으로 공개 데이터(CommonCrawl, Wikipedia 등)를 활용해 학습되었으며, 이를 통해 AI 연구의 투명성과 접근성을 보장합니다.
다양한 모델 크기
- 사용자의 컴퓨팅 환경과 필요에 따라 7B, 13B, 33B, 65B 크기의 모델을 선택적으로 활용할 수 있습니다.

개발 접근¶

LLaMA는 기존 Transformer 구조를 개선한 최적화된 설계를 채택하였습니다:

로터리 위치 임베딩(RoPE): 긴 문맥 처리 능력을 향상시킵니다.
SwiGLU 활성화 함수: ReLU 대비 더 나은 학습 성능을 제공합니다.
Pre-Normalization 기법: 안정적이고 효율적인 학습을 지원합니다.

학습 데이터¶

LLaMA는 다음과 같은 공개 데이터를 활용하여 학습되었습니다.

CommonCrawl (67%): 웹 스크래핑 데이터
C4 데이터셋 (15%): 클린된 웹 텍스트 데이터
GitHub 코드 (4.5%): 코드 및 기술 텍스트
위키백과 (4.5%)
그 외: 책, ArXiv 논문, StackExchange 등

성능

벤치마크 결과
LLaMA-65B는 최신 언어 모델인 Chinchilla-70B, PaLM-540B와 비슷하거나 이를 초과하는 성능을 보여주며, 논리적 추론 및 자연어 처리 작업에서 두각을 나타냅니다.
Zero/Few-shot 학습
새로운 작업에도 소량의 데이터만으로 뛰어난 성과를 보이며, 학습되지 않은 작업에도 적응력을 발휘합니다.
다중 작업 성능
과학, 인문학, 사회과학 등 다양한 분야에서 일관된 우수한 성능을 제공합니다.

LLaMA는 오픈 소스와 효율성을 겸비한 언어 모델로, 연구자와 개발자들에게 강력한 도구를 제공합니다. 높은 성능과 자유로운 접근성을 바탕으로 AI 연구 및 응용 개발의 문턱을 낮추는 데 크게 기여하고 있습니다.

LLaMA 학습¶

LLaMA 모델은 2048개의 NVIDIA A100 GPU(각 GPU는 80GB 메모리를 장착)를 사용하여 학습되었습니다. 전체 학습은 1.4조 개의 토큰을 처리하는 데 약 21일이 소요되었습니다.

이와 같은 대규모 컴퓨팅 자원의 활용은 LLaMA와 같은 최첨단 언어 모델을 구축하는 데 핵심적인 역할을 했습니다. 학습 과정에서 사용된 주요 기술은 다음과 같습니다:

혼합 정밀도 학습(FP16): 메모리 및 계산 효율성을 극대화.
NVIDIA NVLink 및 NVSwitch: GPU 간의 고속 데이터 전송을 지원하여 병목 현상을 최소화.

이와 같은 인프라는 LLaMA 모델의 높은 성능과 학습 효율성을 가능하게 한 중요한 요소로 평가됩니다.