딥러닝 언어 모델

이 책에 대하여¶

2015년 이후, 딥러닝은 AI 응용의 돌파구를 마련하였고, 특히 사전 훈련된(pretrained) 모델을 활용한 방식이 매우 효과적인 접근법으로 자리 잡았습니다. OpenAI의 ChatGPT는 대형 언어 모델(LLM, Large Language Model)의 실용성을 전 세계에 입증한 대표 사례입니다.

이후 구글, 메타를 비롯한 여러 기관들이 다양한 LLM을 오픈소스 또는 오픈 웨이트(open-weight) 형식으로 공개하면서, 고성능 AI 모델에 대한 접근성이 크게 향상되었습니다. 이는 대규모 모델을 직접 훈련하기 어려운 대부분의 조직이나 개인에게 매우 희소식입니다. 전문 인력, 대규모 데이터, 고성능 인프라, 비용 등이 모두 필요한 환경에서, 이러한 공개 모델은 강력한 대안이 됩니다.

이 책은 이러한 AI 응용 환경을 적극 활용하기 위한 지식과 실천적 제안을 담는 것을 목표로 합니다.

OpenAI의 ChatGPT와 같은 서비스를 통해, 누구나 API 기반으로 대규모 모델의 성능을 손쉽게 활용할 수 있습니다. 그러나 여전히 직접 모델을 훈련하거나, 또는 로컬(local) 환경이나 내부망(on-premise)에서 대규모 모델을 운용해야 하는 경우도 존재합니다. 클라우드 기반 AI 서비스는 강력한 기능을 제공하지만 다음과 같은 한계도 있습니다:

데이터 보안: 민감한 데이터를 클라우드에 업로드할 경우, 정보 유출 위험이 존재합니다.
비용 효율성: API 호출 비용, 데이터 처리량에 따른 요금 등은 장기적으로 상당한 부담이 될 수 있습니다.
환경 제약: 인터넷 연결이 제한된 환경이거나, 특정 하드웨어에서만 동작해야 하는 경우 클라우드 서비스는 부적합할 수 있습니다.

따라서, 대규모 사전훈련 모델을 현장에 맞게 활용하거나 직접 훈련하기 위해서는, 신경망 모델에 대한 근본적인 이해가 요구됩니다.

이 책에서 다루는 주요 내용¶

신경망 기반 모델의 원리 이해
오픈소스/오픈웨이트(open weight) 모델의 활용법
대규모 모델 미세조정

소개

이 책에 대하여¶

이 책에서 다루는 주요 내용¶

목차¶