Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

언어 모델의 이해

언어 모델은 텍스트 데이터에서 패턴을 학습하여 새로운 텍스트를 생성하거나 입력 텍스트에 대한 예측을 수행하는 인공지능 기술입니다. 이러한 모델은 주로 자연어 처리(NLP) 작업에 사용되며, 예를 들어 번역, 문서 요약, 질문 응답, 텍스트 완성 등의 작업을 수행할 수 있습니다.

대표적인 언어 모델로는 GPT(Generative Pre-trained Transformer) 시리즈가 있으며, 이 모델들은 대규모의 텍스트 데이터셋을 기반으로 사전 훈련되어 다양한 언어 작업에 활용될 수 있습니다. 언어 모델의 핵심 원리는 입력된 텍스트의 단어들을 벡터 공간에 임베딩하여 숫자로 표현한 뒤, 이를 바탕으로 패턴을 학습하는 것입니다.

효과적인 언어 모델은 인간처럼 단어의 의미를 이해합니다. 다르게 말하면, 인간의 언어 능력 자체가 매우 효과적인 언어 모델입니다. 인공지능 언어 모델의 목표는 인간과 유사하게 언어를 활용하여 내부 정보를 표현하는 것입니다. 이러한 관점에서 언어는 단어로 구성되며, 단어의 의미를 어떤 방식으로 표현할 것인가에 대한 고민이 필요합니다.

단어의 의미

단어의 의미는 사람마다 다소 다르게 받아들여질 수 있습니다. 이는 특정 단어에 대한 경험이 각 개인마다 다르기 때문입니다. 예를 들어, 같은 풍경을 보고 한 사람은 '장관이다’라고 표현하고, 다른 사람은 '가관이다’라고 표현하는 경우를 생각해 보겠습니다. 사전적인 정의에 따르면, '가관’이라는 단어는 원래 아름다운 풍경을 의미하기도 합니다. 그러나 많은 사람들은 '가관’이라는 단어를 비꼬는 의미로, 즉 보기 싫은 장면을 표현하는 데 사용한다고 인식합니다. 또한, 어떤 사람은 이러한 뉘앙스를 의도하지 않고, 아름다운 풍경을 묘사하는 의미로 '가관’이라는 단어를 사용할 수도 있습니다. 그러나 현대 한국어에서 '가관’은 남의 언행이나 상태를 비웃는 뜻으로 자주 사용되며, 부정적인 의미를 가지는 경우가 많습니다. 하지만 일부 사람들은 여전히 '가관’을 원래의 긍정적인 의미로 사용하기도 합니다.

’가관(可觀)’은 다음과 같은 의미로 국어사전에서 정리하고 있습니다:

  1. 경치나 행사 등이 꽤 볼 만함을 나타내는 긍정적인 의미입니다. 예를 들어, “설악산 가을 단풍이 가관이다”와 같이 사용할 수 있습니다. 

  2. 남의 언행이나 상태를 비웃는 뜻으로, 꼴이 볼만하다는 의미를 지니며, 이는 부정적인 뉘앙스로 사용됩니다. 예를 들어, “가진 돈 좀 있다고 그 사람 하는 짓이 참 가관이다”와 같이 사용할 수 있습니다.

영어에서도 'nice’라는 단어가 과거에는 현재와 정반대로 부정적인 의미를 가지고 있었습니다. 이 단어는 라틴어 ‘nescius’에서 유래했으며, 이는 ‘무지한’ 또는 ‘모르는’이라는 뜻을 지니고 있습니다. 이후 고대 프랑스어 ‘nice’로 넘어오면서 ’멍청한(foolish)’이나 ’하등한(inferior)’이라는 의미를 갖게 되었습니다. 초기 영어에서도 이 단어는 이러한 부정적인 의미로 사용되었습니다. 14세기경에는 ‘nice’가 ‘생각이 짧은’ 또는 ‘멍청한’이라는 의미로 사용되었습니다. 그러나 중세기에 이르러 ‘nice’는 ’수줍음(shyness)’이나 ’신중함(reserve)’과 같은 의미가 더해지기 시작했습니다. 이러한 변화는 단어의 의미가 점차 부정적인 뉘앙스에서 벗어나 긍정적인 방향으로 이동하는 과정을 보여줍니다. 특히 18세기에는 ‘나서지 않고 조용한’ 성격을 나타내는 표현으로 ‘nice’가 사용되었으며, 이는 현재의 ‘매우 좋은’이라는 긍정적인 의미로의 변화를 나타냅니다. 따라서 'nice’가 부정적인 의미로 사용되던 시대의 책을 읽는다면, 문맥을 해석하는 데 혼란을 겪을 수도 있습니다.

언어의 표현은 특정 시대의 언어 사용자들이 집단적으로 형성한 개념을 반영합니다. 특정 문맥에서 어떤 단어가 사용되는지는 기존 텍스트의 영향을 받습니다. 또한, 단어의 의미 사용 방식은 기존 텍스트에 반영된 결과라고 볼 수 있습니다. 따라서 법률 용어와 같은 전문 용어와 달리, 일반적인 어휘의 사전적 의미는 사후적으로 정리된 것으로, 수학적 정의와 동일하다고 볼 수 없습니다. 즉, '가관이다’와 ‘nice’ 같은 단어의 해석은 해당 시대의 문화적 문맥에 따라 달라집니다. 그리고 이러한 문맥이 동시대의 텍스트에 반영되어 있다고 가정해야 합니다.