We-Co

[AI] LLM 이란 무엇인가?! - 대형 언어 모델 본문

기타

[AI] LLM 이란 무엇인가?! - 대형 언어 모델

위기의코딩맨 2024. 5. 9. 13:47
반응형

안녕하세요. 위기의 코딩맨입니다.

오늘은 요즘 엄청난 붐을 일으키고 있는 LLM에 대해서 간단하게 알아보도록 하겠습니다.

간단하게 가능하려나..?

 

[출처] : https://brunch.co.kr/@harryban0917/272

 

 

[ 정의 ]

먼저 LLM의 정의를 알아보도록 하겠습니다.

Large Language Model을 약어로 만들어서 LLM으로 간단하게 불리고 있습니다.

대형 언어 모델을 의미하며 분야는 NLP 쪽으로 생각하시면 될 것 같습니다.

정말 간단하게 정의하자면 텍스트를 인간처럼 이해하도록 설계되어 있는 모델입니다.

 

무수히 많은 파라미터를 보유하고있으며,  인공 신경망을 구성한 언어적인 모델입니다.

요즘 AI 챗봇이나 음성 인식 다양한 분야에 사용 되고 있습니다.

 

[ 작동 ]

모든 모델이 데이터를 기반으로 학습을 하고 활용하여 작동을 진행합니다.

시계열 데이터의 특성을 갖고있는 언어는 입력과 같은 순차적인 처리를 중요시 해야함으로

트랜스포머를 기반으로 하고있습니다. 

예전에 트랜스포머에 대해서 간단하게 알아봤는데 한번 참고하셔도 될것같습니다.

 

[We-Co] Transformer - Tensorflow, NLP

안녕하세요. 위기의 코딩맨입니다. 오늘은 Transformer에 대해서 간단하게 알아보도록 하겠습니다 [ Transformer ] "Attention is all you need"의 제목으로 2017년 구글에서 발표한 모델입니다. 기존의 Seq2Seq의

we-co.tistory.com

 

NLP 분야에선 트랜스포머와 토큰화의 작업이 중요하다고 생각합니다.

해당 모델에서도 토큰화된 단어를 작은 문자 시퀀스로 분류를 진행하여 

반복되는 단어에 확률 점수를 매기는 방식으로 진행된다고 합니다.

AI에서 중요한 부분인 정확성을 확보하기 위해서

방대한 양의 텍스트 말뭉치로 LLM 학습한다고 합니다.

 

주요 구성요소

  1. 임베딩 레이어(Embedding Layer) - 입력 텍스트를 임베딩을 생성하여 의미론적, 구문론적 의미를 포착하여 모델에 이해를 도움
  2. 피드포워드 레이어(Feedforward Layer,FFN) - 추상화 수집
  3. 순환레이어(recurrent Layer) - 단어를 순서대로 해석하여 문장 단어간의 관계를 계산
  4. 어텐션 메커니즘(attention Mechanism) - 단일 부분에 집중하여 정확성을 출력

 

방대한 양을 학습하고, 입력 데이터를 분석하여 예측 결과를 내보내는 과정이라고 생각하시면 될 것같습니다.

컴퓨터에게 텍스트를 이해시키는 과정이 어려웠지만, 

LLM의 등장으로 이해시키는 과정이 쉬워지고 정확도도 높아져서 NLPL 분야가 한층 성장했다고 합니다. 

 

[ 문제점 ]

이렇게 기술적으로 발전할 수 있는 기반을 만들어 주고 있지만,

여러 문제점도 발생하고 있습니다.

LLM 뿐만 아니라, AI 분야에서 발생하는 문제점들도 몇가지 보이는 것 같습니다.

 

  1. 편향 - 데이터를 기반으로 하기 때문에 한쪽으로 증폭시키면 평향적인 결과가 도출
  2. 정보조작 - 잘못된 데이터를 생성하여 조작이 가능함
  3. 개인정보 - 데이터를 만지는 거의 모든 분야는 해당 문제가 발생하는 같습니다.
  4. 에너지 - 방대한 양의 데이터를 분석하고 학습하고 있기때문에 상당한 에너지 소비가
  5. 책임 - 의사 결정에 대한 결과에 대한 책임에 문제가 발생

 

 

오늘은 LLM에 대해서 정말 간단하게 알아보았습니다.

공부할게 계속나오네...ㅎㅎㅎ

반응형