We-Co

[부스트캠프 AI Tech 준비과정] - 5주차 인공지능 수학 2 본문

[부스트캠프 AI Tech 준비과정] 2회차

[부스트캠프 AI Tech 준비과정] - 5주차 인공지능 수학 2

위기의코딩맨 2024. 5. 23. 14:24
반응형

안녕하세요. 위기의 코딩맨입니다.

오늘은 벌써 5주차가 된 부스트캠프 학습 내용을 정리해보도록 하겠습니다.

저번 4주차에선 기초적인 수학을 배웠다면 5주차에선, 한단계 상승한 난이도의 수학 강의를 진행했습니다.

 

크게 확률,  통계, 베이즈 통계에 관련된 강의를 맛보기 형식으로 진행되었습니다.

이게 맛보기라니.. 너무 어려워서... 이게 맞나.. ㅎㅎ

그래서 다시 수학책을 꺼내서 기초부터 다시 보고있습니다. ㅎㅎㅎ

 

 

[ 5주차 학습내용 ]

확률론 

  • 확률론 기반의 기계학습 이론을 바탕을 두고있음
  • 손실함수의 작동원리는 공간의 통계적으로 해석하고 유도하게 되어, 확률론을 이해해야함
  • L2-norm - 예측오차의 분산을 가장 최소화하는 방향으로 학습을 유도
  • 교차엔트로피 - 모델 예측의 불확실성을 최소화하는 방향으로 학습을 유도

분산 불확실성을 최소화하기 위해서 측정하는 방법을 이해해야함

 

확률변수

확률분포에 따라 아래 2가지로 나뉨

  • 이산(discrete)확률변수 - 확률변수가 가질수있는 모든 경우의 수를 모두 고려하여 확률을 모두 더해서 모델링

  • 연속(continuous)확률변수 - 데이터 공간에 정의된 확률변수의 밀도 위에서 적분을 통해서 모델링

 

조건부확률 - P(y|x)는 입력변수 x에  대해서. 정답이 y일 확률을 의미

  • 로지스틱 회귀에서 사용했던 소프트맥스 함수의 결합은 데이터에서 추출된 패턴을 기반으로 확률을 해석하는데 사용
  • 분류에서 softmax(Wc +b)는 데이터 x로부터 추출된 특징 패턴 c(x)와 가중치 행렬 W을 통해 조건부 확률 P(y|x)를 계산
  • 다층신경망을 사용하여 데이터로 부터 특징패턴을 추출

 

기대값(평균을 의미하고 있지만 조금더 넓은 의미)

  • 확률분포가 주어지면 데이터를 분석하는데 사용가능한 여러종류의 통계적 범함수를 계산
  • 기대값은 데이터를 대표하는 통계량
  • 연속확률분포의 경우엔 적분, 이산확률분포의 경우엔 급수를 사용
  • 기대값을 이용해 분산, 첨도, 공분산 등 여러 통계량을 계산

 

몬테카를로 샘플링

  • 확률분포를 명시적으로 알지 못할 때 사용
  • 데이터를 이용하여 기대값을 계산하려면 몬테카를로 샘플링을 사용
  • 독립추출이 보장된다면 대수의 법칙에 의해서 수렴성을 보장

 

 

통계학 맛보기

  • 모수 - 통계적 모델링은 적절한 가정위에서 확률분포를 추정하는 것을 목표로함, 기계학습과 통계학이 공통적으로 추구하는 목표, 근사적으로 확률분포를 추정할수 밖에 없음
  • A Priori - 선험적으로 가정한 후, 그 분포를 결정하는 모수를 추정하는 방법을 모수적 방법론이라 함

특정 확률분포를 가정하지않고, 데이터에 따라 유연하게 바뀌면 비모수 방법론이라함, 비모수 방법론이여도 모수적 방법론도 사용이됨

  • 베르누이분포 - 데이터가 2개의 값으로 구성 ( 0또는 1)
  • 카테고리분포 - 데이터가 n개의 이산적인 값을 가지는 경우
  • 베타분포 - 데이터가 [0,1] 사이에서 값을 가지는 경우
  • 감마분포, 로그정규분포 - 데이터가 0이상의 값을 가지는 경우
  • 정규분포, 라플라스분포 - 데이터가 전체에서 값을 가지는 경우

중요!! 데이터를 생성하는 원리를 먼저 고려해야함! 기계적으로 확률분포를 가정하면 안됨

 

  • Sampling Distribution - 포집분포이며, 표본평균의 표집분포는 N이 커질수록 정규분포 따름 ( 중심극한정리 )

최대가능도 추정법

  • 표본 평균이나 포본분산만으로 통계를 하는것은 위험
  • 가장 가능성이 높은 모수를 추정하는 방법은 MLE (최대가능도 추정법)

최대우도법 (MLE)

  • 모수적인 데이터 밀도를 추정하는 방법

Likelihood(가능도) function

  • 데이터의 추정의 가능도(기여도)를 추정하는 방법을 의미
  • 데이터의 샘플에서 후보 분포에 대한 높이를 계산해서 모두 곱한 값
  • 독립적으로 추출되었을 경우, 로그 가능도로 최적화

로그를 사용하는 이유?

  • 데이터의 숫자가 굉장히 많아질 경우, 컴퓨터의 정확도를 높이기 위해서 로그를 사용함
  • 경사하강법으로 가능도를 최적화할 때, 미분 연산을 사용하는데, 로그 가능도를 사용하면 연산 수도 줄어듬

딥러닝에서 최대가능도 추정법 

  • 딥러닝 모델의 가중치를 표기 했을 경우, 분류 문제에서 softmax 벡터는 카테고리분포의 모수를 모델링
  • 원핫벡터로 표현한 정답 레이블을 관찰 데이터로 이용해 확률 분포인 softmax 벡터의 로그 가능도를 최적화 

베이즈 통계학 맛보기

 

조건부 확률 

  • 2개의 사건에서 B가 일어난 상황에서 A가 발생하는 확률을 의미

  • 베이즈 정리는 조건부 확률을 이용하여 정보를 갱신하는 방법 
  • A의 새로운 정보가 주어졌을때, P(B)로부터 P(A\B)를 계산하는 방법

 

베이즈 통계 식, 설명

 

  • 1종오류, 2종오류(조금 더 중점) 초점을 잘 맞춰야함
  • 계산된 사후확률을  사전확률로 사용하여 갱신된 사후확률을 계산

 

  • 인과관계 - 데이터 분포의 변화에 강건한 예측 모형을 만들때 필요
  • 중첩요인의 효과를 제거하고 원인에 해당하는 변수의 인과관계를 계산

 

5주차 학습 정리는 여기 까지 입니다.

그리고 퀴즈를 풀었습니다. 퀴즈도 수학문제, 이론적인 문제 등 다양하게 제출되더라구요!

아주 재밌습니다. ㅎㅎㅎ

6주차는 수학적인 내용도 포함되지만, 이론적인 부분도 더 배우는 주차가 될 것 같습니다.

 

 

- 본 포스트의 학습 내용은 부스트클래스 <AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정> 강의 내용을 바탕으로 작성되었습니다

반응형