I can do it!!

He can do! She can do! why cannot me? i can do it!

개발/sk infosec cloud ai 전문가 양성과정

[naive bayes classification]

gogoriver 2020. 10. 5. 18:12
  • 나이브 베이즈 분류 알고리즘

    • 베이즈
      • 사전확률가 사후확률 사이의 관계를 나타내는 정리
      • 귀납적 경험적인 추론을 사용한다
      • 매개변수 x,y가 있을 때 p1(x,y) p2(x,y)일 때로 한다
      • 확률 p1이 p2에 나올 값보다 클 때 분류 1에 속한다고 정리한다
      • 이것을 베이즈 정리 라고 한다.
      • 확률이 더 큰 쪽이 나타내고자 하는 분류별 확률로 측정한다.
    • 선형모델과 배우 유사.
    • 로지스틱 회귀나 선형 SVC보다 훈련 속도가 빠르다.
    • 텍스트 분류에 사용된다(스팸, 스포츠, 정치)

    • EX ) 이메일 분류

      • 이메일에 들어가 있는 단어들 매개변수에 대해서 해당 이메일이 스팸일 확률과 스팸이 아닐 확률에 대한 분류
    • 공식을 하나 알고 있어야 한다.

    • image
      • 조건부 확률 모델(공식)도 알고있으면 좋다.
      • 문제 ) 남학생인확률 P(A)와 키가 170 이상인 확률 P(B)를 알고, 남학생중에서 키가 170인 확률 P(B|A)를 알면, 키가 170인 학생 중에 남학생인 확률 P(A|B)를 알 수 있다
        • P(B|A), P(A), P(B)를 알고 있는 상황에서는 P(A|B)를 구할 수 있다.
    • 베이즈 종류

      1. 가우시안 나이브 베이즈 ( 연속적인 데이터)
      2. 베이누이 나이브 베이즈(BernoulliNB) ( 이진분류 / 텍스트)
      3. 다항분포 나이브 베이즈(MultinomialNB) ( 카운트 데이터 / 텍스트)
    • 나이브 베이즈 정리의 목표
      • 베이즈 정리를 활용하여 임의의 데이터가 특정 클래스에 속하는지 확인하고, 확률을 계산하기 위해 사용한다!
    • 나이브 베이즈 정리 수학 공식 및 예제
      • 영화 예제
    • 활용
      • 구글 자동 번역기
        • 단어 빈도수를 찾은 다음 언어를 판별한다
      • bag of word
        • word embedding : 글자값은 수학적으로 변환한 후 수학전 연산 or 머신러닝에 활용된다,
        • 따라서 문자값을 숫자값으로 매핑하는 작업이 필요하다.