-
나이브 베이즈 분류 알고리즘
- 베이즈
- 사전확률가 사후확률 사이의 관계를 나타내는 정리
- 귀납적 경험적인 추론을 사용한다
- 매개변수 x,y가 있을 때 p1(x,y) p2(x,y)일 때로 한다
- 확률 p1이 p2에 나올 값보다 클 때 분류 1에 속한다고 정리한다
- 이것을 베이즈 정리 라고 한다.
- 확률이 더 큰 쪽이 나타내고자 하는 분류별 확률로 측정한다.
- 선형모델과 배우 유사.
- 로지스틱 회귀나 선형 SVC보다 훈련 속도가 빠르다.
- 텍스트 분류에 사용된다(스팸, 스포츠, 정치)
-
EX ) 이메일 분류
- 이메일에 들어가 있는 단어들 매개변수에 대해서 해당 이메일이 스팸일 확률과 스팸이 아닐 확률에 대한 분류
-
공식을 하나 알고 있어야 한다.
-
- 조건부 확률 모델(공식)도 알고있으면 좋다.
- 문제 ) 남학생인확률 P(A)와 키가 170 이상인 확률 P(B)를 알고, 남학생중에서 키가 170인 확률 P(B|A)를 알면, 키가 170인 학생 중에 남학생인 확률 P(A|B)를 알 수 있다
- P(B|A), P(A), P(B)를 알고 있는 상황에서는 P(A|B)를 구할 수 있다.
-
베이즈 종류
- 가우시안 나이브 베이즈 ( 연속적인 데이터)
- 베이누이 나이브 베이즈(BernoulliNB) ( 이진분류 / 텍스트)
- 다항분포 나이브 베이즈(MultinomialNB) ( 카운트 데이터 / 텍스트)
- 나이브 베이즈 정리의 목표
- 베이즈 정리를 활용하여 임의의 데이터가 특정 클래스에 속하는지 확인하고, 확률을 계산하기 위해 사용한다!
- 나이브 베이즈 정리 수학 공식 및 예제
- 영화 예제
- 활용
- 구글 자동 번역기
- 단어 빈도수를 찾은 다음 언어를 판별한다
- bag of word
- word embedding : 글자값은 수학적으로 변환한 후 수학전 연산 or 머신러닝에 활용된다,
- 따라서 문자값을 숫자값으로 매핑하는 작업이 필요하다.
- 구글 자동 번역기
- 베이즈
'개발 > sk infosec cloud ai 전문가 양성과정' 카테고리의 다른 글
[Keras & Tensorfow] 개념 (0) | 2020.10.02 |
---|---|
[파이썬 라이브러리를 활용한 머신러닝 #3] (0) | 2020.09.22 |
[파이썬 라이브러리를 활용한 머신러닝 #2] (0) | 2020.09.13 |
[파이썬 라이브러리를 활용한 머신러닝 #1] (0) | 2020.09.13 |
[MNF 비지도학습] SK infosec 클라우드 AI전문가 양성과정 실습파일 (0) | 2020.09.11 |