I can do it!!

He can do! She can do! why cannot me? i can do it!

개발 53

[pandas를 활용한 데이터분석]SK infosec 클라우드 AI 전문가 양성과정 실습과제

Import pandas and read in the Ecommerce Purchases csv file and set it to a DataFrame called ecom. In [2]: import pandas as pd Check the head of the DataFrame. In [4]: df = pd.read_csv('C:/Users/ka030/Documents/GitHub/python_analysis/sources/Day4/workbook/Ecommerce Purchases.csv') df.head() Out[4]: Address Lot AM or PM Browser Info Company Credit Card CC Exp Date CC Security Code CC Provi..

[pandas를 활용한 데이터분석]SK infosec 클라우드 AI 전문가 양성과정 수업필기본

In [1]: %matplotlib inline import pandas as pd import matplotlib.pyplot as plt In [2]: ##1. csv 파일 불러오기 (convenient_store.csv) df = pd.read_csv('C:/Users/ka030/Documents/GitHub/python_analysis/sources/Day4/workbook/convenient_store.csv') In [3]: ##2. 전체 컬럼 정보, null 값 유무 확인 df.info() RangeIndex: 177 entries, 0 to 176 Data columns (total 7 columns): area 177 non-null object company 177 non-null ob..

[Pandas를 이용한 데이터 분석mnist-fashion, svm, decision tree]SK infosec 클라우드 AI 전문가 양성과정 수업 실습내용

mnist fashion¶ test 데이터 중에서 첫번째 데이터를 이미지로 표시 => 이미지 제출 Fashion-mnist_train.csv(60000개), fashion-mnist_test.csv(10000개) RandomForestClassifier GradientBoostingClassifier MLPClassifier SVC 이 중 최적의 알고리즘과 파라미터 학습 ( GridSearchCV) 정답률 확인(WITH CODE) 주피터 코드로 제출 1. test 데이터 중 첫번째 데이터를 이미지로 표시하기¶ In [ ]: import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import wa..

[PYTHON데이터분석 2020/09/07-2] SK infosec 클라우드 AI 전문가 양성과정 수업필기본

대각선 필터와 같은 값은 보다 많은 pooling값을 통해 데이터의 특징을 추출한다 따라서 결과적으로 풀링값이 가장 큰 대각선 필터가 유용하다고 결론지을 수 있다. fully connected 영역 이제 conv layer 1,2 를 통과한 영역이 이후 layer에 의한 결과값이 조절이 된다. 기존에 위치를 이용해서 전체 데이터를 하나의 입력 데이터로 사용했던 방식보다는 조그마한 커널을 만들어서 커널을 기억해서 가장 강력한 것을 뽑는 softmax로 fc를 거친다 치와와 vs 머핀 / 고양이 vs 아이스크림 처럼 고양이, 개의 특징을 잡아서 구분하는 것이다. 어떠한 필터인지에 따라서 sharp, emboshing등의 필터들의 값을 가지고 sampling을 거칠 수 있다. 이러한 이미지에서 각각의 특징을 ..

[PYTHON데이터분석 2020/09/07-1] SK infosec 클라우드 AI 전문가 양성과정 수업필기본

ML 과대적합과 과소적합 과대적합 predict에서 검증용 데이터를 다룬다 학습은 아주 잘했는데. 예측단계에서 정확도가 떨어지는 경우가 있다. 이러한 경우를 과대적합이라고 한다. 선형 알고리즘 y = wx + b h에 f가 들어갔을 때 예측값은 y로 표기 그래서 캐럿마크를 올려 y hat이라고 부른다. 과소적합 의미없는 dummy data를 가지고 한다. 지도학습이기 때문에 분류학습과 회귀작업에 대해서 각각 2개씩 데이터 세트가 제공된다. 총 4가지 값을 가지고 설계하고 있다. mglearn 교재에서 사용하는 dummy data를 가지고 온다 cnn 일반 신경망 일반 신경망에서는 이미지 데이터를 그대로 처리한다 mnist할때 격자 모양을 생각하면 편하다. 이미지 전체를 하나의 데이터로 입력 처리한다. 그..

[PYTHON데이터분석 2020/09/01] SK infosec 클라우드 AI 전문가 양성과정 수업필기본

네이버 영화 평점 가져오기¶ 제목 평점 작성자 작성일 데이터 가져와보기 In [ ]: 선형대수의 데이터 유형 스칼라 3차 이상의 차수라고 한다. 기본적으로 백터, 메트릭스, 행렬을 제일 많이 사용한다. numpy가 함수들도 많고 리소스도 상당히 많다 다차원 배열의 축 정말 중요하다. 꼭 기억하기! y가 컬럼 3차 데이터 타입이 되면서 뒤쪽의 차수 z가 되고 이게 3차원이다. numpy에서 행렬 데이터를 다루고자 할때 축의 변경에 의해서 축 중심으로 변경을 시키냐, 데이터 합산을 하느냐, x축 중심으로 연산을 하느냐 등에 따라 결과가 달라진다. 2차 데이터까지만 지원이 된다. 3차원부터는 depth가 생기면서 z, axis2의 값을 사용할 수 있다. 1> 총 6묶음이 있는데 초록색 점선이 1차 배열, 초록..

[PYTHON데이터분석 2020/09/03] SK infosec 클라우드 AI 전문가 양성과정 수업필기본

matplotlib¶ 그래프 생성 순서 그림 생성 fig = plt.figure() 영역을 잡는다고 생각하면 된다. 하위 그래프 추가 ax1 = fig.add_subplot(1,1,1) 하나의 캔버스에 여러개의 plot을 그릴 수 있다. x,y축 레이블, 눈금 작성 plt.xlael('Customer Name') 그래프 작성 plt.xticks(~~~~) 데이터를 지정하고, 선형, 빨강 등을 정할 수 있다. 그래프 보이기 종류 bar histogram 선(line) candle(박스 그래프) 주식 주가, 가격 표시할 때 많이 쓴다. matplotlib01¶ In [ ]: import matplotlib.pyplot as plt %matplotlib inline In [ ]: import numpy as ..

[PYTHON데이터분석 2020/09/02] SK infosec 클라우드 AI 전문가 양성과정 수업필기본

SVM 힌트 및 설명¶ 결과 정확도가 떨어지는 경우가 많다. 추가 작업 가능하다면 해봐라 SVM은 경계선을 찾아서 제한된 조건을 구분한다. 앞과 같이 데이터를 양분할 때 주로 사용된다. 파라미터 중에서 C파라미터를 이용해 마진 오류의 균형을 맞춘다. 예를 들어 양분화되어있는 선이 있다고 했을 때 임의의 값이 틀릴 경우 마진의 오류라고 하는데 이게 완벽할 수 없고 오류가 발생할수도 있다. 마진이라는 것은 둘 사이의 거리가 작아진다는 이야기인데,C가 크다면 마진의 크가기 작아지고, 마진의 오류도 작아진다. 반대로 C가 작다면 마진의 크기가 커지고 마진 오류도 커진다. SVM모델이 과대적합이면 C를 감소시켜서 조금 더 유연한 모델로 만들고, 과소적합이면 C를 증가시켜서 조금 더 타이트한 모델을 만들어서 제공할..

[클라우드 컴퓨팅]SK infosec 클라우드 AI 전문가 양성과정 수업필기본

sk infosec cloud ai 전문가 양성 과정 클라우드 20/08/04 4차 산업 혁명 I C B M -> A B C D AI > 예측 & 추천 시스템 => 데이터 처리의 목적은 예측이다. CLOUD > 데이터 저장 공간 POINT 는 위 모든 것들은 네트워크가 필수다. HYPER CONNECTIVELY WHAT & HOW & INSIGHT 데이터 처리할때 알려주신 FLOW로 해야한다. 활용할때 기획부터 생각해야한다. 기획>수집>저장>처리>분석>시각화>활용 데이터 처리의 종류 데이터 베이스의 목적 1) 저장 2) 검색 3) 중복처리 RDMBS(관계형 데이터 베이스) 오라클 MS SQL My SQL SYBASE DB2 (은행권) SQL LITE (모바일) NOSQL MONGO DB HADOOP = ..

[docker4]SK infosec 클라우드 AI 전문가 양성과정 수업필기본

SK infosec 클라우드 AI 전문가 양성과정 WEEK 02 07/17 위 설치를 위해서는 2가지 방법이 있다. 간단한 Dockerfile을 작성하여 dockerfile이 실행될때 run에 install 내용을 추가하는 것 github에 올려진 내용 복붙하는 법 강사님은 이것을 더 추천하셨다. centos위에 maria DB 시작 MariaDB는 오픈 소스의 관계형 데이터베이스 관리 시스템(RDBMS)이다. 1) googleing 및 복사 검색창에 centos dockerfile github로 검색한다 dockerfile 내용을 찾아서 복사 붙여넣기 한다. 귀찮으면 그냥 그대로 다운받아서 폴더에 복붙하면 된다. 2) 이미지 제작한다centos 위에 mariadb 설치하기 ~\centos_mariadb..