본문 바로가기

Study/혼자 공부하는 머신러닝18

혼자 공부하는 딥러닝 + 머신러닝 - 군집 알고리즘 이제는 비지도 학습이다. 비지도 학습은 타깃이 없을 때 사용하는 머신러닝 알고리즘이다. 즉, 사람이 가르쳐 주지 않아도 데이터에 있는 무언가를 학습하는 것이다. 먼저 데이터를 준비해보자. !wget https://bit.ly/fruits_300_data -O fruits_300.npy import numpy as np import matplotlib.pyplot as plt fruits = np.load('fruits_300.npy') fruits 배열의 크기를 확인해보자. print(fruits.shape) (300, 100, 100) 이 결과에서 첫 번째 차원(300)은 샘플의 개수를 나타낸다. 두 번째 차원(100)은 이미지의 높이, 세 번째 차원(100)은 이미지의 너비이다. 첫 번째 이미지의 첫.. 2022. 3. 29.
혼자 공부하는 머신러닝 + 딥러닝 - 앙상블 데이터에는 두가지 종류가 있다. 하나는 정형 데이터, 그리고 나머지는 비정형 데이터 이다. 정형 데이터는 쉽게 말해 데이터베이스나 엑셀로 표현된 데이터들이다. 흔히 말해 수량으로 표현되거나 특징이 표현이 되는 등등 이다. 비정형 데이터는 쉽게 말해 데이터베이스나 엑셀로 표현되지 않은 데이터들이다. 지금까지 정형 데이터를 다뤄왔는데, 가장 뛰어난 성과를 보이는 알고리즘은 앙상블 학습 이다. Adsp에서 배운 앙상블 기법은 성능이 낮은 여러개의 모형을 결합하여 성능이 뛰어난 모형을 만드는 것이었따. 그리고, 앙상블 기법은 결정 트리를 기반으로 만들어져 있다. 그러면 앙상블 기법의 여러가지 학습 알고리즘을 알아보자. 랜덤 포레스트 랜덤 포레스트는 안정적인 성능 덕분에 널리 사용되고 있다. 결정 트리를 랜덤하게.. 2022. 3. 17.
혼자 공부하는 머신러닝 + 딥러닝 - 결정 트리 먼저 저번에 배운 로지스틱 회귀로 와인을 분류해보자. import pandas as pd wine = pd.read_csv('https://bit.ly/wine_csv_data wine.info() wine.info() RangeIndex: 6497 entries, 0 to 6496 Data columns (total 4 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 alcohol 6497 non-null float64 1 sugar 6497 non-null float64 2 pH 6497 non-null float64 3 class 6497 non-null float64 dtypes: float64(4) memory .. 2022. 3. 14.
혼자 공부하는 머신러닝 + 딥러닝 - 로지스틱 회귀 생선의 크기, 무게 등이 주어졌을 때 7개 생선의 종류에 대한 확률을 구해보자. 첫번 째는 k-최근접 이웃 분류기를 이용해 10개의 이웃 중 종류별로 확률을 구해서 생선의 확률이라 생각을 해보자. 먼저 데이터를 불러오자. import pandas as pd fish = pd.read_csv('https://bit.ly/fish_csv_data') fish.head() 판다스의 unique() 함수를 통해서 어떤 종류의 생선이 있는지 확인해보자. print(pd.unique(fish['Species'])) ['Bream' 'Roach' 'Whitefish' 'Parkki' 'Perch' 'Pike' 'Smelt'] Species 열을 빼고 나머지 열을 가지고 input 데이터로 만든다. fish_input.. 2022. 3. 10.