본문 바로가기

전체 글38

혼자 공부하는 판다스 - 데이터 저장하기 데이터를 불러왔으니 데이터를 저장도 해보자. 처음은 csv 파일로 저장하는 것이다. DataFrame.to_csv(파일이름, 경로) import pandas as pd data = {'name': ['Jerry', 'Riah', 'Paul'], 'algol':['A', 'A+', 'B'], 'basic' : ['C','B','B+'], 'c++' : ['B+','C','C+'] } df = pd.DataFrame(data) df.set_index('name',inplace=True) print(df) df.to_csv('./df_sample.csv') 두 번째는 json 파일로 저장하는 것이다 DataFrame.to_json(파일이름(경로)) data = {'name' : ['Jerry','Riah', .. 2022. 4. 4.
혼자 공부하는 판다스 - 외부파일 읽어오기 이번에는 외부파일을 읽어오는 법을 알아보자. 먼저 csv 파일이다. 불러오는 방법은 pd.read_csv(파일경로) 이 함수의 옵션에 대해 알아보면 header = 0 -> 기본 값으로서 0행을 열로 지정한다. header = 1 -> 1행을 열로 지정한다. header = None -> 행을 열로 지정하지 않는다 index_col 옵션은 데이터프레임의 행 인덱스가 되는 열을 지정한다. index_col = False -> 인덱스를 지정하지 않는다 index_col = 'c0' -> c0 열을 인덱스 지정한다. 실제로 코드를 실행해보자. import pandas as pd file_path = '/content/drive/MyDrive/part2/read_csv_sample.csv' df1 = pd.re.. 2022. 4. 4.
혼자 공부하는 머신러닝 + 딥러닝 - 주성분 분석 주성분 분석을 하기 전에 차원 축소라는 것을 알아야한다. 군집이나 분류에 영향을 미치지 않으면서 업로드된 사진의 용량을 줄이는 것이 차원 축소이다. 그러면 차원은 무엇일까? 과일 사진에 10000개의 픽셀, 즉 특성이 있을 때 이런 특성을 차원이라고 부른다. 2차원 이상의 배열에서는 행과 열이 차원이 되지만, 1차원 배열에서는 원소의 갯수가 차원이 된다. 어쨌든, 비지도 학습을 하기 위해서는 차원 축소를 진행해야한다. 차원 축소는 데이터를 대표하는 일부 특성을 선택해서 데이터 크기를 줄이고 지도 학습 모델의 성능을 향상 시킬 수 있는 방법이다. 그 중 주성분 분석은 데이터에 있는 분산이 큰 방향을 찾는 것이다. 즉, 데이터의 분포를 가장 잘 표현하는 방법을 찾는 것이다. 이 데이터에서 분산이 가장 큰 방.. 2022. 3. 31.
혼자 공부하는 머신러닝 + 딥러닝 - K-Means 알고리즘 비지도 학습은 사진에 어떤 과일이 들어 있는지 모른다. 이럴 때 k-means 군집 알고리즘으로 평균값을 자동으로 찾는다. 평균값이 클러스터의 중심에 위치하기 때문에 클러스터 중심 또는 센트로이드 라고 부른다. 작동 순서는 다음과 같다. 1. 무작위로 k개의 클러스터 중심 정하기 2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정하기 3. 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경 4. 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복. 이를 그림으로 나타내면 다음과 같다. 처음에는 랜덤하게 클러스터 중심을 선택하고 점차 가장 가까운 샘플의 중심으로 이동하는 간단한 알고리즘이다. 그렇다면, 이제 코드로 구현해보자 !wget https://bit.ly/fru.. 2022. 3. 29.