본문 바로가기

Study36

혼자 공부하는 판다스 - 데이터프레임의 다양한 응용(함수 매핑, 열 재구성) 개별 원소에 함수 매핑 시리즈 객체에 apply() 메소드를 적용하면 인자로 전달하는 함수에 시리즈의 모든 원소를 하나씩 입력하고 함수의 리턴값을 돌려 받는다. 이는 다음과 같이 작성한다. Series.apply(매핑 함수) import seaborn as sns titanic = sns.load_dataset('titanic') df = titanic.loc[:, ['age', 'fare']] df['ten'] = 10 def add_10(n): return n + 10 def add_two_obj(a, b): return a + b print(add_10(10)) print(add_two_obj(10, 10)) 20 20 먼저 다음과 같이 두 함수를 정의했다. 그 다음에 apply 메소드를 적용하여 .. 2022. 4. 26.
혼자 공부하는 머신러닝 + 딥러닝 - 합성곱 신경망의 구성요소 이번 챕터는 합성곱 신경망에 대해서 알아보려고 한다. 합성곱 합성곱은 입력 데이터에 도장을 찍는 것과 비슷하다고 보면 된다. 본래의 인공 신경망을 생각해보면, 가중치와 절편을 랜덤하게 초기화한 다음에, 에포크를 반복하면서 경사 하강법 알고리즘을 사용하여 손실이 낮아지도록 최적의 가중치와 절편을 찾는다. 하지만 합성곱은 밀집층 계산과는 다르게 입력 데이터 전체에 가중치를 적용하는 것이 아니라 일부에 가중치를 곱한다. 3개의 가중치와 가장 처음 3개 특성와 곱해져서 1개의 출력이 만들어진다. 그 다음 한칸을 이동해서 가중치를 곱하고 1개의 출력을 얻는다. 이런 방식을 취하는 것이 합성곱이다. 이렇게 한다면 총 8개의 출력이 나타난다. 밀집층의 뉴런은 10개의 가중치를 가지고 1개의 출력을 만든다면, 합성곱의.. 2022. 4. 26.
혼자 공부하는 판다스 - 데이터 사전처리(정규화, 시계열 데이터) 정규화 각 변수에 들어 있는 숫자 데이터의 상대적 크기 차이 때문에 분석 결과가 달라질 수 있다. 그렇기 때문에 숫자 데이터의 상대적 크기 차이를 제거할 필요가 있는데, 각 열에 속하는 데이터 값을 동일한 크기 기준으로 나눈 비율로 나타내는 것을 정규화라고 한다. 정규화 과정을 거치게 되면, 데이터의 범위는 0~1 또는 -1 ~ 1이 된다. df = pd.read_csv('/content/drive/MyDrive/part5/auto-mpg.csv', header=None) df.columns = ['mpg','cylinders','displacement','horsepower','weight', 'acceleration', 'model_year','origin','name'] df['horsepower'.. 2022. 4. 22.
혼자 공부하는 판다스 - 데이터 사전 처리(데이터 표준화, 범주형 데이터 처리) 데이터 표준화 자료마다 서로 다른 단위가 섞여 있거나 같은 대상을 다른 형식으로 표현한 경우가 있다. 이처럼 동일한 대상을 표현하는 방법에 차이가 있다면, 분석의 정확도는 현저히 낮아질 것이다. 따라서 데이터 포멧을 일관성 있게 표준화 하는 작업이 무엇보다도 필요하다. 다음은 자동차 연비 데이터셋에서 mpg 열을 바꾸는 과정이다. mpg는 마일 퍼 갤런으로 우리에게 익숙한 킬로미터 퍼 리터 로 바꿔보겠다. 1마일은 1.60934km이고 1갤런은 3.78541리터이다. import pandas as pd df = pd.read_csv('/content/drive/MyDrive/part5/auto-mpg.csv') df.columns = ['mpg','cylinders','displacement','hors.. 2022. 4. 22.