본문 바로가기

ML.DL12

데이터분리 데이터 분리과적합 여부를 판정해보는 방법 .. 데이터를 분리해서 사용하는 것 !전체데이터에서 훈련데이터셋/테스트데이터셋 을 나누는 것이 최소이고,그러나 , 테스트를 하기전 훈련데이터를 다시 나누어서 일부를 Validation 용으로 (검증용) 으로 사용한다.이것은 내가 가진 데이터를 가지고 과적합을 막을 수 있고 일반화된 성능을 확보하기 위해 나누어서 사용하는 이유이다.그럼 이번에는 데이터를 나눈 후 훈련/검증/테스트 까지 시켜보는 과정을 해보겠다.from sklearn.datasets import load_irisimport pandas as pdiris = load_iris()from sklearn.model_selection import train_test_splitfeatures = iris.da.. 2025. 1. 13.
zip과 언패킹 zip먼저 리스트 두개를 만들어준다.# zip 과 언패킹list1 = ['a','b','c']list2 = [1,2,3]zip 을 해준다.pairs = [pair for pair in zip(list1, list2)]pairs결과물을 dict 형태로 변경해 준다.dict(pairs)이 과정을 한 줄로 끝내는 방법dict(zip(list1, list2)) # zip을 이용해서 딕셔너리를 만들 수 있음언패킹언패킹은 매우 쉽다. 다시 변수에 까서 넣어주면 된다.x,y = zip(*pairs) # zip을 이용해서 언패킹x, y에 다시 튜플형태로 값이 들어간 것을 볼 수 있다. 그런데 이를 다시 리스트로 바꿔주려면list 로 감싸 형변환 시켜주면 된다.끝! 2025. 1. 13.
타이타닉 생존자 분석 EDA 2 타이타닉 생존자 분석 EDA21. 경제력 대비 생존률pd.crosstab(titanic['pclass'], titanic['survived'], margins=True)pclass 는 객실등급을 뜻한다.crosstab 은 데이터 분석과 통계에서 주로 사용되는 함수라고 한다. 2개의 범주형 변수를 비교할 수 있어서 pclass 범주형 변수와 survived 범주형 변수를 넣어서 사용해 보겠다.survived01Allpclass123All12320032315811927752818170980950013091등실의 생존 가능성이 매우 높다.그런데 여성의 생존률도 높다.그럼, 1등실에는 여성이 많이 타고 있었나?2. 객실등급별 각 성별의 나이분포 확인(FacetGrid)grid = sns.FacetGrid(tit.. 2025. 1. 13.
머신러닝을 이용한 생존자예측 - titanic 이제 드디어 머신러닝을 활용하여 생존자를 예측하는 모델을 만들어 본다.먼저 머신러닝 데이터에는 문자열 데이터가 오는게 아닌 숫자형만 와야 하는데,info() 를 찍어보니,내가 사용 할 feature 인 sex가 문자로 되어있다.그래서 이것을 형변환 해주기 위해 사이킷런에 labelencoder 를 사용해보겠다.1. LabelEncoder# 머신러닝을 이용한 생존자 예측from sklearn.preprocessing import LabelEncoderle = LabelEncoder()le.fit(titanic['sex'])labelencoder모델에 타이타닉의 sex값을 넣어서 학습을 돌렸다.2. class 확인le.classes_array(['female', 'male'], dtype=object)3. .. 2025. 1. 13.
Min-Max-Scaler Min-Max-Scaler / 정규화하기1. 데이터프레임 만들기#min-max scalingdf =pd.DataFrame({ 'A' : [10,20,-10,0,25], 'B' : [1,2,3,1,0]})AB01234101202-103012502. min max scaler 로 학습시키기from sklearn.preprocessing import MinMaxScalermms = MinMaxScaler()mms.fit(df)mms.data_max_, mms.data_min_ , mms.data_range_(array([25., 3.]), array([-10., 0.]), array([35., 3.]))3. transform 변환하기df_mms = mms.transform(df)df_mmsarray.. 2025. 1. 13.
Basic of Regression -OLS 실습import pandas as pddata = {'x':[1,2,3,4,5] , 'y':[1,3,4,6,5]}df = pd.DataFrame(data)df데이터프레임을 하나 만들어준다.전통적인 회귀분석모형을 구축하고 평가하기 위해서는 파이썬 라이브러리 statsmodels을 이용할 수 있음OLS 회귀분석 모델import statsmodels.formula.api as smflm_model = smf.ols(formula='y ~x', data=df).fit()statsmodel.formula에 ols라는 모델을 사용해서학습을 시켜준다.lm_model.params사용방법-> statsmodels.formula.api. ols( 공식 , 데이터 ,하위 집합 =None ,drop_cols =N.. 2025. 1. 13.
반응형