전체 글52 Scaling 회귀분석에서 Scaling 이란? => Scaling = 범위(최소~최대) -ing -> 즉, 범위를 바꾸는 것 ax에서는 1~10 사이 스케일, cx에서는 1000~100만 사이 스케일 ∴ 스케일이 더 큰 변수에 맞춰어서 가중치를 최적화하는 문제 발생 우리가 사용하는 y=ax + cx +b 에서 X들은 사용하는 범위가 다 다름. 각기 다른 변수들의 범위를 비슷하게 맞추기 위해 사용 ***Normalization(정규화) ∴ min-max scaling 정규의 스케일을 0~1 사이 범위로 맞추는 것이기 때문에 분포가 바뀔 수 있음. 변수의 '범위가 정해진 값이 필요할 때' 사용 ***Standardizion(표준화) 변수의 평균을 0으로 두고, 양옆으로 표준편차를 1로 만들어 ∴표준정규분포의 특징 예측모.. 2023. 1. 5. 머신 러닝(Machine Learning) Agenda 1. Artificial Intelligence 2. Machine Learning(Gradient Descent) 3. Model Validation 4. Regression Analysis 5. Logistic Regression 6. Decision Tree 7. Random Forest(Ensemble) 8. K-means Clustering 9. K-Nearest Neighbors Validation Approach는 (딥러닝에서는)Train과 Validation과 Test 이렇게 3개로 쪼개서 확인함. 그 외 Cross Validation이라고 3개 이상 더 있음. from sklearn.model_selection import train_test_split ==> test siz.. 2023. 1. 4. Model Validation 관련 Insight 일반화 됐다는 것은 학습이 사용되지 않은 DATA에서도 좋은 성능은 아니더라도 비슷한 성능을 제공해줄 수 있는 모델을 일반화된 모델이라고 함. 이론상으로는 미래의 데이터인 것이다! Training Data에서는 과거 -> 학습에 사용 Testing Data에서는 미래 -> 가정해서 평가 학습 = 파라미터의 업데이트, 경사하강법을 종해 MSE를 감소시키는 것 학습한 것 = 모델 MSE가 가장 많은 값을 고른 것이 다른 Data에서 오차가 크면 성공적인 모델 X 과거에만 적용되니까 ===> Testing 2023. 1. 3. Pandas, Matplotlib, Seaborn 관련 Insight 데이터프레임 이름 변경하는 방법 # 전체 열 이름 입력하기 DF.columns = ['col', 'col', 'col'] # 선택하여 열 이름 변경하기 DF.rename(columns={'Before':'After'}) 데이터 오름차순 정렬하는 법 DF.sort_values('소계').head() ---> DF로 나오고 DF.소계.sort_values.head() ---> 시리즈로 나옴 두개는 다름 DF.sort_values('소계', ascending = false) 오름차순 시리즈로 나올때 # DF.Height.sort_values(ascending = True).head() #DF['Height'].sort_values(ascending = True).head()이렇게 해도 상관없음~ 결측치 확인방.. 2022. 12. 30. 이전 1 ··· 4 5 6 7 8 9 10 ··· 13 다음