본문 바로가기

전체 글64

[Python]머신러닝 Machine Learning MSE(평균 제곱 오차,Mean Squared Error ) 를 쓰는 이유 MSEMSE(Mean Squared Error, 평균 제곱 오차 )는 회귀 모델의 성능을 측정하는 데 사용되는 지표 중 하나로, 예측 값과 실제 값 간의 평균 제곱 차이를 측정한다. 이 지표는 예측 모델이 얼마나 잘 작동하는지를 평가하고, 모델의 예측 오차를 수치화하여 제공한다.  간단하고 직관적인 지표: MSE는 예측 값과 실제 값 사이의 차이를 제곱하여 평균한 값으로, 이해하기 쉽고 직관적이다.미분 가능한 손실 함수: MSE는 연속형 변수를 예측하는 회귀 문제에서 많이 사용되는 손실 함수이다. 이 함수는 미분 가능하므로 경사 하강법과 같은 최적화 알고리즘을 사용하여 모델을 학습시킬 수 있다.이상치에 민감하지 않음: MSE는 오차를 제곱하여 계산하므로 이상치(Outlier)에 민감하지 않다. 즉, 이상.. 2024. 4. 12.
[Python]머신러닝 Machine Learning supervised Regression mse(평균 제곱 오차) Machine Learning머신러닝은 컴퓨터 시스템이 데이터에서 학습하고 경험을 통해 자동적으로 개선되는 알고리즘과 기술을 연구하는 인공지능의 한 분야이다. 이는 명시적으로 프로그래밍되지 않은 데이터를 사용하여 작업을 수행하도록 컴퓨터를 학습시키는 과학이다. 머신러닝 알고리즘은 대부분 다음과 같은 과정을 따른다:데이터 수집: 머신러닝 모델을 학습시키기 위해 데이터를 수집한다. 데이터는 입력 변수와 해당 변수에 대한 결과(목표 값 또는 레이블)으로 구성된다.데이터 전처리: 수집된 데이터를 정제하고 준비한다. 이 과정에는 데이터의 결측치 처리, 이상치 제거, 데이터 스케일링 등이 포함될 수 있다.모델 선택: 주어진 작업에 가장 적합한 머신러닝 모델을 선택합니다. 이는 데이터의 유형, 작업의 목적 등에 따라.. 2024. 4. 12.
[Python]DataFrame 열, 컬럼마다 최댓값(max) 구하기 지하철 사용횟수와 날짜가 적인 DataFrame이 있다. 유임승차, 유임하차, 무임승차, 무임하차 4가지 별로, 각각 가장 많은 역을 찾아보자.df[['유임승차', '유임하차', '무임승차', '무임하차']]  df[['유임승차', '유임하차', '무임승차', '무임하차']].max()  df[['유임승차', '유임하차', '무임승차', '무임하차']]:이 부분은 데이터프레임 df에서 '유임승차', '유임하차', '무임승차', '무임하차' 열을 선택하는 작업을 한다.대괄호 안에 열 이름들을 리스트 형태로 넣어주었다.따라서 이 부분은 해당 열들을 포함한 새로운 데이터프레임을 생성한다..max():선택된 열들에 대해 최댓값을 구하는 함수이다.이 함수를 사용하면 각 열의 최댓값을 구할 수 있다.최댓값이 구해진.. 2024. 4. 11.
[Python] seaborn 데이터 그래프 출력(countplot,regplot, Heat Maps ) Seaborn Seaborn은 파이썬의 시각화 라이브러리 중 하나로, Matplotlib을 기반으로 만들어진 통계 데이터 시각화 패키지다. Matplotlib의 기능을 확장하여 통계 데이터를 보다 쉽게 시각화할 수 있도록 고급 기능과 스타일을 제공한다.통계적 분석에 유용한 다양한 시각화 기능을 제공한다. 예를 들어 산점도, 히스토그램, 상자 그림, 히트맵, 선 그래프 등을 그릴 수 있다. 이런 데이터프라임이 있다고 가정한다.countplot Seaborn 라이브러리에서 제공하는 함수 중 하나로, 카테고리형 변수의 빈도수를 시각화하는 데 사용된다. countplot은 주어진 데이터에서 각 카테고리 값의 개수를 세어 막대 그래프로 나타낸다다.sb.countplot(data = df, x='generation.. 2024. 4. 11.
[Python] Matplotlib 그래프, 차트 (plot(), scatter(), bar(), hist()) 데이터 시각화 MatplotlibMatplotlib은 데이터 시각화를 위한 파이썬 라이브러리이다. 이 라이브러리를 사용하면 그래프, 플롯, 차트 등 다양한 시각화를 생성할 수 있다.Matplotlib 라이브러리를 import해야 사용 가능하다.  Pyplot Matplotlib 라이브러리의 서브모듈 중 하나이다. Matplotlib의 주요 기능은 데이터 시각화이지만, 이를 위해 각종 그래프를 생성하고 조작하는데 사용되는 여러 서브모듈이 있다. 그 중 하나가 pyplot입다.import matplotlib.pyplot as pltIn [2]:pyplot를 plt로 줄여서 import 했다.Plotplot() 함수는 Matplotlib에서 가장 기본적이고 널리 사용되는 함수 중 하나이다. 이 함수는 선 그래프를 생성하는 .. 2024. 4. 11.
[Python] Pandas Dataframe 예제.(인덱스 재정렬, 상위 n개 데이터 출력 ,str.contains ,str.startswith,isin, ~ False만 출력) DataUrl = 'https://raw.githubusercontent.com/Datamanim/pandas/main/chipo.csv'df = pd.read_csv(DataUrl) 4000개의 식당데이터를 Dataframe형식으로 블러와 df로 저장한다. 1. quantity컬럼 값이 3인 데이터를 가져와서, index를 0부터 정렬하고 첫 5행을 출력하라.1.df['quantity'] ==3, # quantity 값이 3인 값 출력2.df.loc[df['quantity'] ==3, ] # quantity 값이 3인값의 행까지 출력3.df.loc[df['quantity'] ==3, ].reset_index().head() # 인덱스값을 리셋하고 상위 n개값(기본값 5개)만 출력 . .str.con.. 2024. 4. 9.