본문 바로가기

Python14

[Python]DataFrame 열, 컬럼마다 최댓값(max) 구하기 지하철 사용횟수와 날짜가 적인 DataFrame이 있다. 유임승차, 유임하차, 무임승차, 무임하차 4가지 별로, 각각 가장 많은 역을 찾아보자.df[['유임승차', '유임하차', '무임승차', '무임하차']]  df[['유임승차', '유임하차', '무임승차', '무임하차']].max()  df[['유임승차', '유임하차', '무임승차', '무임하차']]:이 부분은 데이터프레임 df에서 '유임승차', '유임하차', '무임승차', '무임하차' 열을 선택하는 작업을 한다.대괄호 안에 열 이름들을 리스트 형태로 넣어주었다.따라서 이 부분은 해당 열들을 포함한 새로운 데이터프레임을 생성한다..max():선택된 열들에 대해 최댓값을 구하는 함수이다.이 함수를 사용하면 각 열의 최댓값을 구할 수 있다.최댓값이 구해진.. 2024. 4. 11.
[Python] seaborn 데이터 그래프 출력(countplot,regplot, Heat Maps ) Seaborn Seaborn은 파이썬의 시각화 라이브러리 중 하나로, Matplotlib을 기반으로 만들어진 통계 데이터 시각화 패키지다. Matplotlib의 기능을 확장하여 통계 데이터를 보다 쉽게 시각화할 수 있도록 고급 기능과 스타일을 제공한다.통계적 분석에 유용한 다양한 시각화 기능을 제공한다. 예를 들어 산점도, 히스토그램, 상자 그림, 히트맵, 선 그래프 등을 그릴 수 있다. 이런 데이터프라임이 있다고 가정한다.countplot Seaborn 라이브러리에서 제공하는 함수 중 하나로, 카테고리형 변수의 빈도수를 시각화하는 데 사용된다. countplot은 주어진 데이터에서 각 카테고리 값의 개수를 세어 막대 그래프로 나타낸다다.sb.countplot(data = df, x='generation.. 2024. 4. 11.
[Python] Matplotlib 그래프, 차트 (plot(), scatter(), bar(), hist()) 데이터 시각화 MatplotlibMatplotlib은 데이터 시각화를 위한 파이썬 라이브러리이다. 이 라이브러리를 사용하면 그래프, 플롯, 차트 등 다양한 시각화를 생성할 수 있다.Matplotlib 라이브러리를 import해야 사용 가능하다.  Pyplot Matplotlib 라이브러리의 서브모듈 중 하나이다. Matplotlib의 주요 기능은 데이터 시각화이지만, 이를 위해 각종 그래프를 생성하고 조작하는데 사용되는 여러 서브모듈이 있다. 그 중 하나가 pyplot입다.import matplotlib.pyplot as pltIn [2]:pyplot를 plt로 줄여서 import 했다.Plotplot() 함수는 Matplotlib에서 가장 기본적이고 널리 사용되는 함수 중 하나이다. 이 함수는 선 그래프를 생성하는 .. 2024. 4. 11.
[Python] Pandas Dataframe 예제.(인덱스 재정렬, 상위 n개 데이터 출력 ,str.contains ,str.startswith,isin, ~ False만 출력) DataUrl = 'https://raw.githubusercontent.com/Datamanim/pandas/main/chipo.csv'df = pd.read_csv(DataUrl) 4000개의 식당데이터를 Dataframe형식으로 블러와 df로 저장한다. 1. quantity컬럼 값이 3인 데이터를 가져와서, index를 0부터 정렬하고 첫 5행을 출력하라.1.df['quantity'] ==3, # quantity 값이 3인 값 출력2.df.loc[df['quantity'] ==3, ] # quantity 값이 3인값의 행까지 출력3.df.loc[df['quantity'] ==3, ].reset_index().head() # 인덱스값을 리셋하고 상위 n개값(기본값 5개)만 출력 . .str.con.. 2024. 4. 9.
[Python]Pandas 예제. (unique, apply , groupby) unique():unique() 메서드는 pandas의 시리즈(Series) 객체에 적용되며, 시리즈에 있는 고유한 값들을 반환한다.주어진 시리즈에서 중복되지 않는 값을 찾아 반환한다.df라는 DataFrame이 있다. 나라를 중복되지 않도록 가져와서 countries 변수에 저장하고, 화면에 출력해보자.countries= df['country'].unique()country에 있는 나라를 중복하지않고 모두 출력 가능하다.apply():apply() 메서드는 pandas의 데이터프레임(DataFrame)이나 시리즈(Series) 객체에 적용되며, 주어진 함수를 각 행(axis=0) 또는 열(axis=1)에 적용한다.사용자가 정의한 함수를 사용하여 데이터프레임의 각 요소나 행, 열에 함수를 적용할 수 있습.. 2024. 4. 8.
[Python] Pandas DataFrame예제. index 변환, 컬럼 추가, 연산을 통한 데이터 추출 1. index, 컬럼 데이터로 저장하기df라는 변수에 14000개의 데이터가 저장되잇는 Dataframe이 있다. 1. 인덱스를 title 컬럼으로 셋팅하라.df.set_index('title', inplace=True)print(df) title의 데이터가 index로 이동했다. 2. 새로운 컬럼 추가하는법  리뷰에 새로운 컬럼 critic 만들고, everyone 이라고 값 넣어라. df['critic'] = 'everyone' 우측에 critic 이라는 컬럼이 생겼고 모든 값에 'everyone'이 들어갔다. 3. 연산을 통한 데이터 추출 리뷰의 포인트의 평균을 구하고, 리뷰의 포인트값이, 평균보다 큰 데이터 (즉, 평가가 좋은 와인) 만 가져오시오. df['points'].mean()#출력값88.. 2024. 4. 8.