판다스(Pandas)는 파이썬 프로그래밍 언어로 작성된 데이터 조작 및 분석을 위한 라이브러리이다. 주로 데이터 처리 및 조작, 그리고 통계 분석에 사용된다. 주요 기능은 다음과 같다:
- 데이터 구조: 판다스는 두 가지 주요 데이터 구조를 제공한다.
- Series: 1차원 배열로 색인(index)이 있는 데이터를 담고 있다.
- DataFrame: 2차원 테이블 구조로, 여러 개의 Series를 포함하고 있다. 이는 행과 열로 구성되며, 행과 열에 각각 색인(index)이 지정된다.
- 데이터 읽기 및 쓰기: 다양한 데이터 형식으로부터 데이터를 읽어들이고, 판다스 객체로 변환할 수 있다. 또한, 판다스 객체를 다시 다양한 형식으로 저장할 수 있다.
- 데이터 조작: 판다스는 데이터를 조작하고 변형하는 다양한 메서드와 기능을 제공한다. 이를 통해 데이터의 필터링, 정렬, 그룹화, 결합 등을 수행할 수 있다.
- 결측값 처리: 판다스는 결측값(missing value)을 처리하는 기능을 제공한다. 이를 통해 결측값을 삭제하거나 다른 값으로 대체할 수 있다.
- 통계 분석: 판다스는 통계 분석을 위한 다양한 함수와 메서드를 제공한다. 이를 통해 데이터의 요약 통계, 그룹별 통계, 회귀 분석 등을 수행할 수 있다.
- 시각화: 판다스는 데이터를 시각화하는 기능을 제공하지는 않지만, 시각화 라이브러리인 Matplotlib나 Seaborn과 함께 사용하여 데이터를 시각적으로 탐색하고 표현할 수 있다.
Series
시리즈(Series)는 판다스에서 제공하는 1차원 배열 형태의 데이터 구조이다.
시리즈는 인덱스(index)와 값(value)으로 구성되어 있다.
파이썬의 리스트나 넘파이(NumPy) 배열과 유사하지만, 인덱스 이름을 지정할 수 있다는 점이 다르다.
예시
data = [30, 6, 'Yes', 'No']
pd.Series(data=data)
#출력값
0 30
1 6
2 Yes
3 No
dtype: object
data값은 지정해줬으나 value값은 지정하지않아 자동으로 0,1,2,3,4로 출력된다.
index = ['apples', 'oranges', 'bananas']
data = [10, 6, 3,]
fruits=pd.Series(data=data,index=index)
print(fruits)
#출력값
apples 10
oranges 6
bananas 3
dtype: int64
data값과 index값을 둘 다 지정했을때 정상적으로 출력된다.
pandas에서는 기존에 우리가 알던 인덱스 값은 [1,2,3,4] 가 있으면 index[0] = 1 이지만 pandas 에서는 따로 인덱스 이름을 지정 가능하다.
'Python > Pandas' 카테고리의 다른 글
| [Python]DataFrame 열, 컬럼마다 최댓값(max) 구하기 (0) | 2024.04.11 |
|---|---|
| [Python] Pandas DataFrame 2개 합치기, concat ,merge (0) | 2024.04.08 |
| [Python] Pandas 데이터 억세스 (loc, iloc, NaN, ) (0) | 2024.04.08 |
| [Python] Pandas 데이터 파일 읽어오기, 저장하기 (0) | 2024.04.08 |