멋쟁이 사자처럼 al스쿨7기 2주차 판다스
- 멋쟁이 사자처럼 al스쿨7기
- 판다스 - 파이썬의 대표적인 데이터분석도구
다차원 구조의 데이터를 다룰수 있기떄문에 Panel Data System 을 의미하는 이름으로 지어졌습니다.
- 쓰는이유
- 간편하다 (코드한줄로 간단히 데이터를 데이터 프레임이란 데이터타입으로 불러와 작업
- 빠르다 (메모리위에서만 데이터가 올라가서 빠르게 이루어짐)
Pandas는 쉽게 엑셀과 같은 행과 열로 된 구조를 다루는 데이터 분석 도구입니다.
- 판다스 기본 데이터 구조
데이터프레임, 시리즈
데이터프레임 | 시리즈 | |
수학적표현 | 행렬 | 벡터 |
리스트 | 2차원 | 1차원 |
예시 | [[1.2.3.],[4,5,6]] | [1,2,3] |
시리즈가 리스트와 다른점 인덱스의 이름부여가능
- 판다스 사용법
import pandas as pd (as는 약칭으로 축약호칭)
- 데이터베이스
- df = pd.DataFrame()
-
df["칼럼"] = ["리스트1","리스트2","리스트3","리스트4"]
- df
-
칼럼 | |
0 | 리스트1 |
1 | 리스트2 |
2 | 리스트3 |
3 | 리스트4 |
- 칼럼 추가방법
-
df ["칼럼2"] = "추가리스트
-
칼럼 | 칼럼2 | |
0 | 리스트1 | 추가리스트 |
1 | 리스트2 | 추가리스트 |
2 | 리스트3 | 추가리스트 |
3 | 리스트4 | 추가리스트 |
- 타입확인법
- type(df)
- 칼럼을 리스트형태로 변경하는법
- df["칼럼 "].tolist()
- list(df["칼럼"])
['리스트1', '리스트2', '리스트3', '리스트4']
- 칼럼값 변경하기
칼럼 | 칼럼2 | |
0 | 리스트1 | 리스트5 |
1 | 리스트2 | 리스트6 |
2 | 리스트3 | 리스트7 |
3 | 리스트4 | 리스트8 |
데이터 요약하기
- 데이터 프레임 정보 보기
df.info()
- 데이터 프레임 크기 확인
df.shape #(.행,렬)출력
- 데이터 타입확인
df.dtypes
- 데이터타입 요약정보보기
- (수치형 데이터의 기술통계값)
count | =개수 |
mean | =평균 |
std | =표준편차 |
min | 최소값 |
25% | 사분위값 |
50% | 사분위값 |
75% | 사분위값 |
max | 최대값 |
- (범주형 데이터의 기술통계 값)
count | 개수 |
unique | 고유값(유일값) |
top | 최반값 |
freq | 빈도수 |
칼럼명으로 데이터 가져오기
df["칼럼"]
2개이상의 칼럼명 가져오기
(2개이상의 데이터는 보통 리스트 자료형 - 리스트는 대괄호로 묶여있는 데이터)
df[["칼럼","칼럼2"]]
행을 기준으로 데이터 가져오기
(인덱스 번호로 첫번쨰 데이터 가져오기)
df.loc[0]
(위에서 3개의 행 데이터 가져오기)
df.loc[[0,1,2]] #칼럼으로 가져오기랑 방식같음
행과 열을 함께 가져오기
(1개)
df.loc[행,열]
(여러개)
df.loc[[행1,행2,행3],열1.열2]]
특정 값만 가져오기
#파이썬에서 |는 or &는 and의 의미
#여러검색어를 검색한다하면 |로 검색어를 넣어준다
(str.contains)
df[df["칼럼"].str.contains("리스트1")]
대소문자로 만들기
df["칼럼"].str.lower() - 소문자로
df["칼럼"].str.upper() - 대문자로
특정 조건에 해당하는 데이터프레임 가져오기
#특정가격이상만 가져오기
(2000원이상)
df[df["가격"]>2000]
(2000원이하)
정렬하기
#sort_values를 통해 정렬!
저장된 파일 불러오기
#read_csv 를통해 불러오기