멋쟁이 사자처럼 al스쿨7기 2주차 판다스

TIL/파이썬

멋쟁이 사자처럼 al스쿨7기 2주차 판다스

monawa 2022. 9. 25. 21:11

728x90

멋쟁이 사자처럼 al스쿨7기

판다스 - 파이썬의 대표적인 데이터분석도구

다차원 구조의 데이터를 다룰수 있기떄문에 Panel Data System 을 의미하는 이름으로 지어졌습니다.

쓰는이유
- 간편하다 (코드한줄로 간단히 데이터를 데이터 프레임이란 데이터타입으로 불러와 작업
- 빠르다 (메모리위에서만 데이터가 올라가서 빠르게 이루어짐)

Pandas는 쉽게 엑셀과 같은 행과 열로 된 구조를 다루는 데이터 분석 도구입니다.

판다스 기본 데이터 구조

데이터프레임, 시리즈

	데이터프레임	시리즈
수학적표현	행렬	벡터
리스트	2차원	1차원
예시	[[1.2.3.],[4,5,6]]	[1,2,3]

시리즈가 리스트와 다른점 인덱스의 이름부여가능

판다스 사용법

import pandas as pd (as는 약칭으로 축약호칭)

데이터베이스

df = pd.DataFrame()
- df["칼럼"] = ["리스트1","리스트2","리스트3","리스트4"]
- df

	칼럼
0	리스트1
1	리스트2
2	리스트3
3	리스트4

칼럼 추가방법
- df ["칼럼2"] = "추가리스트

	칼럼	칼럼2
0	리스트1	추가리스트
1	리스트2	추가리스트
2	리스트3	추가리스트
3	리스트4	추가리스트

타입확인법
- type(df)
칼럼을 리스트형태로 변경하는법
- df["칼럼 "].tolist()
- list(df["칼럼"])

['리스트1', '리스트2', '리스트3', '리스트4']

칼럼값 변경하기

df["칼럼2"] = ["리스트5","리스트6","리스트7","리스트8"]

	칼럼	칼럼2
0	리스트1	리스트5
1	리스트2	리스트6
2	리스트3	리스트7
3	리스트4	리스트8

데이터 요약하기

데이터 프레임 정보 보기

df.info()

데이터 프레임 크기 확인

df.shape #(.행,렬)출력

데이터 타입확인

df.dtypes

데이터타입 요약정보보기

(수치형 데이터의 기술통계값)

df.describe()

count	=개수
mean	=평균
std	=표준편차
min	최소값
25%	사분위값
50%	사분위값
75%	사분위값
max	최대값

(범주형 데이터의 기술통계 값)

df.describe(include="object")

count	개수
unique	고유값(유일값)
top	최반값
freq	빈도수

칼럼명으로 데이터 가져오기

df["칼럼"]

2개이상의 칼럼명 가져오기

(2개이상의 데이터는 보통 리스트 자료형 - 리스트는 대괄호로 묶여있는 데이터)

df[["칼럼","칼럼2"]]

행을 기준으로 데이터 가져오기

(인덱스 번호로 첫번쨰 데이터 가져오기)

df.loc[0]

(위에서 3개의 행 데이터 가져오기)

df.loc[[0,1,2]] #칼럼으로 가져오기랑 방식같음

행과 열을 함께 가져오기

(1개)

df.loc[행,열]

(여러개)

df.loc[[행1,행2,행3],열1.열2]]

특정 값만 가져오기

#파이썬에서 |는 or &는 and의 의미

#여러검색어를 검색한다하면 |로 검색어를 넣어준다

(str.contains)

df[df["칼럼"].str.contains("리스트1")]

대소문자로 만들기

df["칼럼"].str.lower() - 소문자로

df["칼럼"].str.upper() - 대문자로

특정 조건에 해당하는 데이터프레임 가져오기

#특정가격이상만 가져오기

(2000원이상)

df[df["가격"]>2000]

(2000원이하)

df[df["가격"]<2000]

정렬하기

#sort_values를 통해 정렬!

df.sort_values(by=["컬럼","컬럼2"],ascending = [False,True])

파일로 저장하기

#to_csv를 통해 csv파일로 저장

df.to_csv("drug.csv")

저장된 파일 불러오기

#read_csv 를통해 불러오기

pd.read_csv("drug.csv")

728x90