TIL/파이썬

멋쟁이 사자처럼 al스쿨7기 2주차 판다스

monawa 2022. 9. 25.
728x90
  • 멋쟁이 사자처럼 al스쿨7기

 

 

  • 판다스 - 파이썬의 대표적인 데이터분석도구

다차원 구조의 데이터를 다룰수 있기떄문에 Panel Data System 을 의미하는 이름으로 지어졌습니다.

 

  • 쓰는이유
    • 간편하다  (코드한줄로 간단히 데이터를 데이터 프레임이란 데이터타입으로 불러와 작업
    •  빠르다 (메모리위에서만 데이터가 올라가서 빠르게 이루어짐)

Pandas는 쉽게 엑셀과 같은 로 된 구조를 다루는 데이터 분석 도구입니다.

 

  • 판다스 기본 데이터 구조 

 데이터프레임, 시리즈 

 

  데이터프레임 시리즈
수학적표현 행렬 벡터
리스트 2차원 1차원
예시 [[1.2.3.],[4,5,6]] [1,2,3]

시리즈가 리스트와 다른점 인덱스의 이름부여가능

 

  • 판다스 사용법

import pandas as pd (as는 약칭으로 축약호칭)

 


  • 데이터베이스 
  • df = pd.DataFrame()
    • df["칼럼"] = ["리스트1","리스트2","리스트3","리스트4"]
    • df 
  칼럼
0 리스트1
1 리스트2
2 리스트3
3 리스트4
  • 칼럼 추가방법
    • df ["칼럼2"] = "추가리스트
  칼럼 칼럼2
0 리스트1 추가리스트
1 리스트2 추가리스트
2 리스트3 추가리스트
3 리스트4 추가리스트

 

  • 타입확인법
    • type(df)
  • 칼럼을 리스트형태로 변경하는법
    • df["칼럼 "].tolist()
    • list(df["칼럼"])

['리스트1', '리스트2', '리스트3', '리스트4']

 
  • 칼럼값 변경하기
df["칼럼2"] = ["리스트5","리스트6","리스트7","리스트8"]
df
  칼럼 칼럼2
0 리스트1 리스트5
1 리스트2 리스트6
2 리스트3 리스트7
3 리스트4 리스트8

데이터 요약하기

 

  • 데이터 프레임 정보 보기 

df.info()

 

  • 데이터 프레임 크기 확인

df.shape #(.행,렬)출력

 

  • 데이터 타입확인

df.dtypes

 

  • 데이터타입 요약정보보기
  • (수치형 데이터의 기술통계값)
df.describe()
count =개수
mean =평균
std =표준편차
min 최소값
25% 사분위값
50% 사분위값
75% 사분위값
max 최대값
  • (범주형 데이터의 기술통계 값)
df.describe(include="object")

 

count 개수
unique 고유값(유일값)
top 최반값
freq 빈도수

 


 

칼럼명으로 데이터 가져오기

 

df["칼럼"]

 

2개이상의 칼럼명 가져오기 

(2개이상의 데이터는 보통 리스트 자료형 - 리스트는 대괄호로 묶여있는 데이터)

df[["칼럼","칼럼2"]]

 

행을 기준으로 데이터 가져오기

(인덱스 번호로 첫번쨰 데이터 가져오기)

df.loc[0]

 

(위에서 3개의 행 데이터 가져오기)

df.loc[[0,1,2]]   #칼럼으로 가져오기랑 방식같음

 

 

행과 열을 함께 가져오기

(1개)

df.loc[행,열]

 

(여러개)

df.loc[[행1,행2,행3],열1.열2]]

 

특정 값만 가져오기

#파이썬에서 |는 or &는 and의 의미

#여러검색어를 검색한다하면 |로 검색어를 넣어준다

(str.contains)

 

df[df["칼럼"].str.contains("리스트1")]

 

대소문자로 만들기

df["칼럼"].str.lower() - 소문자로 

df["칼럼"].str.upper() - 대문자로

 

특정 조건에 해당하는 데이터프레임 가져오기

#특정가격이상만 가져오기

(2000원이상)

df[df["가격"]>2000]

(2000원이하)

df[df["가격"]<2000]

정렬하기

#sort_values를 통해 정렬!

df.sort_values(by=["컬럼","컬럼2"],ascending = [False,True])
 
 
파일로 저장하기
#to_csv를 통해 csv파일로 저장
df.to_csv("drug.csv")

저장된 파일 불러오기 

#read_csv 를통해 불러오기

pd.read_csv("drug.csv")

 

728x90

댓글