TIL/파이썬

오늘 공부한거 요약해보기

monawa 2022. 10. 10.
728x90

df.groupby() 와 df.pivot_table()

공통점 groupby로 할수있는건 pivot_table로도 할수있고 그반대도 마찬가지이다

즉 둘가 같은 연산을 수행할수 잇는 기능이다 

차이점 groupby가 연산속도가 더빠르다  pivot_table은 직관적인사용법을 가졌다 

또한 groupby 는 결과물이 series 라면 series 로 반환되고 pivot_table은 항상 데이터프레임으로 반환한다

 

사용법

1. 1개 그룹화

df.groupby('age').mean()

age 컬럼 기준으로  평균

 

2개 그룹화

df.groupby(['age', 'sex']).mean()

age, sex 그준으로 평균

 

그룹에서 특정 컬럼 값만을 뽑아내고 싶을떄

df.groupby(['age', 'sex'])['survived'].mean()

이떄 시리즈로 출력되는데

데이터 프레임으로 출력을 원할시 

# DataFrame으로 출력 -  방법 1 pd.DataFrame()감싸기
pd.DataFrame(df.groupby(['age', 'sex'])['survived'].mean())
# DataFrame으로 출력  - 방법2  []로 한 번 더 감싸기
df.groupby(['age', 'sex'])[['survived']].mean()

 

 


행열 슬라이싱 하기 

df.iloc[행:열] 

ex 12에서 23번까지 

df.iloc[:,12:24]

df .loc ["컬럼,인덱스명] 

 


hist. =  히스토그램


df.sample  - 일부데이터만 샘플데이터로 추출

random_state 를 사용해 샘플링되는 값을 고정할 수 있다

ex df_sample = df.sample(1000, random_state  = 1)

sns.countplot(data=df, x="컬럼명")
countplot은 범주형 데이터의 수를 더한 값을 그래프로 표현한다
value_counts값을 그래프로 만든다고 이해하면된다!
ex cou
 
seaborn 으로 시각화시 hue 를 사용해 다른색상으로 표현가능
ex , hue("컬럼") 
 
 ci =  신뢰구간 이떄 ci=None - 신뢰구간을 구하지않겟다  =  다빠르게 구할수있고
cd= sd는 표준편차를 확인 

 

 corr 상관계수 구하기

 

# .corr()
df_small = df_sample[columns]
df_corr = df_small.corr()

 

728x90

'TIL > 파이썬' 카테고리의 다른 글

22.10.30  (0) 2022.10.30
22.10.12  (0) 2022.10.12
시리즈와 데이터프레임  (0) 2022.10.06
프로그래머스 문제풀기 - 핸드폰 번호 가리기  (0) 2022.10.02
멋쟁이 사자처럼 al스쿨7기 3주차 EDA  (0) 2022.09.27

댓글