728x90
df.groupby() 와 df.pivot_table()
공통점 groupby로 할수있는건 pivot_table로도 할수있고 그반대도 마찬가지이다
즉 둘가 같은 연산을 수행할수 잇는 기능이다
차이점 groupby가 연산속도가 더빠르다 pivot_table은 직관적인사용법을 가졌다
또한 groupby 는 결과물이 series 라면 series 로 반환되고 pivot_table은 항상 데이터프레임으로 반환한다
사용법
1. 1개 그룹화
df.groupby('age').mean()
age 컬럼 기준으로 평균
2개 그룹화
df.groupby(['age', 'sex']).mean()
age, sex 그준으로 평균
그룹에서 특정 컬럼 값만을 뽑아내고 싶을떄
df.groupby(['age', 'sex'])['survived'].mean()
이떄 시리즈로 출력되는데
데이터 프레임으로 출력을 원할시
# DataFrame으로 출력 - 방법 1 pd.DataFrame()감싸기
pd.DataFrame(df.groupby(['age', 'sex'])['survived'].mean())
# DataFrame으로 출력 - 방법2 []로 한 번 더 감싸기
df.groupby(['age', 'sex'])[['survived']].mean()
행열 슬라이싱 하기
df.iloc[행:열]
ex 12에서 23번까지
df.iloc[:,12:24]
df .loc ["컬럼,인덱스명]
hist. = 히스토그램
df.sample - 일부데이터만 샘플데이터로 추출
random_state 를 사용해 샘플링되는 값을 고정할 수 있다
ex df_sample = df.sample(1000, random_state = 1)
sns.countplot(data=df, x="컬럼명")
countplot은 범주형 데이터의 수를 더한 값을 그래프로 표현한다
즉 value_counts값을 그래프로 만든다고 이해하면된다!
ex cou
seaborn 으로 시각화시 hue 를 사용해 다른색상으로 표현가능
ex , hue("컬럼")
ci = 신뢰구간 이떄 ci=None - 신뢰구간을 구하지않겟다 = 다빠르게 구할수있고
cd= sd는 표준편차를 확인
corr 상관계수 구하기
# .corr()
df_small = df_sample[columns]
df_corr = df_small.corr()
728x90
'TIL > 파이썬' 카테고리의 다른 글
22.10.30 (0) | 2022.10.30 |
---|---|
22.10.12 (0) | 2022.10.12 |
시리즈와 데이터프레임 (0) | 2022.10.06 |
프로그래머스 문제풀기 - 핸드폰 번호 가리기 (0) | 2022.10.02 |
멋쟁이 사자처럼 al스쿨7기 3주차 EDA (0) | 2022.09.27 |
댓글