파이썬에는 데이터 분석 모듈인 Pandas가 있다
판다스의 자료구조는 Series(시리즈)와 DataFrame(데이터 프레임)이있다!
그리고 모든 자료구조에는 index를 가지고있다
1. Series(시리즈)
시리즈는 1차원 데이터로 리스트와 유사하다 단 리스트와 달리 인덱스를 부여할수있다
그러므로 key값이 index : valie값에 값으로 들어감으로서
딕셔너리와 구조가 비슷하다
딕셔너리 , 리스트 , 튜플을 pandas.Series(딕셔너리 , 리스트 , 튜플)로 시리즈로 변활할수있고
리스트와 튜플은 index이름을 지정하거나 지정하지않으면 정수형 위치인덱스가 자동 지정된다
원소 선택하기ㄱ. 정수형 [숫자] / ["인덱스이름"] / [[여러개선택시, 대괄호도 두개]] / [ : ] 슬라이싱도가능
2.DataFrame(데이터 프레임)
데이터 프레임은 2차원 데이터로
시리즈가 합쳐진것으로 생각하면 된다 가장 큰차이는 행과 열이있다!
데이터 프레임의 속성으로는
- index : index(행)를 반환 한다.
- columns : 데이터 프레임의 (열)을 반환 한다.
- dtypes : 데이터 타입을 반환 한다.
- values : 각 값들을 반환 한다.
행렬 이름 바꾸기
ㄱ. 새로운 배열 할당
행 인덱스 변경 : DataFrame 객체.index = [새로운 행 인덱스 배열]
열 이름 변경 : DataFrame 객체.columns = [새로운 열 이름 배열]
ㄴ.rename
행 인덱스 변경 : DataFrame 객체.rename(index={기존 인덱스:새 인덱스,---})
열 이름 변경 : DataFrame 객체.rename(columns={기존 이름:새 이름, ---})
행열 삭제하기
.drop()
정렬방법
sort를 쓰며 sort_index()으로 index이름이나 cloumn이름으로 정렬
이떄 sort_index(axis=0)시에는 index(행) 이름 기준으로sort_index(axis=1)cloumn(열)이름으로 정렬
sort_values()데이터 값을 기준으로 정렬한다
데이터 프레임 인덱싱하기
특정 행 선택하기
.loc[' '] / .iloc[ ]
.loc : 인덱스 이름을 기준으로 행을 선택할 때 (index label) ,범위지정 ['a' : 'b']
.iloc : 정수형 위치 인덱스를 사용할 때 (integer position) ,범위지정 [1:2]
특정 열 선택하기
df[ '000' ] / df. 000 / df[[ '000' ]]
Series 객체로 반환될 경우 df['열이름'] /df.열이름 (한개 열 이름)
DataFrame 을 반환할 경우 이중대괄호 [[' ']] (한개 또는 여러개 열 이름)
------
추후 추가하기!
'TIL > 파이썬' 카테고리의 다른 글
22.10.12 (0) | 2022.10.12 |
---|---|
오늘 공부한거 요약해보기 (0) | 2022.10.10 |
프로그래머스 문제풀기 - 핸드폰 번호 가리기 (0) | 2022.10.02 |
멋쟁이 사자처럼 al스쿨7기 3주차 EDA (0) | 2022.09.27 |
멋쟁이 사자처럼 al스쿨7기 2주차 판다스 (1) | 2022.09.25 |
댓글