TIL/파이썬

시리즈와 데이터프레임

monawa 2022. 10. 6.
728x90

파이썬에는 데이터 분석 모듈인 Pandas가 있다

판다스의 자료구조는 Series(시리즈)와 DataFrame(데이터 프레임)이있다!

그리고 모든 자료구조에는 index를 가지고있다

 

1. Series(시리즈)

시리즈는 1차원 데이터로 리스트와 유사하다 단 리스트와 달리 인덱스를 부여할수있다

그러므로 key값이 index : valie값에 값으로 들어감으로서 

딕셔너리와 구조가 비슷하다 

딕셔너리 , 리스트 , 튜플을 pandas.Series(딕셔너리 , 리스트 , 튜플)로 시리즈로 변활할수있고

리스트와 튜플은 index이름을 지정하거나 지정하지않으면 정수형 위치인덱스가 자동 지정된다

 

원소 선택하기ㄱ. 정수형 [숫자]  / ["인덱스이름"] /  [[여러개선택시, 대괄호도 두개]] / [ : ] 슬라이싱도가능

 

2.DataFrame(데이터 프레임)

데이터 프레임은 2차원 데이터로 

시리즈가 합쳐진것으로 생각하면 된다 가장 큰차이는 행과 열이있다!

 

데이터 프레임의 속성으로는 

  • index : index(행)를 반환 한다.
  • columns : 데이터 프레임의 (열)을 반환 한다.
  • dtypes :  데이터 타입을 반환 한다.
  • values : 각 값들을 반환 한다.

행렬 이름 바꾸기

ㄱ. 새로운 배열 할당 

행 인덱스 변경 : DataFrame 객체.index = [새로운 행 인덱스 배열]
열 이름 변경 : DataFrame 객체.columns = [새로운 열 이름 배열]

ㄴ.rename

행 인덱스 변경 : DataFrame 객체.rename(index={기존 인덱스:새 인덱스,---})
열 이름 변경 : DataFrame 객체.rename(columns={기존 이름:새 이름, ---})

 

행열 삭제하기

.drop()

 

정렬방법

 

sort를 쓰며 sort_index()으로 index이름이나 cloumn이름으로 정렬

이떄 sort_index(axis=0)시에는 index(행) 이름 기준으로sort_index(axis=1)cloumn(열)이름으로 정렬

sort_values()데이터 값을 기준으로 정렬한다

 

데이터 프레임 인덱싱하기 

특정 행 선택하기
.loc[' '] / .iloc[ ]
.loc : 인덱스 이름을 기준으로 행을 선택할 때 (index label) ,범위지정 ['a' : 'b']
.iloc : 정수형 위치 인덱스를 사용할 때 (integer position) ,범위지정 [1:2]

 

특정 열 선택하기
df[ '000' ] / df. 000 / df[[ '000' ]]
Series 객체로 반환될 경우 df['열이름'] /df.열이름 (한개 열 이름)
DataFrame 을 반환할 경우 이중대괄호 [[' ']] (한개 또는 여러개 열 이름)

 

------

추후 추가하기!

728x90

댓글