1. 컬럼을 추가하는법
df ["추가하고 싶은 컬럼명"] = df. 추가할 내용~~
2. 특정 조건인 데이터 찾기
ex df. 조건
df["child"] = df.age <=15
df.child
child 라를 컬럼을 만들고 그 값은 age컬럼값이 15 이하일떄로
그러면 실행결과로 False or Ture로 나온다
2-1
이떄 이런불리언 타입이 아니라 그 조건에 해당하는 값을 보려면?
페어 컬럽에서 값이 500이상
vf = df.fare >= 500
vf
0 False
1 False
2 False
3 False
4 False
...
886 False
887 False
888 False
889 False
890 False
Name: fare, Length: 891, dtype: bool
이렇게 한번만 하면 불리언 타입으로 나오지만
sf = df.fare[df.fare >= 500 ]
258 512.3292
679 512.3292
737 512.3292
Name: fare, dtype: float64
이렇게 해당 조건시을 건 문장에 한번서 df. []를 해주면 해당 값만을 보여준다
2-2
다중 조건 데이터 색인하기
조건을 다중으로 걸떄 맨마지막 줄만 실행된다 고로 한줄로 써야 원하는 다중실행이 되는 데 그방법은
df [ (df["컬럼"] == "원하는 조건" & (df ["컬럼"] == "원하는 조건")]
식으로 원하는 컬럼에 원하는 조건(== 같다 라던지 >, < , !=등등)을 쓰며 이를 ()로 감싸준다
또한 조건이 or 일떈 |(엔터위에 잇는거) /
and 일떄&를 쓰면 된다
3. 개수 세기
개수를 세는 방법은 3가지가있다
ㄱ. count( ) - 데이터 프레임이나 시리즈형태에서도 사용가능하며
df[child].count() 식으로 .count()로 사용한다
이떄 count는 nan값을 제외한 나머지 데이터의 개수를 세준다
ㄴ. size
count와 다른점은 nan값을 포함하여 모든데이터의 객수를 세어주고
뒤에 ()를 붙이지 않는다
ㄷ.value_counts( )
value_counts( )는 시리즈의 값이 정수 문자열 카테고리인경우 각각 값이 나온 횟수를 셀수있다
count는 특정 기준으로하는 크기를 알 수 있고 value_counts는 개별적인 값의 빈도를 알수있다
이와 비슷한 경우로 nunique()가 있는데 이는 고유값의 갯수가 몇개인지를 확인하는 것이다
댓글