Pandas는 데이터 조작 및 분석에 널리 사용되는 파이썬 라이브러리입니다. 이 블로그 포스트에서는 pandas에서 유용한 세 가지 메서드(unique, nunique, value_counts)에 대해 알아보겠습니다.
unique
unique
메서드는 Series 또는 DataFrame의 고유한 값을 반환합니다. 즉, 중복된 값은 제외하고 유니크한 값들만 가져옵니다. 이 메서드는 데이터의 유일성 여부를 확인하고 고유한 값들을 분석할 때 유용합니다.
import pandas as pd
# Series에서 unique 값 가져오기
s = pd.Series([1, 2, 3, 4, 1, 2, 3, 4])
unique_values = s.unique()
print(unique_values)
위의 예제에서는 [1, 2, 3, 4]
라는 유니크한 값들을 출력합니다.
nunique
nunique
메서드는 Series 또는 DataFrame에서 고유한 값의 개수를 반환합니다. 즉, 중복되지 않은 값들의 개수를 계산합니다. 이 메서드는 데이터의 다양성을 판단하고 유니크한 값의 수를 알고 싶을 때 유용합니다.
import pandas as pd
# Series에서 고유한 값 개수 세기
s = pd.Series([1, 2, 3, 4, 1, 2, 3, 4])
unique_count = s.nunique()
print(unique_count)
위의 예제에서는 4
라는 고유한 값의 개수를 출력합니다.
value_counts
value_counts
메서드는 Series 또는 DataFrame에서 고유한 값들의 개수를 계산하여 반환합니다. 이 메서드는 각 값의 빈도수를 알고 싶을 때 유용합니다.
import pandas as pd
# Series에서 값의 빈도수 계산
s = pd.Series([1, 2, 3, 4, 1, 2, 3, 4])
value_counts = s.value_counts()
print(value_counts)
위의 예제에서는 각 값의 빈도수를 내림차순으로 출력합니다.
결론
Pandas의 unique
, nunique
, value_counts
메서드는 데이터의 유일성, 다양성 및 값의 빈도수를 손쉽게 계산할 수 있도록 해줍니다. 이 메서드들은 데이터 분석 및 탐색 과정에서 유용하게 활용될 수 있습니다.
Pandas의 다양한 메서드를 익히고 활용함으로써 데이터 조작 및 분석 작업을 효율적으로 수행할 수 있습니다.