[파이썬] pandas에서 유용한 메서드들 (unique, nunique, value_counts)

Pandas는 데이터 조작 및 분석에 널리 사용되는 파이썬 라이브러리입니다. 이 블로그 포스트에서는 pandas에서 유용한 세 가지 메서드(unique, nunique, value_counts)에 대해 알아보겠습니다.

unique

unique 메서드는 Series 또는 DataFrame의 고유한 값을 반환합니다. 즉, 중복된 값은 제외하고 유니크한 값들만 가져옵니다. 이 메서드는 데이터의 유일성 여부를 확인하고 고유한 값들을 분석할 때 유용합니다.

import pandas as pd

# Series에서 unique 값 가져오기
s = pd.Series([1, 2, 3, 4, 1, 2, 3, 4])
unique_values = s.unique()
print(unique_values)

위의 예제에서는 [1, 2, 3, 4]라는 유니크한 값들을 출력합니다.

nunique

nunique 메서드는 Series 또는 DataFrame에서 고유한 값의 개수를 반환합니다. 즉, 중복되지 않은 값들의 개수를 계산합니다. 이 메서드는 데이터의 다양성을 판단하고 유니크한 값의 수를 알고 싶을 때 유용합니다.

import pandas as pd

# Series에서 고유한 값 개수 세기
s = pd.Series([1, 2, 3, 4, 1, 2, 3, 4])
unique_count = s.nunique()
print(unique_count)

위의 예제에서는 4라는 고유한 값의 개수를 출력합니다.

value_counts

value_counts 메서드는 Series 또는 DataFrame에서 고유한 값들의 개수를 계산하여 반환합니다. 이 메서드는 각 값의 빈도수를 알고 싶을 때 유용합니다.

import pandas as pd

# Series에서 값의 빈도수 계산
s = pd.Series([1, 2, 3, 4, 1, 2, 3, 4])
value_counts = s.value_counts()
print(value_counts)

위의 예제에서는 각 값의 빈도수를 내림차순으로 출력합니다.

결론

Pandas의 unique, nunique, value_counts 메서드는 데이터의 유일성, 다양성 및 값의 빈도수를 손쉽게 계산할 수 있도록 해줍니다. 이 메서드들은 데이터 분석 및 탐색 과정에서 유용하게 활용될 수 있습니다.

Pandas의 다양한 메서드를 익히고 활용함으로써 데이터 조작 및 분석 작업을 효율적으로 수행할 수 있습니다.