[python] 파이썬 pandas에서 데이터를 원-핫 인코딩하는 방법은 무엇인가요?

1. pd.get_dummies() 함수 활용

pd.get_dummies() 함수는 카테고리형 데이터를 원-핫 인코딩할 수 있는 매우 간단하고 효과적인 방법입니다.

예를 들어, 다음과 같이 사용할 수 있습니다:

import pandas as pd

# 원본 데이터프레임
data = pd.DataFrame({'fruit': ['apple', 'banana', 'cherry', 'apple']})

# 원-핫 인코딩
encoded_data = pd.get_dummies(data)
print(encoded_data)

이렇게 하면 ‘fruit’ 열의 카테고리에 따라 원-핫 인코딩된 새로운 열들이 생성됩니다.

2. OneHotEncoder 클래스 사용

또 다른 방법으로는 사이킷런(Scikit-learn)의 OneHotEncoder 클래스를 사용하는 것입니다. 하지만 여기서는 판다스의 pd.get_dummies() 함수로 충분히 원-핫 인코딩을 할 수 있습니다.

판다스를 사용하여 데이터를 간단하게 원-핫 인코딩할 수 있습니다. 이를 통해 머신러닝 모델에 적절한 형식으로 데이터를 전처리할 수 있습니다.

참고문헌: