[python] 파이썬 pandas에서 데이터를 원-핫 인코딩하는 방법은 무엇인가요?
1. pd.get_dummies() 함수 활용
pd.get_dummies() 함수는 카테고리형 데이터를 원-핫 인코딩할 수 있는 매우 간단하고 효과적인 방법입니다.
예를 들어, 다음과 같이 사용할 수 있습니다:
import pandas as pd
# 원본 데이터프레임
data = pd.DataFrame({'fruit': ['apple', 'banana', 'cherry', 'apple']})
# 원-핫 인코딩
encoded_data = pd.get_dummies(data)
print(encoded_data)
이렇게 하면 ‘fruit’ 열의 카테고리에 따라 원-핫 인코딩된 새로운 열들이 생성됩니다.
2. OneHotEncoder 클래스 사용
또 다른 방법으로는 사이킷런(Scikit-learn)의 OneHotEncoder 클래스를 사용하는 것입니다. 하지만 여기서는 판다스의 pd.get_dummies() 함수로 충분히 원-핫 인코딩을 할 수 있습니다.
판다스를 사용하여 데이터를 간단하게 원-핫 인코딩할 수 있습니다. 이를 통해 머신러닝 모델에 적절한 형식으로 데이터를 전처리할 수 있습니다.
참고문헌:
- 판다스 공식 문서: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html