[파이썬] TensorFlow에서 특성 엔지니어링

06 Sep 2023

statsmodels

TensorFlow는 기계 학습과 딥 러닝을 위한 강력한 프레임워크입니다. 특성 엔지니어링은 TensorFlow를 사용하여 데이터를 준비하고 모델링하기 전에 데이터를 변환하고 수정하는 과정입니다. 이는 모델의 성능을 향상시키기 위해 중요한 단계입니다.

특성 엔지니어링에는 다양한 기술과 방법이 있습니다. 이 글에서는 몇 가지 일반적인 특성 엔지니어링 기법을 소개하고 TensorFlow에서 이를 구현하는 방법을 알아보겠습니다.

1. 원-핫 인코딩

원-핫 인코딩은 범주형 데이터를 다룰 때 사용되는 일반적인 특성 엔지니어링 기법입니다. TensorFlow에서는 tf.one_hot() 함수를 사용하여 간단하게 구현할 수 있습니다. 예를 들어, ‘색상’이라는 범주형 특성의 경우 다음과 같이 원-핫 인코딩을 할 수 있습니다.

import tensorflow as tf

color = tf.constant(['red', 'blue', 'green'])
encoded_color = tf.one_hot(color, depth=3)
print(encoded_color)

결과는 다음과 같습니다.

[[1. 0. 0.]
 [0. 0. 1.]
 [0. 1. 0.]]

2. 특성 스케일링

데이터의 스케일이 크게 다르면 모델의 성능에 영향을 줄 수 있습니다. 따라서 특성 스케일링은 데이터의 범위를 조정하여 모델을 학습하기 좋은 형태로 만드는 중요한 단계입니다. TensorFlow에서는 tf.feature_column.numeric_column()을 사용하여 숫자형 특성을 스케일링할 수 있습니다.

import tensorflow as tf

age = tf.feature_column.numeric_column('age')
scaled_age = tf.feature_column.numeric_column('scaled_age', normalizer_fn=lambda x: (x - tf.reduce_mean(x))/tf.math.reduce_std(x))
print(scaled_age)

3. 텍스트 특성 처리

텍스트 데이터는 자연어 처리 작업에서 많이 사용되는 특성입니다. TensorFlow에서는 tf.feature_column.embedding_column()을 사용하여 텍스트 데이터를 임베딩할 수 있습니다. 예를 들어, 텍스트로 된 사용자 리뷰 데이터를 다룰 때 다음과 같이 사용할 수 있습니다.

import tensorflow as tf

review = tf.feature_column.categorical_column_with_vocabulary_file('review', 'vocab.txt')
embedded_review = tf.feature_column.embedding_column(review, dimension=20)
print(embedded_review)

결론

이 글에서는 TensorFlow에서 특성 엔지니어링을 수행하는 몇 가지 기법을 알아보았습니다. 특성 엔지니어링은 모델의 성능을 향상시키기 위해 데이터를 준비하고 변환하는 중요한 단계입니다. TensorFlow는 다양한 기능과 함수를 제공하여 유연한 특성 엔지니어링을 가능하게 해줍니다.