[python] Pandas의 문자열 데이터 처리 기능

Pandas는 데이터 분석 및 조작을 위한 파이썬 라이브러리로, 데이터프레임과 시리즈 형태의 자료구조를 제공합니다. 이를 통해 효율적인 데이터 처리 및 분석이 가능합니다. 이번 글에서는 Pandas가 제공하는 문자열 데이터 처리 기능에 대해 알아보겠습니다.

문자열 메서드 활용

Pandas에서는 시리즈 객체의 str 속성을 통해 문자열 데이터에 대한 다양한 메서드를 제공합니다. 예를 들어, 문자열을 소문자로 변경하고 싶을 때는 str.lower() 메서드를 활용할 수 있습니다.

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'],
        'age': [25, 30, 35]}
df = pd.DataFrame(data)

df['name_lower'] = df['name'].str.lower()
print(df)

위 코드를 실행하면 이름을 소문자로 변환한 새로운 열이 추가된 데이터프레임을 얻을 수 있습니다.

문자열 분할 및 결합

문자열 데이터를 분할하거나 결합해야 하는 경우가 많이 있습니다. Pandas에서는 str.split() 메서드를 사용하여 문자열을 특정 구분자를 기준으로 분할할 수 있습니다.

df['name_split'] = df['name'].str.split('i')
print(df)

또한, str.cat() 메서드를 사용하여 문자열을 연결할 수 있습니다.

df['name_concat'] = df['name'].str.cat(df['name'], sep='_')
print(df)

문자열 포함 여부 확인

특정 문자열이 포함되어 있는지 확인해야 하는 경우, str.contains() 메서드를 활용할 수 있습니다.

contains_b = df['name'].str.contains('b')
print(contains_b)

위 코드는 이름에 ‘b’가 포함되어 있는지를 나타내는 시리즈를 반환합니다.

결론

Pandas는 문자열 데이터를 다루는 다양한 기능을 제공하여 데이터 전처리 및 분석 작업을 보다 편리하고 효율적으로 수행할 수 있습니다. 이를 통해 데이터 과학 및 머신러닝 프로젝트에서 문자열 데이터를 다루는데 있어 유용한 도구로 활용될 수 있습니다.

참고 자료

이상으로 Pandas의 문자열 데이터 처리 기능에 대해 알아보았습니다. 감사합니다.