[파이썬] pandas에서 문자열 함수 (str accessor)

Pandas는 파이썬에서 데이터 분석과 조작을 위한 강력한 라이브러리입니다. 인기 있는 데이터 구조인 DataFrame과 Series를 제공하며, 문자열 데이터를 다룰 때 유용한 문자열 함수를 제공하고 있습니다. 이러한 함수들은 str accessor라고도 불리며, 문자열의 각 원소에 적용될 수 있습니다.

문자열 관련 함수

Pandas의 str accessor를 사용하면 문자열 데이터를 손쉽게 조작하고 분석할 수 있습니다. 다음은 몇 가지 일반적인 문자열 함수의 예시입니다:

lower()

lower() 함수는 문자열을 모두 소문자로 변환합니다.

import pandas as pd

data = pd.Series(['Hello', 'WORLD', 'Python'])

data.str.lower()

결과:

0      hello
1      world
2     python
dtype: object

upper()

upper() 함수는 문자열을 모두 대문자로 변환합니다.

import pandas as pd

data = pd.Series(['Hello', 'WORLD', 'Python'])

data.str.upper()

결과:

0      HELLO
1      WORLD
2     PYTHON
dtype: object

title()

title() 함수는 문자열의 첫 글자를 대문자로 변환합니다.

import pandas as pd

data = pd.Series(['hello world', 'python is awesome', 'data analysis'])

data.str.title()

결과:

0          Hello World
1    Python Is Awesome
2       Data Analysis
dtype: object

len()

len() 함수는 문자열의 길이를 반환합니다.

import pandas as pd

data = pd.Series(['Hello', 'WORLD', 'Python'])

data.str.len()

결과:

0    5
1    5
2    6
dtype: int64

contains()

contains() 함수는 특정 패턴을 가진 문자열을 찾습니다.

import pandas as pd

data = pd.Series(['Hello', 'WORLD', 'Python'])

data.str.contains('o')

결과:

0     True
1    False
2    False
dtype: bool

replace()

replace() 함수는 문자열의 특정 패턴을 다른 값으로 대체합니다.

import pandas as pd

data = pd.Series(['Hello', 'WORLD', 'Python'])

data.str.replace('o', '!')

결과:

0    Hell!
1    W!RLD
2    Pyth!n
dtype: object

결론

Pandas의 str accessor를 사용하면 문자열 데이터를 유연하고 강력하게 조작할 수 있습니다. 이 글에서는 몇 가지 예시 함수를 소개했지만, Pandas는 다양한 문자열 함수를 제공하고 있으므로 관련 문서를 참조하여 더욱 자세히 알아보기를 권장합니다. 문자열 데이터를 다루는 과정에서 유용한 기능들을 활용하여 데이터 분석 및 처리 작업을 원활하게 진행할 수 있습니다.