[파이썬] 데이터 분석에서 정규 표현식

정규 표현식은 데이터 분석에서 매우 유용한 도구 중 하나입니다. Python의 re 모듈을 사용하여 정규 표현식을 구현하고 다양한 데이터 패턴을 찾을 수 있습니다. 이 글에서는 데이터 분석에서 정규 표현식을 어떻게 활용하는지 살펴보겠습니다.

정규 표현식의 기본 문법

정규 표현식은 문자열의 특정 패턴을 찾는 데 사용됩니다. 패턴은 다양한 문자 및 기호들로 구성될 수 있습니다. 아래는 일반적으로 사용되는 몇 가지 정규 표현식 기호들 입니다.

정규 표현식을 사용한 데이터 분석 예제

이메일 주소 추출

이메일 주소를 추출하는 예제를 살펴보겠습니다. 다음은 주어진 텍스트에서 이메일 주소를 찾는 예제 코드입니다.

import re

text = "Contact us at info@example.com or support@example.com"

pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b'
emails = re.findall(pattern, text)
print(emails)

위 코드를 실행하면 ['info@example.com', 'support@example.com']와 같이 이메일 주소들을 출력합니다.

전화번호 추출

전화번호를 추출하는 예제를 살펴보겠습니다. 다음은 주어진 텍스트에서 전화번호를 찾는 예제 코드입니다.

import re

text = "Contact us at 123-456-7890 or 9876543210"

pattern = r'\b\d{3}-\d{3}-\d{4}\b'
phone_numbers = re.findall(pattern, text)
print(phone_numbers)

위 코드를 실행하면 ['123-456-7890']와 같이 전화번호를 출력합니다.

결론

정규 표현식은 데이터 분석에서 다양한 패턴을 찾는 도구로서 매우 유용합니다. Python의 re 모듈을 사용하여 정규 표현식을 구현하고 텍스트 내에서 이메일 주소, 전화번호 등과 같은 패턴을 추출할 수 있습니다. 이를 통해 데이터 분석 작업을 효과적으로 수행할 수 있습니다.