[파이썬] 데이터 분석에서 정규 표현식
정규 표현식은 데이터 분석에서 매우 유용한 도구 중 하나입니다. Python의 re
모듈을 사용하여 정규 표현식을 구현하고 다양한 데이터 패턴을 찾을 수 있습니다. 이 글에서는 데이터 분석에서 정규 표현식을 어떻게 활용하는지 살펴보겠습니다.
정규 표현식의 기본 문법
정규 표현식은 문자열의 특정 패턴을 찾는 데 사용됩니다. 패턴은 다양한 문자 및 기호들로 구성될 수 있습니다. 아래는 일반적으로 사용되는 몇 가지 정규 표현식 기호들 입니다.
.
: 어떤 한 개의 문자와 매치됨을 의미합니다.*
: 앞선 문자가 0번 이상 반복됨을 의미합니다.+
: 앞선 문자가 1번 이상 반복됨을 의미합니다.?
: 앞선 문자가 0번 또는 1번 나타남을 의미합니다.[]
: 문자의 집합 중 한 문자와 매치됨을 의미합니다.()
: 그룹을 나타내고, 그룹된 문자열에 대해 추출을 수행할 수 있습니다.
정규 표현식을 사용한 데이터 분석 예제
이메일 주소 추출
이메일 주소를 추출하는 예제를 살펴보겠습니다. 다음은 주어진 텍스트에서 이메일 주소를 찾는 예제 코드입니다.
import re
text = "Contact us at info@example.com or support@example.com"
pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b'
emails = re.findall(pattern, text)
print(emails)
위 코드를 실행하면 ['info@example.com', 'support@example.com']
와 같이 이메일 주소들을 출력합니다.
전화번호 추출
전화번호를 추출하는 예제를 살펴보겠습니다. 다음은 주어진 텍스트에서 전화번호를 찾는 예제 코드입니다.
import re
text = "Contact us at 123-456-7890 or 9876543210"
pattern = r'\b\d{3}-\d{3}-\d{4}\b'
phone_numbers = re.findall(pattern, text)
print(phone_numbers)
위 코드를 실행하면 ['123-456-7890']
와 같이 전화번호를 출력합니다.
결론
정규 표현식은 데이터 분석에서 다양한 패턴을 찾는 도구로서 매우 유용합니다. Python의 re
모듈을 사용하여 정규 표현식을 구현하고 텍스트 내에서 이메일 주소, 전화번호 등과 같은 패턴을 추출할 수 있습니다. 이를 통해 데이터 분석 작업을 효과적으로 수행할 수 있습니다.