[python] 정규표현식을 이용한 한글 추출

정규표현식을 사용하면 특정한 문자열 패턴을 찾아내는 작업을 쉽게 할 수 있습니다. 이번에는 한글을 추출하는 정규표현식에 대해 알아보겠습니다.

정규표현식 패턴

한글을 추출하기 위해서는 한글 유니코드 범위를 이용하여 정규표현식 패턴을 작성해야 합니다. 한글 유니코드 범위는 부터 까지이므로 이를 이용하여 정규표현식 패턴을 구성할 수 있습니다.

정규표현식 패턴: [가-힣]+

위 패턴은 한글로 이루어진 문자열을 추출하기 위한 패턴으로서, []는 문자 집합을 나타내고, -는 범위를 나타냅니다. +는 해당 문자 집합이 연속으로 1번 이상 반복되는 경우에 일치하는 것을 의미합니다.

Python 코드 예시

이제 위의 정규표현식 패턴을 이용하여 실제로 한글을 추출하는 Python 코드를 작성해보겠습니다.

import re

text = "안녕하세요! 한글을 추출해보는 예시입니다. 123ABC"
pattern = r'[가-힣]+'

result = re.findall(pattern, text)
print(result)  # ['안녕하세요', '한글을', '추출해보는', '예시입니다']

위 코드에서 re.findall() 함수를 사용하여 입력된 텍스트에서 패턴에 매칭되는 모든 문자열을 추출합니다. 추출된 결과는 리스트 형태로 반환되며, 위의 예시에서는 ['안녕하세요', '한글을', '추출해보는', '예시입니다']와 같이 출력됩니다.

결론

정규표현식을 사용하면 특정한 패턴을 갖는 문자열을 쉽게 추출할 수 있습니다. 한글을 추출하기 위해서는 한글 유니코드 범위를 이용한 정규표현식 패턴을 작성하는 것이 필요합니다. Python의 re 모듈을 사용하여 한글을 추출하는 예시 코드를 작성하였으니, 이를 참고하여 다양한 상황에 맞게 활용해보세요.