[파이썬] 문자열의 유니코드 문자 분리

01 Sep 2023

python

문자열은 일련의 문자로 구성되어 있습니다. 하지만 가끔씩 유니코드 문자를 개별적으로 처리해야 하는 경우가 있습니다. 이번 블로그 포스트에서는 파이썬에서 문자열의 유니코드 문자를 분리하는 방법에 대해 알아보겠습니다.

1. 문자열을 유니코드 문자로 분리하기

파이썬에서는 unicodedata 모듈을 사용하여 문자열을 유니코드 문자로 분리할 수 있습니다. unicodedata.normalize() 함수를 사용하여 문자열을 정규화한 후에 list() 함수를 이용하여 분리된 유니코드 문자의 리스트를 얻을 수 있습니다.

import unicodedata

text = "안녕하세요"
unicode_chars = unicodedata.normalize('NFD', text)
unicode_chars = list(unicode_chars)

print(unicode_chars)

위 예제 코드를 실행하면 다음과 같은 결과가 출력됩니다:

['ᄋ', 'ᅡ', 'ᆫ', 'ᄂ', 'ᅧ', 'ᆼ', 'ᄒ', 'ᅡ', 'ᄉ', 'ᅦ', 'ᄋ', 'ᅭ']

2. 분리된 유니코드 문자 다루기

분리된 유니코드 문자 리스트를 활용하여 다양한 작업을 수행할 수 있습니다. 예를 들어, 각 유니코드 문자의 길이를 확인하려면 len() 함수를 사용하면 됩니다:

for char in unicode_chars:
    print(len(char))

또는 특정 유니코드 문자를 확인하려면 리스트의 인덱스를 사용할 수 있습니다:

print(unicode_chars[0])  # 첫 번째 유니코드 문자
print(unicode_chars[-1])  # 마지막 유니코드 문자

3. 결론

파이썬을 사용하여 문자열의 유니코드 문자를 분리하는 방법에 대해 알아보았습니다. unicodedata.normalize() 함수와 list() 함수를 조합하여 문자열을 유니코드 문자로 분리하고, 분리된 문자들을 다루는 방법을 살펴보았습니다. 이를 통해 유니코드 문자에 대한 더욱 다양한 작업을 수행할 수 있게 되었습니다.