[c++] 정규 표현식을 활용한 다국어 문자열 처리

15 Dec 2023

다국어 문자열을 다룰 때는 정규 표현식이 유용한 도구로 활용될 수 있습니다. 정규 표현식은 문자열에서 특정한 패턴을 찾거나 대체하는 데 사용됩니다. 다양한 언어의 문자열을 처리할 때, 다국어 문자열의 유니코드 값이나 문자 범위에 따라 정규 표현식을 사용하여 문자열을 처리할 수 있습니다.

유니코드 범위를 활용한 다국어 문자열 매칭

정규 표현식을 사용하여 특정 언어의 문자를 매칭하려면 해당 언어의 유니코드 범위를 활용할 수 있습니다. 예를 들어, C++에서는 다음과 같이 유니코드 범위를 사용하여 한글 문자를 매칭할 수 있습니다.

#include <regex>
#include <iostream>

int main() {
    std::wstring text = L"다국어 문자열 처리 예시";
    std::wregex regex(L"[\uAC00-\uD7A3]+");
    std::wsmatch match;

    if (std::regex_search(text, match, regex)) {
        std::wcout << L"매칭된 문자열: " << match.str() << std::endl;
    }

    return 0;
}

여기서 [\uAC00-\uD7A3]은 한글 유니코드 범위를 나타내며, 이를 사용하여 한글 문자열을 매칭합니다.

다국어 대소문자 변환

정규 표현식을 사용하여 다국어 문자열의 대소문자를 변환할 수도 있습니다. 예를 들어, C++에서는 다음과 같이 유니코드 대소문자 변환을 적용할 수 있습니다.

#include <locale>
#include <iostream>

int main() {
    std::wstring text = L"다국어 Upper Lower";
    std::wstring upperCaseText;
    std::wstring lowerCaseText;

    std::locale loc("ko_KR.UTF-8");
    for (wchar_t c : text) {
        upperCaseText += std::toupper(c, loc);
        lowerCaseText += std::tolower(c, loc);
    }

    std::wcout << L"대문자 변환: " << upperCaseText << std::endl;
    std::wcout << L"소문자 변환: " << lowerCaseText << std::endl;

    return 0;
}

위 코드에서 std::toupper 및 std::tolower 함수는 지정된 로캘에 따라 해당 문자의 대소문자를 변환합니다.

마무리

정규 표현식을 활용하여 다국어 문자열을 처리하는 방법에 대해 살펴보았습니다. 다양한 언어의 문자열을 다룰 때는 각 언어의 특성에 맞게 유니코드 범위를 활용하고, 지정된 로캘에 따라 대소문자 변환이 가능합니다.

위 예시 코드는 C++에서의 활용법을 보여주지만, 다른 언어에서도 유사한 방법으로 다국어 문자열 처리를 구현할 수 있습니다.

참고 자료

다양한 언어의 문자열을 처리할 때, 정규 표현식은 매우 유용한 도구입니다. C++에서는 유니코드 범위를 활용하여 다국어 문자열을 매칭하거나, 로캘에 따라 대소문자를 변환할 수 있습니다.