[python] PyTesseract를 사용하여 영어 이외의 언어에서 텍스트 추출하기

22 Nov 2023

python

이전에는 PyTesseract를 사용하여 영어로 된 이미지에서 텍스트를 추출하는 방법에 대해 알아보았습니다. 하지만 PyTesseract는 영어 이외의 언어로 된 이미지에서도 텍스트를 추출할 수 있습니다. 이번 블로그 포스트에서는 PyTesseract를 사용하여 다른 언어에서 텍스트를 추출하는 방법을 알아보겠습니다.

필요한 패키지 설치하기

먼저, PyTesseract를 사용하기 위해 pytesseract 패키지를 설치해야 합니다. 아래의 명령어를 사용하여 패키지를 설치합니다.

pip install pytesseract

그리고 텍스트 추출을 위해 OCR(광학 문자 인식) 엔진 중 하나인 Tesseract OCR도 설치해야 합니다. Tesseract OCR은 공식 GitHub 페이지에서 다운로드할 수 있습니다.

이미지에서 텍스트 추출하기

PyTesseract를 사용하여 이미지에서 텍스트를 추출하는 방법은 다음과 같습니다.

import pytesseract
from PIL import Image

# 이미지 불러오기
image = Image.open('image.png')

# 이미지에서 텍스트 추출
text = pytesseract.image_to_string(image, lang='kor')

# 추출된 텍스트 출력
print(text)

위의 코드를 실행하면 이미지 파일에서 추출된 텍스트를 출력할 수 있습니다. lang 매개변수를 해당 언어에 맞게 설정하면 해당 언어의 텍스트를 추출할 수 있습니다. 위의 예제에서는 한국어(kor)로 설정하였습니다.

언어 데이터 추가하기

Tesseract OCR은 기본적으로 인식할 수 있는 언어들의 데이터를 내장하고 있지만, 필요한 언어를 지정하기 위해서는 해당 언어의 데이터를 추가로 설치해야 합니다. 설치 가능한 언어 데이터를 확인하려면 공식 Tesseract OCR 언어 데이터 페이지를 참고하십시오.

결론

PyTesseract를 사용하여 영어 이외의 언어에서 텍스트를 추출하는 방법에 대해 알아보았습니다. 필요한 패키지와 언어 데이터를 설치하고, 적절한 설정을 한다면 다양한 언어로 된 이미지에서 텍스트를 추출할 수 있습니다. PyTesseract를 사용하여 OCR 작업을 수행할 때 이러한 다국어 지원 기능을 활용하면 더 다양한 텍스트 데이터를 추출할 수 있습니다.

참고 문서: