[python] PyTesseract를 사용하여 신문 혹은 잡지에서 텍스트 추출하기

22 Nov 2023

python

PyTesseract는 Python에서 OCR(광학 문자 인식)을 수행하는 데 사용되는 도구입니다. 이를 사용하면 신문이나 잡지와 같은 이미지로 된 문서에서 텍스트를 추출할 수 있습니다.

PyTesseract 설치하기

먼저 PyTesseract를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install pytesseract

또한 Tesseract OCR 엔진이 설치되어 있어야 합니다. 여기에서 해당 엔진의 설치 방법을 참고하세요.

이미지에서 텍스트 추출하기

다음은 PyTesseract를 사용하여 이미지에서 텍스트를 추출하는 간단한 예제입니다.

import pytesseract
from PIL import Image

# 이미지 불러오기
image = Image.open('newspaper.jpg')

# 이미지에서 텍스트 추출
extracted_text = pytesseract.image_to_string(image, lang='eng')

# 추출된 텍스트 출력
print(extracted_text)

위의 예제에서는 newspaper.jpg라는 이미지에서 텍스트를 추출합니다. image_to_string 함수의 lang 매개변수를 사용하여 언어를 지정할 수 있습니다. 위의 예제에서는 영어(eng)로 지정했습니다. 다른 언어로 텍스트를 추출하기 위해서는 해당 언어의 Tesseract 데이터가 설치되어 있어야 합니다.

결론

PyTesseract를 사용하면 신문이나 잡지와 같은 이미지로 된 문서에서 텍스트를 쉽게 추출할 수 있습니다. 이를 통해 다양한 OCR 기반의 프로젝트를 개발할 수 있습니다. 자세한 내용은 PyTesseract와 Tesseract OCR 문서를 참고하세요.