[python] PyTesseract를 사용하여 인쇄된 문서에서 텍스트 추출하기

22 Nov 2023

python

이번 포스트에서는 Python의 PyTesseract 패키지를 사용하여 인쇄된 문서에서 텍스트를 추출하는 방법을 알아보겠습니다.

1. PyTesseract이란?

PyTesseract는 Google의 Tesseract OCR 엔진을 Python에서 사용할 수 있도록 만든 패키지입니다. OCR(광학 문자 인식)은 인쇄된 문서나 이미지에서 문자를 인식하고 추출하는 기술을 말합니다.

2. PyTesseract 설치하기

먼저, PyTesseract를 설치해야 합니다. 다음 명령을 사용하여 패키지를 설치합니다.

pip install pytesseract

또한 Tesseract OCR 엔진도 설치해야 합니다. 다음 명령을 사용하여 엔진을 설치합니다.

Windows:

Tesseract 공식 웹사이트(https://github.com/tesseract-ocr/tesseract/wiki)에서 다운로드하여 설치합니다. 설치 후에는 tesseract.exe의 경로를 환경 변수에 추가해야 합니다.

macOS:

Homebrew를 사용하여 Tesseract를 설치할 수 있습니다.

brew install tesseract

Linux:

apt-get을 사용하여 Tesseract를 설치할 수 있습니다.

sudo apt-get install tesseract-ocr

3. 예제 코드 작성하기

다음은 PyTesseract를 사용하여 인쇄된 문서에서 텍스트를 추출하는 예제 코드입니다.

import pytesseract
from PIL import Image

# 이미지 열기
image = Image.open("document.jpg")

# 이미지에서 텍스트 추출
text = pytesseract.image_to_string(image, lang='eng')

# 추출된 텍스트 출력
print(text)

위 코드에서는 pytesseract와 PIL 패키지를 import 한 후에, Image.open() 메소드로 이미지를 열고, pytesseract.image_to_string() 메소드로 이미지에서 텍스트를 추출합니다. 마지막으로 print()를 사용하여 추출된 텍스트를 출력합니다.

4. 결과 확인하기

예제 코드를 실행하고, 인쇄된 문서의 이미지에서 텍스트를 추출해보세요. 정확한 결과를 확인할 수 있을 것입니다.

5. 추가 설정 및 사용 방법

PyTesseract를 사용하는 동안 다양한 설정 및 사용 방법을 적용할 수 있습니다. 예를 들어, lang 매개변수를 사용하여 추출할 언어를 지정하거나, 이미지 전처리를 위해 image_to_string() 메소드의 다른 매개변수를 조정할 수 있습니다. 자세한 내용은 PyTesseract의 공식 문서(https://pypi.org/project/pytesseract/)를 참조하세요.

이제 PyTesseract를 사용하여 인쇄된 문서에서 텍스트를 추출하는 방법을 알게 되었습니다. 이 기술을 활용하여 다양한 프로젝트나 작업에 응용해보세요!