[python] PyTesseract를 사용하여 연례 보고서에서 텍스트 추출하기

22 Nov 2023

python

이번 포스트에서는 PyTesseract를 사용하여 연례 보고서에서 텍스트를 추출하는 방법을 알아보겠습니다. PyTesseract는 Tesseract OCR 엔진을 사용하여 이미지에서 텍스트를 인식하는 도구입니다.

1. PyTesseract 설치하기

먼저, PyTesseract를 설치해야 합니다. 다음 명령을 사용하여 PyTesseract를 설치하세요.

pip install pytesseract

또한, Tesseract OCR 엔진을 설치해야 합니다. 여기에서 사용하는 운영체제에 맞는 버전을 다운로드하여 설치하세요.

2. 이미지에서 텍스트 추출하기

PyTesseract를 사용하여 이미지에서 텍스트를 추출하는 예제 코드를 작성해보겠습니다.

import pytesseract
from PIL import Image

# 이미지 열기
img = Image.open('annual_report.png')

# 이미지에서 텍스트 추출
text = pytesseract.image_to_string(img)

# 추출한 텍스트 출력
print(text)

위 코드에서는 pytesseract와 PIL 모듈을 임포트하고, Image 모듈을 사용하여 이미지를 엽니다. 그런 다음, pytesseract.image_to_string() 함수를 사용하여 이미지에서 텍스트를 추출합니다.

3. 텍스트 추출 옵션 설정하기

PyTesseract는 다양한 옵션을 제공하여 텍스트 추출 과정을 조정할 수 있습니다. 예를 들어, 언어를 지정하거나 이미지 전처리를 수행할 수 있습니다. 다음은 몇 가지 예제입니다.

언어 지정하기

text = pytesseract.image_to_string(img, lang='eng')

이미지 전처리하기

# 이미지 이진화
img = img.convert('L').point(lambda x: 0 if x < 128 else 255, '1')

# 이미지에서 텍스트 추출
text = pytesseract.image_to_string(img)

이외에도 다양한 옵션을 사용하여 텍스트 추출 과정을 최적화할 수 있습니다. 여기에서 자세한 내용을 확인할 수 있습니다.

결론

이렇게 PyTesseract를 사용하여 연례 보고서와 같은 이미지에서 텍스트를 추출하는 방법을 알아보았습니다. PyTesseract는 간편하게 이미지에서 텍스트를 추출할 수 있는 강력한 도구입니다. 다양한 옵션을 사용하여 텍스트 추출 과정을 조정할 수 있으므로, 자신의 프로젝트에 적절한 방식을 선택하여 활용해보세요.