[python] PyTesseract를 사용하여 수입 정보서의 제품명 추출하기

22 Nov 2023

python

수입 정보서는 제품에 대한 다양한 정보를 담고 있는 문서입니다. 이 중에서 제품명은 중요한 정보이며, 종종 이 정보를 추출해야 할 때가 있습니다. 이번 포스팅에서는 PyTesseract 라이브러리를 사용하여 수입 정보서에서 제품명을 추출하는 방법을 알아보겠습니다.

1. PyTesseract란?

PyTesseract는 Google의 Tesseract OCR 엔진을 파이썬에서 사용하기 위한 인터페이스입니다. OCR은 Optical Character Recognition의 약자로, 이미지나 문서에서 텍스트를 인식하고 추출하는 기술을 의미합니다. PyTesseract는 이러한 OCR 작업을 쉽게 수행할 수 있도록 도와줍니다.

2. 설치 및 설정

먼저 PyTesseract를 설치해야 합니다. 다음 명령어를 사용하여 설치할 수 있습니다.

pip install pytesseract

설치가 완료되면 Tesseract OCR 엔진도 설치해야 합니다. 여기에서 자신의 운영체제에 맞는 Tesseract OCR 엔진을 다운로드하고 설치해주세요.

3. 예제 코드

다음은 PyTesseract를 사용하여 수입 정보서에서 제품명을 추출하는 예제 코드입니다.

import pytesseract
from PIL import Image

# 이미지 불러오기
image = Image.open('invoice.png')

# 이미지에서 텍스트 추출
text = pytesseract.image_to_string(image, lang='eng')

# 추출된 텍스트 출력
print(text)

이 코드에서는 invoice.png라는 이미지 파일에서 텍스트를 추출하는 예제입니다. image_to_string 함수를 사용하면 이미지에서 텍스트를 추출할 수 있습니다. lang 매개변수를 사용하여 언어를 지정할 수 있습니다. 예제에서는 영어(eng)로 설정하였습니다.

4. 결과 확인

위의 예제 코드를 실행하면 제품명을 포함한 수입 정보서의 전체 텍스트가 출력됩니다. 이 중에서 제품명에 해당하는 부분을 추출하면 됩니다. 필요에 따라 텍스트 처리 기술을 활용하여 추출된 텍스트를 정제하거나 필터링할 수 있습니다.

1. PyTesseract란?

2. 설치 및 설정

3. 예제 코드

4. 결과 확인

5. 참고 자료