[python] PyTesseract를 사용하여 카드의 기록부에서 텍스트 추출하기

22 Nov 2023

python

카드의 기록부에서 텍스트를 추출하는 작업은 많은 시간과 노력이 필요한 작업입니다. 하지만 PyTesseract라는 Python 라이브러리를 사용하면 이 작업을 간편하게 수행할 수 있습니다. PyTesseract는 OCR(광학 문자 인식)을 위한 Tesseract 엔진의 Python 인터페이스입니다.

이번 포스트에서는 PyTesseract를 사용하여 이미지로부터 텍스트를 추출하는 방법을 알아보겠습니다.

PyTesseract 설치하기

먼저 PyTesseract를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install pytesseract

추가로 Tesseract OCR 엔진을 사용하기 위해서는 별도로 설치해야 합니다. 여러 가지 방법이 있지만, 가장 간단한 방법은 운영 체제에 맞춰서 설치하는 것입니다.

Windows 사용자의 경우, Tesseract OCR 다운로드 페이지에서 설치 프로그램을 다운로드하여 설치할 수 있습니다.

Ubuntu 사용자의 경우, 다음의 명령어를 사용하여 설치할 수 있습니다.

sudo apt-get install tesseract-ocr

이미지에서 텍스트 추출하기

이제 PyTesseract를 사용하여 이미지로부터 텍스트를 추출해보겠습니다. 아래의 코드를 이용하면 됩니다.

import pytesseract
from PIL import Image

# 이미지 열기
image = Image.open('card_image.jpg')

# 텍스트 추출
text = pytesseract.image_to_string(image)

# 추출된 텍스트 출력
print(text)

위의 코드에서 card_image.jpg 부분을 추출하고자 하는 이미지 파일 경로로 바꿔주세요.

이제 위의 코드를 실행하면 이미지로부터 추출된 텍스트가 출력됩니다.

결과 분석 및 개선

추출된 텍스트 결과를 분석하여 필요한 정보를 추출할 수도 있습니다. 예를 들어, 이미지로부터 카드 번호만 추출한다고 가정해보겠습니다.

import re

# 추출된 텍스트에서 카드 번호 추출
card_number = re.search(r'\d{4}\-\d{4}\-\d{4}\-\d{4}', text).group()

# 추출된 카드 번호 출력
print(card_number)

위의 코드는 추출된 텍스트에서 정규식 패턴을 사용하여 카드 번호를 추출하는 예시입니다. 사용자는 필요에 따라 다양한 분석 방법을 적용할 수 있습니다.

결론

PyTesseract를 사용하면 카드의 기록부와 같은 이미지에서 텍스트를 추출하는 작업을 간단하게 수행할 수 있습니다. 이를 통해 OCR 작업에 드는 시간과 노력을 상당히 줄일 수 있습니다.

더 많은 정보와 옵션은 PyTesseract 공식 문서를 참조하십시오.