[python] PyTesseract를 사용하여 보안 문서에서 텍스트 추출하기

22 Nov 2023

python

보안 문서에서 텍스트를 추출하는 것은 자동화 프로세스나 데이터 분석에 매우 유용합니다. 텍스트를 추출하기 위해 PyTesseract라는 파이썬 라이브러리를 사용할 수 있습니다. PyTesseract는 Tesseract OCR 엔진의 파이썬 버전이며, 이미지에서 텍스트를 인식하는 데 사용됩니다.

필요한 패키지 설치하기

PyTesseract를 사용하려면 먼저 Tesseract OCR 엔진이 설치되어 있어야 합니다. 다음 명령어를 사용하여 Tesseract를 설치합니다.

sudo apt install tesseract-ocr

또한, PyTesseract 파이썬 라이브러리도 설치해야 합니다. 다음 명령어를 사용하여 PyTesseract를 설치합니다.

pip install pytesseract

이미지에서 텍스트 추출하기

다음은 PyTesseract를 사용하여 이미지에서 텍스트를 추출하는 간단한 예제 코드입니다.

import pytesseract
from PIL import Image

# 이미지 열기
image = Image.open('security_document.png')

# 이미지에서 텍스트 추출하기
text = pytesseract.image_to_string(image, lang='eng')

# 추출된 텍스트 출력하기
print(text)

위의 코드에서는 pytesseract 모듈을 가져와서 image_to_string 함수를 사용하여 이미지에서 텍스트를 추출합니다. lang 매개변수를 사용하여 언어를 지정할 수도 있습니다.

추가 설정

추출된 텍스트의 정확성을 향상시키기 위해 몇 가지 추가적인 설정을 적용할 수 있습니다. 예를 들어, 이미지의 밝기나 대비를 조정하거나 이미지를 이진화할 수 있습니다.

import pytesseract
from PIL import Image, ImageEnhance

# 이미지 열기
image = Image.open('security_document.png')

# 이미지 향상시키기
enhancer = ImageEnhance.Contrast(image)
image = enhancer.enhance(2)  # 대비 증가

# 이미지를 이진화하여 텍스트 추출하기
bw_image = image.convert('1')
text = pytesseract.image_to_string(bw_image, lang='eng')

# 추출된 텍스트 출력하기
print(text)

결론

PyTesseract는 보안 문서나 이미지에서 텍스트를 추출하는 데 사용하기에 매우 효과적인 도구입니다. 이를 통해 자동화된 프로세스나 데이터 분석에서 보안 문서에 포함된 정보를 쉽게 활용할 수 있습니다.

더 많은 정보와 예제 코드는 PyTesseract의 공식 문서를 참조하시기 바랍니다.

PyTesseract 공식 문서: 링크