[python] PyTesseract를 사용하여 금융 문서에서 텍스트 추출하기

22 Nov 2023

python

금융 분야에서는 다양한 종류의 문서들이 생성되며, 이러한 문서들에는 중요한 정보가 포함되어 있습니다. 이 정보를 추출하고 활용하기 위해서는 텍스트를 기계가 읽을 수 있는 형태로 변환해야 합니다. 이번 포스트에서는 PyTesseract를 사용하여 금융 문서에서 텍스트를 추출하는 방법에 대해 알아보겠습니다.

[PyTesseract란?]

PyTesseract는 Google의 OCR 엔진인 Tesseract를 파이썬에서 사용할 수 있게 해주는 라이브러리입니다. OCR은 Optical Character Recognition의 약자로, 이미지나 문서에서 텍스트를 자동으로 인식하여 추출하는 기술을 말합니다. PyTesseract는 다양한 언어 (예: 영어, 한글, 일본어 등)를 지원하며, 정확한 결과를 제공합니다.

[PyTesseract 설치]

PyTesseract를 사용하기 위해서는 먼저 Tesseract OCR 엔진을 설치해야 합니다. 다음 명령을 사용하여 설치할 수 있습니다.

$ sudo apt-get install tesseract-ocr

그리고 나서, 파이썬 패키지 관리자를 사용하여 PyTesseract를 설치합니다.

$ pip install pytesseract

[문서에서 텍스트 추출하기]

이제 설치가 완료되었으므로, 실제로 금융 문서에서 텍스트를 추출해보겠습니다. 먼저, 이미지 파일에서 텍스트를 추출하는 방법을 살펴보겠습니다.

import pytesseract
from PIL import Image

# 이미지 파일 열기
image = Image.open('document.png')

# 이미지에서 텍스트 추출
text = pytesseract.image_to_string(image, lang='eng')

# 추출한 텍스트 출력
print(text)

위의 예제에서 ‘document.png’는 추출할 텍스트가 포함된 이미지 파일의 경로입니다. ‘lang’ 매개변수를 사용하여 추출할 언어를 선택할 수 있습니다.

또한, PDF 파일에서 텍스트를 추출하는 방법도 동일하게 작동합니다. 다음은 예제입니다.

import pytesseract
from PyPDF2 import PdfFileReader

# PDF 파일 열기
pdf = PdfFileReader('document.pdf')

# 첫 번째 페이지에서 텍스트 추출
page = pdf.getPage(0)
text = pytesseract.image_to_string(page, lang='eng')

# 추출한 텍스트 출력
print(text)

위의 예제에서 ‘document.pdf’는 추출할 텍스트가 포함된 PDF 파일의 경로입니다. 첫 번째 페이지를 추출하도록 설정하였지만, 다른 페이지도 추출할 수 있습니다.

[결론]

PyTesseract를 사용하여 금융 문서에서 텍스트를 추출하는 방법을 살펴보았습니다. 이를 통해 금융 분야에서 활용 가능한 다양한 작업을 수행할 수 있습니다. PyTesseract는 사용이 간편하며, 정확한 결과를 제공하기 때문에 다양한 프로젝트에서 유용하게 활용될 수 있습니다.

[참고]

PyTesseract GitHub 페이지