[python] PyTesseract를 사용하여 거래 서류에서 텍스트 추출하기

22 Nov 2023

python

거래 서류에서 텍스트를 추출하는 것은 많은 데이터 처리 작업에서 중요한 부분입니다. PyTesseract는 Python에서 오픈 소스 OCR 라이브러리로, 거래 서류에서 텍스트를 추출하는 데 유용한 도구입니다.

PyTesseract 설치하기

PyTesseract를 사용하기 위해서는 먼저 Tesseract OCR 엔진을 설치해야 합니다. 다음은 Windows, macOS 및 Linux에서의 설치 방법입니다.

Windows

Tesseract OCR 설치 파일을 Tesseract OCR GitHub 페이지에서 다운로드하여 설치합니다.
환경 변수에 설치된 Tesseract OCR의 경로를 추가합니다. (일반적으로 “C:\Program Files\Tesseract-OCR”입니다.)

macOS

터미널을 열고 Homebrew를 사용하여 Tesseract OCR을 설치합니다.
```
brew install tesseract
```

Ubuntu

터미널을 열고 다음 명령을 사용하여 Tesseract OCR을 설치합니다.
```
sudo apt-get install tesseract-ocr
```

PyTesseract는 pip를 사용하여 간단하게 설치할 수 있습니다.

pip install pytesseract

PyTesseract를 사용하여 텍스트 추출하기

다음은 PyTesseract를 사용하여 거래 서류에서 텍스트를 추출하는 간단한 예제입니다.

import cv2
import pytesseract

# 이미지 파일 불러오기
image = cv2.imread('거래서류.jpg')

# 이미지를 흑백으로 변환
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 흑백 이미지에서 텍스트 추출
text = pytesseract.image_to_string(gray)

# 추출된 텍스트 출력
print(text)

위의 예제에서는 OpenCV를 사용하여 이미지를 불러온 후, 흑백으로 변환한 다음 PyTesseract를 사용하여 텍스트를 추출합니다. 추출된 텍스트는 text 변수에 저장되며 출력됩니다.

결론

PyTesseract는 Python에서 텍스트 추출을 위한 훌륭한 도구입니다. 거래 서류와 같은 문서에서 텍스트를 추출하는 데 사용할 수 있으며, 다양한 데이터 처리 작업에 활용할 수 있습니다. 추가적인 설정이나 이미지 전처리를 통해 정확도를 높일 수도 있습니다.