[python] PyTesseract를 사용하여 약국에서 안내문 추출하기

22 Nov 2023

python

약국에서는 종종 안내문을 작성하고 이를 공개합니다. 이러한 안내문에는 다양한 정보가 포함되어 있으며, 이를 효율적으로 추출하기 위해서는 OCR(광학 문자 인식) 기술이 필요합니다. 이번 포스트에서는 PyTesseract라는 Python 라이브러리를 사용하여 약국에서 안내문을 추출하는 방법을 알아보겠습니다.

PyTesseract란?

PyTesseract는 Tesseract OCR 엔진을 Python에서 사용하기 위한 인터페이스입니다. Tesseract는 Google에서 개발한 오픈 소스 OCR 엔진으로, 100여 개 이상의 언어를 인식할 수 있습니다. PyTesseract를 사용하면 이미지나 PDF와 같은 파일에서 텍스트를 추출할 수 있습니다.

PyTesseract 설치하기

PyTesseract를 사용하기 위해서는 먼저 Tesseract OCR 엔진을 설치해야 합니다. Windows에서는 이 링크에서 Tesseract 설치 파일을 다운로드하여 설치할 수 있습니다. Mac 또는 Linux에서는 다음과 같이 터미널에서 명령어를 입력하여 설치할 수 있습니다.

sudo apt install tesseract-ocr

PyTesseract는 pip를 사용하여 간단히 설치할 수 있습니다.

pip install pytesseract

안내문 추출하기

PyTesseract를 사용하여 약국에서 안내문을 추출하는 것은 간단합니다. 먼저, 이미지 파일이나 PDF 파일을 로드하고, PyTesseract를 사용하여 텍스트를 추출합니다.

import pytesseract
from PIL import Image

# 이미지 파일 또는 PDF 파일 로드
image_path = 'path_to_image_file.jpg'
image = Image.open(image_path)

# 텍스트 추출
text = pytesseract.image_to_string(image, lang='kor')

print(text)

위의 코드에서 image_path 변수에 추출하려는 이미지 파일의 경로를 지정합니다. image_to_string 메서드를 사용하여 이미지 파일에서 텍스트를 추출합니다. lang 매개변수를 사용하여 추출할 언어를 지정할 수 있습니다.

결과 확인하기

안내문을 추출한 후에는 결과를 확인할 수 있습니다. 텍스트를 출력하거나, 원하는 형식으로 가공할 수 있습니다. 또한, 추출한 텍스트를 다른 용도로 활용할 수도 있습니다.

결론

PyTesseract는 간단하면서도 강력한 OCR 도구입니다. 이를 사용하면 약국에서 안내문과 같은 문서에서 텍스트를 추출하는 과정을 효율적으로 처리할 수 있습니다. PyTesseract의 다양한 기능과 옵션을 통해 텍스트 추출을 자유롭게 활용할 수 있습니다.

참고 자료: