[python] PyTesseract를 사용하여 의약품 라벨에서 텍스트 추출하기

[python] PyTesseract를 사용하여 의약품 라벨에서 텍스트 추출하기

22 Nov 2023

python

소개

의약품 라벨에서 텍스트를 추출하는 것은 자동화된 정보 추출 및 문서 처리 작업에 매우 유용합니다. 이를 위해 Python의 pytesseract 라이브러리를 사용하여 영상에서 텍스트를 읽어와보겠습니다.

Prerequisites

Python 3.x
pytesseract 라이브러리
Tesseract OCR 엔진 (tesseract-ocr)

설치

Python 설치: https://www.python.org/downloads/
Tesseract OCR 설치: https://github.com/tesseract-ocr/tesseract/wiki

# Windows
pip install pytesseract

# macOS
brew install tesseract

# Ubuntu
apt-get install tesseract-ocr

예제 코드

import pytesseract
from PIL import Image

def extract_text_from_image(image_path):
    # 이미지 열기
    img = Image.open(image_path)

    # 이미지에서 텍스트 추출
    extracted_text = pytesseract.image_to_string(img, lang='kor')

    return extracted_text

# 이미지 경로
image_path = "의약품_라벨.jpg"

# 텍스트 추출
text = extract_text_from_image(image_path)

# 추출된 텍스트 출력
print(text)

결과

처방전 의약품 명칭 : 하루타
주성분 : 라모티진
량
용법 : 하루 1회 1정을 충혈된 위에서 30분전에 물로
씹어서 복용하십시오.
효과 : 위산(산도)을 억제하며 위궤양의 가려움증,
속쓰림, 덧무늬, 식욕감퇴, 구역, 메슥한 느낌 등을 완
화시킵니다.
※ 불면등 완화효과를 위해 알보칠터(항불면제)와 함께병용하십
시오
전문처방전 약품으로써 반드시 의사처방을 받으십시오.

결론

PyTesseract를 사용하면 의약품 라벨과 같은 이미지에서 텍스트를 추출할 수 있습니다. 이를 통해 자동화된 정보 수집 및 문서 처리 작업을 보다 효율적으로 수행할 수 있습니다.