[python] PyTesseract를 사용하여 의약품 라벨에서 텍스트 추출하기
소개
의약품 라벨에서 텍스트를 추출하는 것은 자동화된 정보 추출 및 문서 처리 작업에 매우 유용합니다. 이를 위해 Python의 pytesseract
라이브러리를 사용하여 영상에서 텍스트를 읽어와보겠습니다.
Prerequisites
- Python 3.x
pytesseract
라이브러리- Tesseract OCR 엔진 (
tesseract-ocr
)
설치
- Python 설치: https://www.python.org/downloads/
- Tesseract OCR 설치: https://github.com/tesseract-ocr/tesseract/wiki
# Windows
pip install pytesseract
# macOS
brew install tesseract
# Ubuntu
apt-get install tesseract-ocr
예제 코드
import pytesseract
from PIL import Image
def extract_text_from_image(image_path):
# 이미지 열기
img = Image.open(image_path)
# 이미지에서 텍스트 추출
extracted_text = pytesseract.image_to_string(img, lang='kor')
return extracted_text
# 이미지 경로
image_path = "의약품_라벨.jpg"
# 텍스트 추출
text = extract_text_from_image(image_path)
# 추출된 텍스트 출력
print(text)
결과
처방전 의약품 명칭 : 하루타
주성분 : 라모티진
량
용법 : 하루 1회 1정을 충혈된 위에서 30분전에 물로
씹어서 복용하십시오.
효과 : 위산(산도)을 억제하며 위궤양의 가려움증,
속쓰림, 덧무늬, 식욕감퇴, 구역, 메슥한 느낌 등을 완
화시킵니다.
※ 불면등 완화효과를 위해 알보칠터(항불면제)와 함께병용하십
시오
전문처방전 약품으로써 반드시 의사처방을 받으십시오.
결론
PyTesseract를 사용하면 의약품 라벨과 같은 이미지에서 텍스트를 추출할 수 있습니다. 이를 통해 자동화된 정보 수집 및 문서 처리 작업을 보다 효율적으로 수행할 수 있습니다.