[python] PyTesseract를 사용하여 손상된 문서에서 텍스트 추출하기

22 Nov 2023

python

이 블로그 포스트에서는 PyTesseract라는 파이썬 라이브러리를 사용하여 손상된 문서에서 텍스트를 추출하는 방법을 알아보겠습니다.

PyTesseract란?

PyTesseract는 Optical Character Recognition (OCR) 엔진인 Tesseract의 파이썬 인터페이스입니다. OCR은 이미지나 스캔된 문서에서 텍스트를 자동으로 인식하는 기술을 말합니다.

필요한 라이브러리 설치하기

먼저 PyTesseract를 사용하기 위해 필요한 라이브러리를 설치해야 합니다. 터미널에서 다음 명령을 실행하여 설치할 수 있습니다.

pip install pytesseract

그리고 OCR 엔진인 Tesseract도 설치해야 합니다. Tesseract의 다운로드 및 설치 방법은 다음 링크를 참조하십시오: https://github.com/tesseract-ocr/tesseract/wiki

이미지에서 텍스트 추출하기

이제 PyTesseract를 사용하여 손상된 문서에서 텍스트를 추출하는 코드를 작성해보겠습니다. 아래의 예제 코드를 참고하십시오.

import pytesseract
from PIL import Image
  
def extract_text_from_image(image_path):
    # 이미지 열기
    image = Image.open(image_path)
  
    # 이미지를 흑백 모드로 변환하기
    image = image.convert('L')
  
    # 이미지에서 텍스트 추출하기
    extracted_text = pytesseract.image_to_string(image)
  
    return extracted_text
  
# 이미지 파일 경로
image_path = 'damaged_document.png'

# 이미지에서 텍스트 추출하기
extracted_text = extract_text_from_image(image_path)

# 추출된 텍스트 출력하기
print(extracted_text)

위 코드에서 extract_text_from_image 함수는 이미지 파일 경로를 인자로 받아 해당 이미지에서 텍스트를 추출합니다. 이미지는 PIL 라이브러리를 사용하여 열고, 흑백 모드로 변환한 후 pytesseract.image_to_string 함수를 호출하여 텍스트를 추출합니다.

결과 확인하기

위 코드를 실행하고 손상된 문서 이미지에서 텍스트를 추출해보세요. 추출된 텍스트는 extracted_text 변수에 저장되고 print 함수를 통해 출력됩니다.

이제 PyTesseract를 사용하여 손상된 문서에서 텍스트를 추출하는 방법을 학습했습니다. 참고한 내용을 바탕으로 다양한 문제를 해결해보세요. 행운을 빕니다!