[python] PyTesseract를 사용하여 광고 혹은 포스터에서 텍스트 추출하기

광고나 포스터에 있는 텍스트를 추출하여 사용해야 할 때가 있습니다. 이때 PyTesseract라는 파이썬 OCR 라이브러리를 사용하면 편리하게 텍스트를 추출할 수 있습니다.

1. PyTesseract 설치하기

먼저, PyTesseract를 설치해야 합니다. 다음 명령어를 사용하여 설치할 수 있습니다.

pip install pytesseract

2. Tesseract OCR 설치하기

PyTesseract는 Tesseract OCR 엔진을 사용하여 텍스트를 추출합니다. 따라서 Tesseract OCR도 설치해주어야 합니다.

3. PyTesseract로 텍스트 추출하기

이제 PyTesseract를 사용하여 광고나 포스터에서 텍스트를 추출해보겠습니다. 다음은 간단한 예제 코드입니다.

import pytesseract
from PIL import Image

def extract_text_from_image(image_path):
    image = Image.open(image_path)
    text = pytesseract.image_to_string(image, lang='eng')
    return text

# 이미지 파일 경로를 지정하고 텍스트 추출하기
image_path = '이미지_파일_경로'
text = extract_text_from_image(image_path)
print(text)

위 코드에서 image_path 변수에 추출하고자 하는 이미지 파일의 경로를 지정하고, extract_text_from_image() 함수를 사용하여 이미지에서 텍스트를 추출합니다. 결과로 추출된 텍스트가 반환되고 화면에 출력됩니다.

참고 자료