[python] PyTesseract를 사용하여 광고 혹은 포스터에서 텍스트 추출하기

22 Nov 2023

python

광고나 포스터에 있는 텍스트를 추출하여 사용해야 할 때가 있습니다. 이때 PyTesseract라는 파이썬 OCR 라이브러리를 사용하면 편리하게 텍스트를 추출할 수 있습니다.

1. PyTesseract 설치하기

먼저, PyTesseract를 설치해야 합니다. 다음 명령어를 사용하여 설치할 수 있습니다.

pip install pytesseract

2. Tesseract OCR 설치하기

PyTesseract는 Tesseract OCR 엔진을 사용하여 텍스트를 추출합니다. 따라서 Tesseract OCR도 설치해주어야 합니다.

Windows: https://github.com/UB-Mannheim/tesseract/wiki 에서 설치 파일을 다운로드하여 설치합니다.
macOS: Homebrew를 사용하여 설치할 수 있습니다. 아래 명령어를 사용하세요.
```
  brew install tesseract
```
Linux: 시스템 패키지 관리자를 통해 설치할 수 있습니다. 예를 들어, Ubuntu에서는 다음 명령어를 사용합니다.
```
  sudo apt-get install tesseract-ocr
```

3. PyTesseract로 텍스트 추출하기

이제 PyTesseract를 사용하여 광고나 포스터에서 텍스트를 추출해보겠습니다. 다음은 간단한 예제 코드입니다.

import pytesseract
from PIL import Image

def extract_text_from_image(image_path):
    image = Image.open(image_path)
    text = pytesseract.image_to_string(image, lang='eng')
    return text

# 이미지 파일 경로를 지정하고 텍스트 추출하기
image_path = '이미지_파일_경로'
text = extract_text_from_image(image_path)
print(text)

위 코드에서 image_path 변수에 추출하고자 하는 이미지 파일의 경로를 지정하고, extract_text_from_image() 함수를 사용하여 이미지에서 텍스트를 추출합니다. 결과로 추출된 텍스트가 반환되고 화면에 출력됩니다.

1. PyTesseract 설치하기

2. Tesseract OCR 설치하기

3. PyTesseract로 텍스트 추출하기

참고 자료