[python] PyTesseract를 사용하여 광고 혹은 포스터에서 텍스트 추출하기
광고나 포스터에 있는 텍스트를 추출하여 사용해야 할 때가 있습니다. 이때 PyTesseract라는 파이썬 OCR 라이브러리를 사용하면 편리하게 텍스트를 추출할 수 있습니다.
1. PyTesseract 설치하기
먼저, PyTesseract를 설치해야 합니다. 다음 명령어를 사용하여 설치할 수 있습니다.
pip install pytesseract
2. Tesseract OCR 설치하기
PyTesseract는 Tesseract OCR 엔진을 사용하여 텍스트를 추출합니다. 따라서 Tesseract OCR도 설치해주어야 합니다.
- Windows: https://github.com/UB-Mannheim/tesseract/wiki 에서 설치 파일을 다운로드하여 설치합니다.
- macOS: Homebrew를 사용하여 설치할 수 있습니다. 아래 명령어를 사용하세요.
brew install tesseract
- Linux: 시스템 패키지 관리자를 통해 설치할 수 있습니다. 예를 들어, Ubuntu에서는 다음 명령어를 사용합니다.
sudo apt-get install tesseract-ocr
3. PyTesseract로 텍스트 추출하기
이제 PyTesseract를 사용하여 광고나 포스터에서 텍스트를 추출해보겠습니다. 다음은 간단한 예제 코드입니다.
import pytesseract
from PIL import Image
def extract_text_from_image(image_path):
image = Image.open(image_path)
text = pytesseract.image_to_string(image, lang='eng')
return text
# 이미지 파일 경로를 지정하고 텍스트 추출하기
image_path = '이미지_파일_경로'
text = extract_text_from_image(image_path)
print(text)
위 코드에서 image_path
변수에 추출하고자 하는 이미지 파일의 경로를 지정하고, extract_text_from_image()
함수를 사용하여 이미지에서 텍스트를 추출합니다. 결과로 추출된 텍스트가 반환되고 화면에 출력됩니다.