[python] 파이썬으로 이미지 텍스트 추출하기

08 Dec 2023

python

이미지에 있는 텍스트를 추출하기 위해 OCR (Optical Character Recognition) 기술을 사용할 수 있습니다. 파이썬에서는 Tesseract라는 OCR 엔진을 사용하여 이미지에서 텍스트를 추출할 수 있습니다.

Tesseract 설치

Tesseract를 사용하기 위해서는 먼저 설치해야 합니다. 파이썬에서는 pytesseract 패키지를 사용하여 Tesseract를 사용할 수 있습니다.

pip install pytesseract

또한 Tesseract OCR 엔진을 설치해야 합니다. Windows, macOS, Linux 등 다양한 운영체제에 맞게 Tesseract OCR 엔진을 설치할 수 있습니다. 자세한 내용은 Tesseract 공식 사이트를 참고하시기 바랍니다.

이미지 텍스트 추출하기

pytesseract 패키지를 사용하여 이미지에서 텍스트를 추출하는 방법은 간단합니다. 먼저, Tesseract OCR 엔진의 경로를 지정해야 합니다.

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'  # Tesseract OCR 엔진 경로 지정

# 이미지에서 텍스트 추출
image = Image.open('image.png')
text = pytesseract.image_to_string(image, lang='eng')  # 이미지에서 영어 텍스트 추출
print(text)

위 예제에서 pytesseract.image_to_string 함수를 사용하여 이미지에서 텍스트를 추출하고, 추출된 텍스트를 출력하였습니다.

결론

파이썬의 pytesseract 패키지와 Tesseract OCR 엔진을 사용하여 이미지에서 텍스트를 추출할 수 있습니다. OCR 기술을 활용하여 이미지 속의 정보를 손쉽게 추출할 수 있기 때문에 다양한 분야에서 활용될 수 있습니다.