[python] PyTesseract 설치 방법

PyTesseract는 Python에서 Tesseract OCR(광학 문자 인식)을 사용하기 위한 라이브러리입니다. 이 라이브러리를 사용하면 이미지에서 텍스트를 추출하고 인식할 수 있습니다. PyTesseract를 설치하는 방법을 알아보겠습니다.

1. Tesseract 설치

PyTesseract를 사용하기 위해서는 먼저 Tesseract를 설치해야 합니다. Tesseract는 OCR 엔진이며, 이미지에서 문자를 인식하기 위해 사용됩니다.

Windows 사용자

Windows에서는 Tesseract를 공식 사이트(https://github.com/UB-Mannheim/tesseract/wiki)에서 다운로드하고 설치할 수 있습니다. 다운로드 페이지에서 설치 파일을 찾아 실행하고 지침에 따라 설치를 완료하세요. 설치 중에 “Add to PATH” 옵션을 선택하여 Tesseract의 실행 파일 경로를 시스템 PATH에 추가하는 것을 추천합니다.

macOS 사용자

macOS에서는 Homebrew를 통해 Tesseract를 설치할 수 있습니다. 터미널을 열고 다음 명령을 실행하세요.

brew install tesseract

Linux 사용자

Linux에서도 패키지 관리자를 통해 Tesseract를 설치할 수 있습니다. Ubuntu에는 apt를 사용할 수 있습니다. 터미널을 열고 다음 명령을 실행하세요.

sudo apt install tesseract-ocr

2. PyTesseract 설치

Tesseract를 설치했다면, 이제 PyTesseract를 설치해야 합니다. PyTesseract는 Python에서 Tesseract OCR를 쉽게 사용할 수 있도록 도와주는 라이브러리입니다.

pip install pytesseract

3. 예제 코드

이제 PyTesseract를 사용하여 이미지에서 텍스트를 추출하는 예제 코드를 작성해보겠습니다.

import pytesseract
from PIL import Image

# 이미지 열기
image = Image.open('image.png')

# 이미지에서 텍스트 추출
text = pytesseract.image_to_string(image)

# 추출한 텍스트 출력
print(text)

위의 코드에서 ‘image.png’는 텍스트를 추출할 이미지 파일의 경로입니다. 이 예제 코드를 실행하면 이미지에서 추출한 텍스트를 콘솔에 출력할 수 있습니다.

4. 참고 자료