[python] PyTesseract를 사용하여 웹 사이트에서 텍스트 추출하기

22 Nov 2023

python

이번 포스트에서는 PyTesseract를 사용하여 웹 사이트에서 텍스트를 추출하는 방법에 대해 알아보겠습니다. PyTesseract는 Python에서 OCR (광학 문자 인식)을 수행하기 위한 라이브러리로서, 이미지나 스크린샷 등에서 텍스트를 추출하는 데 사용됩니다.

1. PyTesseract 설치하기

먼저, PyTesseract를 설치해야 합니다. 아래의 명령을 사용하여 PyTesseract를 설치할 수 있습니다.

pip install pytesseract

2. Tesseract OCR 설치하기

PyTesseract는 Tesseract OCR 엔진을 사용하여 문자를 인식합니다. 따라서, Tesseract OCR도 설치해야 합니다. 운영체제에 맞는 Tesseract OCR를 다운로드 받아 설치해 주세요.

Windows: https://github.com/UB-Mannheim/tesseract/wiki
macOS: https://github.com/UB-Mannheim/tesseract/wiki
Linux: 패키지 관리자를 사용하여 설치할 수 있습니다. 예를 들어, Ubuntu에서는 다음과 같이 설치할 수 있습니다.

sudo apt install tesseract-ocr

3. 웹사이트에서 이미지 가져오기

텍스트를 추출하기 위해 웹 사이트에서 이미지를 가져와야 합니다. 이를 위해 Python의 requests 라이브러리를 사용할 수 있습니다. 아래의 코드는 requests를 이용하여 웹사이트에서 이미지를 가져오는 예제입니다.

import requests

url = "http://example.com/image.jpg"
response = requests.get(url)

with open("image.jpg", "wb") as file:
    file.write(response.content)

4. 이미지에서 텍스트 추출하기

이제, PyTesseract를 사용하여 이미지에서 텍스트를 추출할 수 있습니다. 아래의 코드는 PyTesseract를 사용하여 이미지에서 텍스트를 추출하는 예제입니다.

import pytesseract
from PIL import Image

image_path = "image.jpg"
image = Image.open(image_path)

text = pytesseract.image_to_string(image)
print(text)

5. 결과 확인하기

위의 코드를 실행하면, 이미지에서 추출된 텍스트를 출력할 수 있습니다. 이를 원하는 방식으로 가공하여 사용하면 됩니다.

마무리

이번 포스트에서는 PyTesseract를 사용하여 웹 사이트에서 이미지에서 텍스트를 추출하는 방법에 대해 알아보았습니다. PyTesseract는 간단하게 사용할 수 있는 강력한 도구이며, 웹 스크래핑 등 다양한 프로젝트에 활용할 수 있습니다.

더 자세한 정보는 PyTesseract 공식 문서를 참조하시기 바랍니다.