[python] PyTesseract를 사용하여 뉴스 온라인 기사에서 텍스트 추출하기

22 Nov 2023

python

이번 포스트에서는 Python의 PyTesseract 패키지를 이용하여 뉴스 온라인 기사에서 텍스트를 추출하는 방법에 대해 알아보겠습니다.

PyTesseract이란?

PyTesseract는 OCR(광학 문자 인식) 엔진인 Tesseract의 Python 래퍼입니다. Tesseract는 이미지 또는 스캔된 문서에서 텍스트를 추출하는 데 사용됩니다. PyTesseract를 사용하면 Python에서 Tesseract를 쉽게 사용할 수 있습니다.

필요한 패키지 설치

아래 명령어를 사용하여 PyTesseract 및 관련 패키지를 설치합니다.

pip install pytesseract

또한, Tesseract OCR 엔진이 설치되어 있어야 합니다. 다음 링크에서 해당 플랫폼에 맞는 Tesseract를 설치할 수 있습니다:

Windows: https://github.com/UB-Mannheim/tesseract/wiki
macOS: brew install tesseract
Linux: sudo apt-get install tesseract-ocr

코드 예시

다음은 PyTesseract를 사용하여 뉴스 온라인 기사에서 텍스트를 추출하는 간단한 예제 코드입니다.

import pytesseract
from PIL import Image

# 이미지 파일 불러오기
image = Image.open('news_article.png')

# 이미지에서 텍스트 추출
text = pytesseract.image_to_string(image, lang='eng')

# 추출된 텍스트 출력
print(text)

위 코드에서는 Image.open()을 사용하여 이미지 파일을 불러오고, pytesseract.image_to_string() 함수를 사용하여 이미지에서 텍스트를 추출합니다. lang 매개변수를 사용하여 텍스트의 언어를 지정할 수 있습니다.

결과 확인

예제 코드를 실행하면 뉴스 온라인 기사 이미지에서 추출된 텍스트가 출력됩니다. 이를 통해 뉴스 기사의 텍스트를 추출하여 활용할 수 있습니다.

참고 자료

PyTesseract GitHub 저장소: https://github.com/madmaze/pytesseract
Tesseract OCR GitHub 저장소: https://github.com/tesseract-ocr/tesseract