[python] 이미지에서 텍스트 인식하기

05 Dec 2023

python

이미지에서 텍스트를 인식하는 것은 컴퓨터 비전 기술의 중요한 일부입니다. 이를 통해, 사진이나 스캔된 문서에서 텍스트를 추출하고 분석할 수 있습니다. Python을 사용하여 이미지에서 텍스트를 인식하는 방법을 알아보겠습니다.

필요한 라이브러리 설치하기

텍스트 인식을 위해 tesseract 라이브러리와 Pillow 라이브러리를 설치해야 합니다. 다음의 명령을 사용하여 필요한 라이브러리를 설치할 수 있습니다:

pip install pytesseract
pip install Pillow

이미지에서 텍스트 인식하기

Python에서 pytesseract 라이브러리를 사용하면 간단하게 이미지에서 텍스트를 인식할 수 있습니다. 다음은 이미지에서 텍스트를 추출하는 예제 코드입니다:

from PIL import Image
import pytesseract

# 이미지 열기
image = Image.open('sample_image.jpg')

# 이미지에서 텍스트 추출
text = pytesseract.image_to_string(image, lang='eng')

# 추출된 텍스트 출력
print(text)

위 코드에서 sample_image.jpg 대신에 실제 이미지 파일의 경로를 사용해야 합니다. 출력된 텍스트는 해당 이미지에 포함된 모든 텍스트를 추출한 결과입니다.

결과 분석 및 활용

pytesseract를 사용하면 강력한 텍스트 인식 기능을 활용할 수 있습니다. 추출된 텍스트를 분석하여 필요한 정보를 추출하거나 기계 학습 알고리즘에 입력으로 사용할 수도 있습니다. 또한 pytesseract는 다양한 언어를 지원하므로, 여러 언어로 작성된 이미지에서도 텍스트를 인식할 수 있습니다.

참고 자료

pytesseract 라이브러리: https://pypi.org/project/pytesseract/
Pillow 라이브러리: https://pillow.readthedocs.io/en/stable/
tesseract OCR 엔진: https://github.com/tesseract-ocr/tesseract