[python] 이미지에서 텍스트 인식하기
이미지에서 텍스트를 인식하는 것은 컴퓨터 비전 기술의 중요한 일부입니다. 이를 통해, 사진이나 스캔된 문서에서 텍스트를 추출하고 분석할 수 있습니다. Python을 사용하여 이미지에서 텍스트를 인식하는 방법을 알아보겠습니다.
필요한 라이브러리 설치하기
텍스트 인식을 위해 tesseract
라이브러리와 Pillow
라이브러리를 설치해야 합니다. 다음의 명령을 사용하여 필요한 라이브러리를 설치할 수 있습니다:
pip install pytesseract
pip install Pillow
이미지에서 텍스트 인식하기
Python에서 pytesseract
라이브러리를 사용하면 간단하게 이미지에서 텍스트를 인식할 수 있습니다. 다음은 이미지에서 텍스트를 추출하는 예제 코드입니다:
from PIL import Image
import pytesseract
# 이미지 열기
image = Image.open('sample_image.jpg')
# 이미지에서 텍스트 추출
text = pytesseract.image_to_string(image, lang='eng')
# 추출된 텍스트 출력
print(text)
위 코드에서 sample_image.jpg
대신에 실제 이미지 파일의 경로를 사용해야 합니다. 출력된 텍스트는 해당 이미지에 포함된 모든 텍스트를 추출한 결과입니다.
결과 분석 및 활용
pytesseract
를 사용하면 강력한 텍스트 인식 기능을 활용할 수 있습니다. 추출된 텍스트를 분석하여 필요한 정보를 추출하거나 기계 학습 알고리즘에 입력으로 사용할 수도 있습니다. 또한 pytesseract
는 다양한 언어를 지원하므로, 여러 언어로 작성된 이미지에서도 텍스트를 인식할 수 있습니다.
참고 자료
pytesseract
라이브러리: https://pypi.org/project/pytesseract/Pillow
라이브러리: https://pillow.readthedocs.io/en/stable/tesseract
OCR 엔진: https://github.com/tesseract-ocr/tesseract