[python] PyTesseract를 사용하여 증명사진에서 텍스트 추출하기

22 Nov 2023

python

증명사진에서 텍스트를 추출하는 작업은 OCR (Optical Character Recognition) 기술을 사용하여 가능합니다. 이번 포스트에서는 Python의 PyTesseract 라이브러리를 사용하여 증명사진에서 텍스트를 추출하는 방법을 알아보겠습니다.

PyTesseract란?

PyTesseract는 Tesseract OCR 엔진을 Python에서 사용할 수 있도록 만든 인터페이스입니다. Tesseract OCR은 Google에서 개발한 오픈 소스 OCR 엔진으로, 다양한 언어를 인식하는 데 사용됩니다.

PyTesseract 설치하기

먼저, PyTesseract를 설치해야 합니다. 아래 명령어를 사용하여 PyTesseract를 설치할 수 있습니다.

pip install pytesseract

또한, PyTesseract를 사용하기 위해서는 Tesseract OCR 엔진도 설치해야 합니다. 다음 명령어를 사용하여 설치하세요.

sudo apt-get install tesseract-ocr

증명사진에서 텍스트 추출하기

다음은 PyTesseract를 사용하여 증명사진에서 텍스트를 추출하는 간단한 예제 코드입니다.

import cv2
import pytesseract

# 이미지 불러오기
image = cv2.imread('id_card.jpg')

# 이미지를 흑백으로 변환
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 이미지에서 텍스트 추출
text = pytesseract.image_to_string(gray_image)

# 추출된 텍스트 출력
print(text)

위의 코드에서 id_card.jpg는 증명사진의 파일 경로입니다. 증명사진을 불러와서 흑백으로 변환한 뒤, image_to_string 함수를 사용하여 텍스트를 추출합니다. 추출된 텍스트는 text 변수에 저장되고 출력됩니다.

결론

이렇게 PyTesseract를 사용하여 증명사진에서 텍스트를 추출하는 방법을 알아보았습니다. OCR 기술을 활용하면 다양한 사진에서 텍스트를 추출하여 자동화된 작업을 수행할 수 있습니다. PyTesseract는 이러한 작업을 간편하게 처리할 수 있는 훌륭한 도구입니다.

PyTesseract란?

PyTesseract 설치하기

증명사진에서 텍스트 추출하기

결론

참고 자료