[python] PyTesseract를 사용하여 패스포트에서 텍스트 추출하기

22 Nov 2023

python

이 블로그 포스트에서는 PyTesseract라는 Python 라이브러리를 사용하여 패스포트에서 텍스트를 추출하는 방법을 알아보겠습니다. PyTesseract는 Google의 Tesseract OCR(광학 문자 인식) 엔진을 Python에서 사용할 수 있게 해주는 패키지입니다.

필요한 패키지 설치하기

먼저, PyTesseract를 사용하기 위해 필요한 패키지를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install pytesseract

또한, Tesseract OCR 엔진도 설치해야 합니다. 설치에 관한 자세한 내용은 여기를 참조하십시오.

이미지에서 텍스트 추출하기

이제 PyTesseract를 사용하여 패스포트 이미지에서 텍스트를 추출해보겠습니다. 먼저, 다음과 같은 이미지(passport.jpg)를 가지고 작업을 진행하겠습니다.

passport

아래의 코드에서는 pytesseract.image_to_string 함수를 사용하여 이미지에서 텍스트를 추출합니다.

import pytesseract
from PIL import Image

image_path = "passport.jpg"
image = Image.open(image_path)
text = pytesseract.image_to_string(image)

print(text)

위의 코드를 실행하면, 패스포트 이미지에서 추출된 텍스트가 콘솔에 출력됩니다.

결과 확인하기

위의 코드를 실행하면 아래와 같이 패스포트에서 추출된 텍스트를 확인할 수 있습니다.

REPUBLIC OF KOREA
P< KOR
BOO-30499999<<<<99
5909056M2107190KOR8508022M3400804<<<<<<<<<<<<<<<4
DOE<<JOHN<EUAN<<<<<<<<<

결론

PyTesseract를 사용하면 쉽게 이미지에서 텍스트를 추출할 수 있습니다. 패스포트와 같이 텍스트를 추출해야 하는 다양한 상황에서 유용하게 사용할 수 있으니, 필요한 경우에는 이 라이브러리를 사용해 보시기 바랍니다.

참고 자료