[python] PyTesseract를 사용하여 건축 도면에서 텍스트 추출하기

22 Nov 2023

python

이번 포스트에서는 Python의 PyTesseract 라이브러리를 사용하여 건축 도면에서 텍스트를 추출하는 방법에 대해 알아보겠습니다. PyTesseract는 Tesseract OCR 엔진을 Python에서 사용할 수 있도록 해주는 라이브러리입니다. Tesseract OCR 엔진은 이미지에서 텍스트를 인식하는 데에 사용되는 강력한 오픈 소스 엔진입니다.

1. PyTesseract 설치하기

먼저, PyTesseract를 설치해야 합니다. 아래의 명령을 사용하여 PyTesseract를 설치할 수 있습니다.

pip install pytesseract

그리고 Tesseract OCR 엔진도 설치해야 합니다. 아래의 링크에서 해당하는 운영체제에 맞추어 설치할 수 있습니다.

Tesseract OCR 설치 링크

2. 이미지에서 텍스트 추출하기

이제 PyTesseract를 사용하여 이미지에서 텍스트를 추출해보겠습니다. 먼저, 아래의 코드를 사용하여 PyTesseract 모듈을 import 합니다.

import pytesseract

다음으로, 이미지 파일을 로드합니다.

from PIL import Image

image = Image.open('도면.png')

이제 PyTesseract를 사용하여 이미지에서 텍스트를 추출합니다.

text = pytesseract.image_to_string(image, lang='eng')
print(text)

위의 코드에서 lang 매개변수를 사용하여 언어를 지정할 수 있습니다. eng은 영어를 의미합니다. 추출된 텍스트는 문자열로 반환되며, 이를 원하는 대로 처리할 수 있습니다.

3. 결론

이번 포스트에서는 PyTesseract를 사용하여 건축 도면에서 텍스트를 추출하는 방법을 알아보았습니다. PyTesseract는 강력한 OCR 엔진 Tesseract를 Python에서 쉽게 사용할 수 있도록 해주는 라이브러리입니다. 이를 통해 건축 도면이나 다른 이미지에서 텍스트를 추출하여 활용할 수 있습니다.

※ 이 예제는 Python 3.x 버전에서 작성되었습니다.

1. PyTesseract 설치하기

2. 이미지에서 텍스트 추출하기

3. 결론

참고자료