[python] PyTesseract에서 지원하는 언어 및 인식률

22 Nov 2023

python

PyTesseract는 Python에서 사용할 수 있는 OCR(광학 문자 인식) 라이브러리입니다. 이 라이브러리를 사용하면 이미지나 PDF와 같은 문서에서 텍스트를 추출할 수 있습니다. 하지만 PyTesseract는 모든 언어를 지원하진 않으며, 인식률도 언어에 따라 다를 수 있습니다.

지원하는 언어

PyTesseract는 Tesseract OCR 엔진을 기반으로 동작하며, Tesseract는 다양한 언어를 지원합니다. 몇몇 주요 언어는 아래와 같습니다.

영어
한국어
중국어 (간체 및 번체)
일본어
독일어
프랑스어
스페인어
이탈리아어
포르투갈어
러시아어
그리스어
터키어
태국어

위의 언어를 포함하여, 총 100여 개 이상의 언어를 인식할 수 있습니다.

인식률

PyTesseract의 인식률은 언어에 따라 다르며, 일반적으로 영어와 같은 주요 언어의 경우 높은 인식률을 보여줍니다. 그러나 어떤 언어는 인식률이 낮을 수 있고, 특히 복잡한 구조를 가진 언어나 손글씨와 같이 인식이 어려운 경우에는 인식률이 떨어질 수 있습니다.

인식률을 높이기 위해서는 이미지의 해상도와 텍스트의 깨끗한 정렬, 폰트의 일관된 사용 등을 고려해야 합니다. 또한, 언어에 따라 Tesseract OCR 엔진의 설정을 조정하여 인식률을 개선할 수도 있습니다.

PyTesseract를 사용하여 언어를 인식하고 텍스트를 추출할 때에는 언어의 특성과 인식률을 고려하여 적절한 전처리와 설정을 해주는 것이 중요합니다.

지원하는 언어

인식률

참고 자료