[c++] Tesseract OCR 라이브러리 활용 방법
Tesseract OCR는 오픈 소스 OCR(광학 문자 인식) 엔진으로, 이미지나 스캔된 문서에서 텍스트를 추출할 수 있습니다. 이 라이브러리는 C++을 포함한 여러 개발 언어에서 사용할 수 있으며, 사용자 친화적인 API를 제공합니다. 본 포스트에서는 Tesseract OCR 라이브러리를 C++로 어떻게 사용할 수 있는지에 대해 알아보겠습니다.
Tesseract OCR 라이브러리 설치
Tesseract OCR 라이브러리를 사용하기 위해서는 먼저 해당 라이브러리를 설치해야 합니다.
sudo apt-get install tesseract-ocr
sudo apt-get install libtesseract-dev
Tesseract OCR 라이브러리를 이용한 이미지 텍스트 추출
Tesseract OCR 라이브러리를 사용하여 이미지에서 텍스트를 추출하려면 다음과 같은 간단한 코드를 작성할 수 있습니다.
#include <tesseract/baseapi.h>
#include <leptonica/allheaders.h>
int main() {
tesseract::TessBaseAPI* api = new tesseract::TessBaseAPI();
if (api->Init(NULL, "eng")) {
fprintf(stderr, "Could not initialize tesseract.\n");
exit(1);
}
Pix* image = pixRead("image.png");
api->SetImage(image);
char* outText = api->GetUTF8Text();
printf("OCR Output: %s", outText);
api->End();
delete [] outText;
pixDestroy(&image);
return 0;
}
위 코드는 image.png
에서 텍스트를 추출하는 간단한 예제입니다. 먼저 Tesseract API를 초기화하고 이미지를 로드한 다음, GetUTF8Text
함수를 호출하여 이미지에서 추출된 텍스트를 가져옵니다.
요약
이상으로 Tesseract OCR 라이브러리를 C++에서 사용하는 간단한 방법에 대해 알아보았습니다. 더 많은 기능과 옵션에 대해서는 공식 문서를 참고하시기 바랍니다.
참고 문헌:
- Tesseract OCR 공식 문서: https://tesseract-ocr.github.io/tessdoc/Home.html