[python] PyTesseract를 사용하여 이미지에 있는 특정 단어 또는 문구 찾기

22 Nov 2023

python

이미지 처리를 위해 Python에서 널리 사용되는 PyTesseract라이브러리는 OCR (광학 문자 인식) 기술을 사용하여 이미지에 있는 텍스트를 추출하는 데 도움이 됩니다. 이 기능을 사용하여 이미지에서 특정 단어 또는 문구를 찾는 방법을 알아보겠습니다.

1. PyTesseract 설치

먼저, PyTesseract를 설치해야 합니다. 다음 명령어를 사용하여 PyTesseract를 설치할 수 있습니다.

pip install pytesseract

추가적으로, Tesseract OCR이 설치되어 있어야 합니다. 이는 PyTesseract가 Tesseract OCR을 호출하여 이미지에서 텍스트를 추출하기 때문입니다. Tesseract OCR은 공식 레포지토리에서 다운로드 받을 수 있습니다.

2. 이미지에서 텍스트 추출하기

다음은 PyTesseract를 사용하여 이미지에서 텍스트를 추출하는 간단한 코드입니다.

import pytesseract
from PIL import Image

# 이미지 파일을 열고 OCR을 사용하여 텍스트 추출
def extract_text_from_image(image_path):
    img = Image.open(image_path)
    text = pytesseract.image_to_string(img)
    return text

# 텍스트 추출 함수를 호출하여 이미지 파일에서 텍스트 추출
result = extract_text_from_image('image.jpg')
print(result)

위 코드에서 image.jpg는 텍스트를 추출하고자 하는 이미지 파일의 경로입니다. image_to_string() 함수는 이미지에서 텍스트를 추출하여 반환합니다.

3. 특정 단어 또는 문구 찾기

이제 이미지에서 특정 단어 또는 문구를 찾는 방법을 알아보겠습니다. 다음은 이미지에서 특정 단어가 있는지 확인하는 함수의 예입니다.

def find_word_in_image(image_path, word):
    text = extract_text_from_image(image_path)
    if word in text:
        return f"'{word}'를 찾았습니다!"
    else:
        return f"'{word}'를 찾을 수 없습니다."

# 이미지에서 'Hello World'라는 문구를 찾는 함수 호출
result = find_word_in_image('image.jpg', 'Hello World')
print(result)

위 코드에서 find_word_in_image() 함수는 이미지에서 텍스트를 추출한 후 주어진 단어가 있는지 검사합니다. 만약 해당 단어가 텍스트에 포함되어 있다면 'Word를 찾았습니다!'라는 메시지가 출력되고, 그렇지 않다면 'Word를 찾을 수 없습니다.'라는 메시지가 출력됩니다.

이제 PyTesseract를 사용하여 이미지에서 특정 단어나 문구를 찾는 방법을 알게 되었습니다. 이를 활용하여 이미지 처리 관련 프로젝트에서 유용하게 활용할 수 있습니다.