[python] PyTesseract를 사용하여 심리 테스트지의 질문과 답변 추출하기

22 Nov 2023

python

PyTesseract는 Python에서 Tesseract OCR 엔진을 사용할 수 있게 해주는 라이브러리입니다. 이번에는 PyTesseract를 활용하여 심리 테스트지에서 질문과 답변을 추출하는 방법에 대해 알아보겠습니다.

필요한 패키지 설치하기

pip install pytesseract
pip install pillow

이미지에서 텍스트 추출하기

import pytesseract
from PIL import Image

# 이미지 불러오기
image = Image.open('test_paper.png')

# 이미지에서 텍스트 추출하기
text = pytesseract.image_to_string(image, lang='kor')

print(text)

추출된 텍스트 가공하기

# 추출된 텍스트를 줄바꿈 문자 '\n' 기준으로 나누어 리스트로 저장하기
lines = text.split('\n')

# 질문과 답변 추출하기
questions = []
answers = []

for line in lines:
    if line.endswith('?'):
        questions.append(line)
    else:
        answers.append(line)

# 결과 출력하기
print("질문:")
for q in questions:
    print(q)

print("\n답변:")
for a in answers:
    print(a)

추출된 텍스트를 가공하여 줄바꿈 문자로 나눈 후 질문과 답변을 구분하여 추출하는 예제 코드입니다.

추가 팁

이미지의 품질이나 배경 등이 추출 품질에 영향을 미칠 수 있으므로, 이미지 전처리 기술을 적용하여 추출 결과를 개선할 수 있습니다.
Tesseract는 영어, 한국어를 비롯한 다양한 언어를 지원합니다. lang 매개변수를 통해 언어를 지정할 수 있습니다.