[python] PyTesseract를 사용하여 심리 테스트지의 질문과 답변 추출하기

Tesseract 로고

PyTesseract는 Python에서 Tesseract OCR 엔진을 사용할 수 있게 해주는 라이브러리입니다. 이번에는 PyTesseract를 활용하여 심리 테스트지에서 질문과 답변을 추출하는 방법에 대해 알아보겠습니다.

필요한 패키지 설치하기

pip install pytesseract
pip install pillow

이미지에서 텍스트 추출하기

import pytesseract
from PIL import Image

# 이미지 불러오기
image = Image.open('test_paper.png')

# 이미지에서 텍스트 추출하기
text = pytesseract.image_to_string(image, lang='kor')

print(text)

추출된 텍스트 가공하기

# 추출된 텍스트를 줄바꿈 문자 '\n' 기준으로 나누어 리스트로 저장하기
lines = text.split('\n')

# 질문과 답변 추출하기
questions = []
answers = []

for line in lines:
    if line.endswith('?'):
        questions.append(line)
    else:
        answers.append(line)

# 결과 출력하기
print("질문:")
for q in questions:
    print(q)

print("\n답변:")
for a in answers:
    print(a)

추출된 텍스트를 가공하여 줄바꿈 문자로 나눈 후 질문과 답변을 구분하여 추출하는 예제 코드입니다.

추가 팁