이미지에서 텍스트를 추출하는 것은 많은 자동화 작업에 유용합니다. 교육 자료를 예로 들어보면, 슬라이드에 있는 텍스트를 추출하여 자동으로 요약을 작성하거나, 검색 가능한 텍스트로 변환하여 사용할 수 있습니다.
이 문서에서는 Python의 pytesseract
패키지를 사용하여 교육 자료의 슬라이드에서 텍스트를 추출하는 방법에 대해 알아보겠습니다.
필요한 패키지 설치하기
pytesseract
를 사용하기 위해 먼저 Tesseract OCR 엔진을 설치해야 합니다. 다음 명령을 사용하여 설치할 수 있습니다.
pip install pytesseract
또한 OCR 엔진이 이미지를 처리하기 위해 Pillow 패키지도 설치해야 합니다.
pip install pillow
이미지에서 텍스트 추출하기
이제 pytesseract
를 사용하여 이미지에서 텍스트를 추출해보겠습니다. 먼저 다음 코드를 사용하여 필요한 패키지를 import 합니다.
import pytesseract
from PIL import Image
다음으로 추출할 이미지를 로드합니다. 예를 들어, “slide.jpg”라는 이미지 파일을 로드하는 경우:
image = Image.open('slide.jpg')
이미지를 OCR 엔진에 전달하여 텍스트를 추출합니다.
text = pytesseract.image_to_string(image, lang='eng')
여기서 lang
매개변수는 추출할 언어를 지정합니다. 위의 예제에서는 영어(eng
)를 사용하였습니다.
추출된 텍스트는 text
변수에 저장되어 있습니다.
텍스트 출력하기
텍스트를 추출한 후, 원하는 방식으로 출력할 수 있습니다. 예를 들어, 다음과 같이 텍스트를 콘솔에 출력할 수 있습니다.
print(text)
결론
pytesseract
패키지를 사용하여 교육 자료의 슬라이드에서 텍스트를 추출하는 방법을 알아보았습니다. 이를 통해 교육 자료를 효율적으로 활용하거나 자동화 작업에 활용할 수 있습니다.
더 자세한 내용은 pytesseract 패키지의 공식 문서를 참조하시기 바랍니다.