[python] PyTesseract를 사용하여 유튜브 비디오 자막 추출하기

22 Nov 2023

python

유튜브 비디오 자막은 다양한 목적으로 사용될 수 있습니다. 예를 들어, 자막을 활용하여 다른 언어로 번역하는 작업을 수행하거나, 검색 엔진 최적화를 위해 텍스트 데이터로 변환하는 등 다양한 용도로 활용할 수 있습니다. 이번 글에서는 Python의 PyTesseract 라이브러리를 사용하여 유튜브 비디오 자막을 추출하는 방법에 대해 알아보겠습니다.

필수 요소

Python 3.x
PyTesseract 라이브러리
OpenCV 라이브러리

PyTesseract란?

PyTesseract는 OCR(Optical Character Recognition) 엔진인 Tesseract를 Python에서 사용하기 쉽게 만든 라이브러리입니다. OCR 엔진은 이미지나 스캔된 문서에서 텍스트를 인식하고 추출할 수 있습니다. 따라서 PyTesseract를 사용하면 이미지 파일에 포함된 텍스트를 추출할 수 있습니다.

설치

먼저, PyTesseract와 OpenCV를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install pytesseract opencv-python

또한, Tesseract OCR Engine을 설치해야 합니다. 다음 웹사이트에서 운영 체제에 맞는 Tesseract를 다운로드 및 설치할 수 있습니다.

Windows: https://github.com/UB-Mannheim/tesseract/wiki
Mac: https://github.com/UB-Mannheim/tesseract/wiki
Linux: sudo apt-get install tesseract-ocr

이미지에서 텍스트 추출하기

이제 PyTesseract를 사용하여 유튜브 비디오 자막을 추출해보겠습니다. 사용할 이미지 파일을 준비하고, 아래와 같이 코드를 작성해보세요.

import cv2
import pytesseract

# 이미지 로드
image = cv2.imread('youtube_image.jpg')

# 이미지 전처리
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
gray = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]
gray = cv2.medianBlur(gray, 3)

# 이미지에서 텍스트 추출
text = pytesseract.image_to_string(gray, lang='eng')

# 추출된 텍스트 출력
print(text)

위의 코드에서는 pytesseract.image_to_string() 함수를 사용하여 이미지에서 텍스트를 추출합니다. lang 매개변수를 사용하여 언어를 지정할 수 있으며, 여기서는 영어(eng)를 사용하였습니다. 그러나 필요한 경우 언어를 변경할 수 있습니다.

결론

PyTesseract를 사용하여 유튜브 비디오 자막을 추출하는 방법을 알아보았습니다. 이를 활용하면 유용한 작업을 수행할 수 있으며, 다른 언어로 번역하거나 텍스트 데이터로 활용할 수 있습니다. 자막 데이터는 다양한 분야에서 유용하게 활용될 수 있으므로 이러한 기능을 응용하여 자신의 프로젝트나 작업에 활용해보세요.

참고 자료

PyTesseract 공식 문서: https://pypi.org/project/pytesseract/
OpenCV 공식 문서: https://docs.opencv.org/