[python] python-pptx PPT 파일 텍스트 추출하기
많은 비즈니스 프리젠테이션에서는 PPT 파일로 작성되어 있습니다. 이러한 PPT 파일에서 텍스트를 추출하여 분석하거나 다른 용도로 사용할 수 있습니다. Python을 사용하여 PPT 파일의 텍스트를 추출하는 방법을 알아보겠습니다.
python-pptx 라이브러리 설치하기
먼저, python-pptx 라이브러리를 설치해야 합니다. 다음 명령을 사용하여 설치할 수 있습니다.
pip install python-pptx
PPT 파일 열기
python-pptx 라이브러리를 사용하여 PPT 파일을 열 수 있습니다. 다음과 같은 코드를 사용할 수 있습니다.
from pptx import Presentation
# PPT 파일 열기
ppt = Presentation('example.pptx')
위의 코드에서 ‘example.pptx’는 실제 파일 경로에 맞게 변경해야 합니다.
텍스트 추출하기
PPT 파일에서 텍스트를 추출하기 위해서는 슬라이드와 문단을 반복하여 텍스트를 가져와야 합니다. 다음은 텍스트를 추출하는 예시 코드입니다.
texts = []
# 각 슬라이드에서 텍스트 추출하기
for slide in ppt.slides:
for shape in slide.shapes:
if shape.has_text_frame:
for paragraph in shape.text_frame.paragraphs:
for run in paragraph.runs:
texts.append(run.text)
위의 코드를 실행하면, ‘texts’ 리스트에 모든 텍스트가 저장됩니다.
결과 확인하기
추출한 텍스트를 확인하기 위해 다음과 같은 코드를 사용할 수 있습니다.
for text in texts:
print(text)
위의 코드를 실행하면, 추출한 모든 텍스트가 출력됩니다.
마무리
이렇게 python-pptx 라이브러리를 사용하여 PPT 파일에서 텍스트를 추출하는 방법을 알아보았습니다. 이를 활용하여 PPT 파일의 내용을 분석하거나 다른 용도로 활용할 수 있습니다.
더 자세한 정보는 python-pptx 공식 문서를 참조하시기 바랍니다.