[python] python-pptx PPT 파일 텍스트 추출하기

많은 비즈니스 프리젠테이션에서는 PPT 파일로 작성되어 있습니다. 이러한 PPT 파일에서 텍스트를 추출하여 분석하거나 다른 용도로 사용할 수 있습니다. Python을 사용하여 PPT 파일의 텍스트를 추출하는 방법을 알아보겠습니다.

python-pptx 라이브러리 설치하기

먼저, python-pptx 라이브러리를 설치해야 합니다. 다음 명령을 사용하여 설치할 수 있습니다.

pip install python-pptx

PPT 파일 열기

python-pptx 라이브러리를 사용하여 PPT 파일을 열 수 있습니다. 다음과 같은 코드를 사용할 수 있습니다.

from pptx import Presentation

# PPT 파일 열기
ppt = Presentation('example.pptx')

위의 코드에서 ‘example.pptx’는 실제 파일 경로에 맞게 변경해야 합니다.

텍스트 추출하기

PPT 파일에서 텍스트를 추출하기 위해서는 슬라이드와 문단을 반복하여 텍스트를 가져와야 합니다. 다음은 텍스트를 추출하는 예시 코드입니다.

texts = []

# 각 슬라이드에서 텍스트 추출하기
for slide in ppt.slides:
    for shape in slide.shapes:
        if shape.has_text_frame:
            for paragraph in shape.text_frame.paragraphs:
                for run in paragraph.runs:
                    texts.append(run.text)

위의 코드를 실행하면, ‘texts’ 리스트에 모든 텍스트가 저장됩니다.

결과 확인하기

추출한 텍스트를 확인하기 위해 다음과 같은 코드를 사용할 수 있습니다.

for text in texts:
    print(text)

위의 코드를 실행하면, 추출한 모든 텍스트가 출력됩니다.

마무리

이렇게 python-pptx 라이브러리를 사용하여 PPT 파일에서 텍스트를 추출하는 방법을 알아보았습니다. 이를 활용하여 PPT 파일의 내용을 분석하거나 다른 용도로 활용할 수 있습니다.

더 자세한 정보는 python-pptx 공식 문서를 참조하시기 바랍니다.