[python] python-pptx PPT 파일 내용 추출하기

파이썬에서는 python-pptx라는 라이브러리를 사용하여 PPT 파일의 내용을 추출할 수 있습니다. python-pptx는 PPT 파일을 생성, 수정 및 읽기 위한 라이브러리로, 강력하고 사용하기 쉬운 기능을 제공합니다.

python-pptx 설치하기

python-pptx를 사용하기 위해서는 먼저 해당 라이브러리를 설치해야 합니다. 다음 명령어를 사용하여 python-pptx를 설치할 수 있습니다.

pip install python-pptx

PPT 파일 내용 추출하기

python-pptx를 사용하여 PPT 파일의 내용을 추출하는 방법은 다음과 같습니다.

from pptx import Presentation

# PPT 파일 열기
presentation = Presentation('example.pptx')

# PPT 슬라이드 순회하기
for slide in presentation.slides:
    # 슬라이드 안의 텍스트 순회하기
    for shape in slide.shapes:
        if shape.has_text_frame:
            # 텍스트 프레임 추출하기
            text_frame = shape.text_frame
            # 텍스트 추출하기
            for paragraph in text_frame.paragraphs:
                for run in paragraph.runs:
                    print(run.text)

위의 예제 코드를 실행하면, ‘example.pptx’ 파일의 내용이 추출되어 출력됩니다.

추가적인 기능 활용하기

python-pptx는 PPT 파일을 읽기만 할 수 있는게 아니라, 수정 및 새로운 PPT 파일을 생성하는 기능도 제공합니다. 이를 통해 PPT 파일을 다양한 형태로 변환하거나, 원하는 내용을 추출하는 작업을 할 수 있습니다. 더 많은 기능과 사용법에 대해서는 python-pptx 공식 문서를 참고하시기 바랍니다.

이제 python-pptx라이브러리를 사용하여 PPT 파일의 내용을 추출하는 방법에 대해 알아보았습니다. 이를 활용하여 PPT 파일을 자동으로 분석하거나 처리하는 등 다양한 작업을 수행할 수 있습니다.