[python] 파이썬으로 워드 문서 상세 정보 확인하기

이번에는 파이썬을 사용하여 워드 문서의 상세 정보를 확인하는 방법에 대해 알아보겠습니다. 워드 문서는 일반적으로 .docx 형식으로 저장되며, 파이썬의 python-docx 라이브러리를 이용하여 이러한 문서의 내용, 표, 이미지 등 다양한 정보를 추출할 수 있습니다.

1. python-docx 라이브러리 설치하기

먼저, python-docx 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install python-docx

2. 워드 문서 열기

python-docx 라이브러리를 사용하여 워드 문서를 열어봅시다. 다음은 해당하는 워드 문서를 열고, Document 객체를 얻는 예제입니다.

from docx import Document

doc = Document('example.docx')

3. 문서 정보 확인하기

이제 워드 문서의 상세 정보를 확인해봅시다. 예를 들어, 문서의 제목, 작성자, 생성 일자 등을 확인할 수 있습니다.

# 문서 제목 확인
title = doc.core_properties.title
print(f"문서 제목: {title}")

# 작성자 확인
author = doc.core_properties.author
print(f"작성자: {author}")

# 생성 일자 확인
created = doc.core_properties.created
print(f"생성 일자: {created}")

이 외에도 다양한 정보를 확인할 수 있으며, python-docx의 공식 문서를 참고하여 추가적인 정보를 얻을 수도 있습니다.

4. 문서 내용 확인하기

문서의 내용은 각 문단(Paragraph)으로 나누어져 있습니다. 각 문단의 텍스트를 확인하려면 다음과 같이 코드를 작성할 수 있습니다.

for paragraph in doc.paragraphs:
    text = paragraph.text
    print(text)

이 외에도 표, 이미지 등 워드 문서의 다른 요소들을 추출하는 방법에 대해서는 python-docx의 공식 문서를 참고하시기 바랍니다.

5. 마무리

이렇게 파이썬을 사용하여 워드 문서의 상세 정보를 확인하는 방법을 알아보았습니다. python-docx 라이브러리를 활용하면 편리하게 워드 문서의 다양한 정보를 추출할 수 있으니, 프로젝트나 업무에서 유용하게 활용해보시기 바랍니다.

참고 문서: