[python] 파이썬으로 워드 문서에서 이미지 찾기

워드 문서는 텍스트 뿐만 아니라 이미지도 포함할 수 있습니다. 때때로 워드 문서에서 특정 이미지를 찾아야 할 때가 있습니다. 이번 포스트에서는 파이썬을 사용하여 워드 문서에서 이미지를 찾는 방법에 대해 알아보겠습니다.

필요한 패키지 설치

먼저 파이썬에서 워드 문서를 다루기 위해 python-docx 패키지를 설치해야 합니다. 다음 명령을 사용하여 설치할 수 있습니다:

pip install python-docx

이미지 찾기

이제 python-docx 패키지를 사용하여 워드 문서에서 이미지를 찾을 수 있습니다. 다음은 이미지를 찾는 간단한 예제 코드입니다:

from docx import Document

def find_images_in_document(doc_path):
    doc = Document(doc_path)
    images = []

    for element in doc.element.body.iter():
        if element.tag.endswith('}r'):
            for child in element:
                if child.tag.endswith('}pict'):
                    for item in child:
                        if item.tag.endswith('}blip'):
                            image_id = item.attrib['{http://schemas.openxmlformats.org/officeDocument/2006/relationships}embed']
                            images.append(doc.part.related_parts[image_id].content_type)

    return images

doc_path = 'example.docx'
images = find_images_in_document(doc_path)
print(images)

위의 예제 코드에서는 Document 클래스를 사용하여 워드 문서를 열고, element.body.iter()를 사용하여 문서의 모든 요소를 순회합니다. 각 요소가 이미지인지 확인하고, 이미지이면 blip 태그를 찾아 해당 이미지의 ID를 가져옵니다. 마지막으로 이미지의 ID를 사용하여 이미지의 콘텐츠 유형을 얻습니다.

위의 코드를 실행하면 워드 문서에서 사용된 모든 이미지의 콘텐츠 유형이 출력됩니다.

결론

파이썬을 사용하여 워드 문서에서 이미지를 찾는 방법에 대해 알아보았습니다. python-docx 패키지를 사용하여 워드 문서를 처리할 수 있으며, 위의 예제 코드를 활용하여 이미지를 찾을 수 있습니다.