[python] PDF 파일에서 이미지 유형 추출하기

PDF 파일은 일반적으로 텍스트, 이미지, 그래픽 등 다양한 유형의 데이터를 포함할 수 있습니다. 이 중에서 이미지 유형을 추출하고 싶다면 Python을 사용하여 간단하게 할 수 있습니다. 이번 블로그 포스트에서는 pdf2image 라이브러리를 사용하여 PDF 파일에서 이미지 유형을 추출하는 방법에 대해 알아보겠습니다.

1. pdf2image 라이브러리 설치하기

먼저, pdf2image 라이브러리를 설치해야 합니다. 아래 명령을 사용하여 pip를 통해 라이브러리를 설치할 수 있습니다.

pip install pdf2image

2. PDF 파일에서 이미지 추출하기

이제, pdf2image 라이브러리를 사용하여 PDF 파일에서 이미지를 추출하는 코드를 작성해보겠습니다.

from pdf2image import convert_from_path

def extract_images_from_pdf(pdf_path, output_path):
    images = convert_from_path(pdf_path)
    
    for i, image in enumerate(images):
        image.save(f"{output_path}/image_{i+1}.jpg", "JPEG")
        print(f"Extracted image {i+1}")

# PDF 파일 경로와 이미지를 저장할 경로를 지정합니다.
pdf_path = "example.pdf"
output_path = "output"

# 이미지 추출 함수 호출
extract_images_from_pdf(pdf_path, output_path)

위 코드에서 pdf_path 변수에는 추출할 PDF 파일의 경로를 지정하고, output_path 변수에는 추출한 이미지를 저장할 폴더 경로를 지정합니다. 추출한 이미지는 JPEG 형식으로 저장됩니다. 추출된 이미지의 파일명은 image_1.jpg, image_2.jpg와 같이 순차적으로 저장됩니다.

추출한 이미지의 개수에 따라 콘솔에 메시지가 출력됩니다.

3. 실행 및 결과 확인

위 코드를 실행하면, 지정한 PDF 파일에서 이미지를 추출하여 지정한 폴더에 저장합니다. 추출된 이미지를 확인하고 싶다면, output_path로 지정한 폴더를 확인해보세요.

이번 포스트에서는 Python의 pdf2image 라이브러리를 사용하여 PDF 파일에서 이미지 유형을 추출하는 방법을 알아보았습니다. 이 방법을 활용하면 PDF 파일에서 다양한 이미지를 추출할 수 있으며, 필요에 따라 해당 이미지를 활용할 수 있습니다.