[python] PyPDF2와 pdf2image 라이브러리 사용 예시

30 Nov 2023

python

PDF 파일을 처리하기 위해 PyPDF2와 pdf2image 라이브러리를 사용하는 방법을 알아보겠습니다. PyPDF2는 PDF 파일의 내용을 추출하고 수정하는 데 사용되며, pdf2image는 PDF 파일을 이미지로 변환하는 데 사용됩니다.

PyPDF2 설치하기

PyPDF2 라이브러리를 설치하기 위해서는 pip 명령어를 사용하여 아래와 같이 설치합니다.

pip install PyPDF2

pdf2image 설치하기

pdf2image 라이브러리를 설치하기 위해서는 pip 명령어를 사용하여 아래와 같이 설치합니다.

pip install pdf2image

PyPDF2로 PDF 내용 추출하기

PDF 파일의 내용을 추출하기 위해 PyPDF2를 사용하는 예시 코드입니다.

import PyPDF2

# PDF 파일 열기
with open('example.pdf', 'rb') as pdf_file:
    # PyPDF2 객체 생성
    pdf_reader = PyPDF2.PdfReader(pdf_file)

    # 페이지 수 출력
    print(f"페이지 수: {len(pdf_reader.pages)}")

    # 각 페이지의 텍스트 내용 출력
    for page in pdf_reader.pages:
        print(page.extract_text())

위의 코드는 ‘example.pdf’ 파일을 열고, 각 페이지의 텍스트를 추출하여 출력합니다.

pdf2image로 PDF를 이미지로 변환하기

PDF 파일을 이미지로 변환하기 위해 pdf2image를 사용하는 예시 코드입니다.

from pdf2image import convert_from_path

# PDF를 이미지로 변환
images = convert_from_path('example.pdf')

# 이미지를 파일로 저장
for i, image in enumerate(images):
    image.save(f'output{i}.jpg', 'JPEG')

위의 코드는 ‘example.pdf’ 파일을 읽어서 각 페이지를 이미지로 변환한 뒤, JPEG 형식으로 파일로 저장합니다.

PyPDF2 설치하기

pdf2image 설치하기

PyPDF2로 PDF 내용 추출하기

pdf2image로 PDF를 이미지로 변환하기

참고 자료