[python] PDF 파일 정보 가져오기

이번 글에서는 Python을 사용하여 PDF 파일에서 정보를 가져오는 방법에 대해 알아보겠습니다.

필요한 패키지 설치하기

PDF 파일의 정보를 가져오기 위해서는 PyPDF2 패키지가 필요합니다. 아래의 명령어를 사용하여 패키지를 설치해주세요.

pip install PyPDF2

PDF 파일 정보 가져오기

import PyPDF2

# PDF 파일 열기
pdf_file = open('example.pdf', 'rb')

# PDF 리더 객체 생성
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# PDF 파일 정보 가져오기
num_pages = pdf_reader.numPages
document_info = pdf_reader.getDocumentInfo()

# 가져온 정보 출력하기
print("페이지 수:", num_pages)
print("제목:", document_info.title)
print("저자:", document_info.author)
print("생성일:", document_info.created)
print("수정일:", document_info.modified)

# PDF 파일 닫기
pdf_file.close()

위의 코드에서는 PyPDF2 패키지를 사용하여 PDF 파일을 열고, 리더 객체를 생성한 후에 numPages 메서드를 사용하여 페이지 수를 가져옵니다. 또한 getDocumentInfo 메서드를 사용하여 PDF 문서의 제목, 저자, 생성일, 수정일 등의 정보를 가져옵니다.

참고 자료