[python] PyPDF2와 PDFMiner3k 라이브러리 비교 분석하기

30 Nov 2023

python

PDF 파일을 처리하는 데는 여러 라이브러리들이 존재합니다. 그 중에서도 PyPDF2와 PDFMiner3k는 인기 있는 라이브러리입니다. 이번 글에서는 이 두 라이브러리를 비교 분석하여 어떤 상황에서 어떤 라이브러리를 선택해야 하는지 알아보겠습니다.

1. PyPDF2

PyPDF2는 Python으로 PDF 파일을 다루기 위한 라이브러리입니다. 다음과 같은 기능들을 제공합니다:

PDF 파일 읽기: 페이지 추출, 텍스트 추출, 메타데이터 추출 등
PDF 파일 쓰기: 페이지 추가, 텍스트 추가, 이미지 추가 등
PDF 파일 편집: 페이지 삭제, 페이지 순서 변경, 텍스트 변경, 이미지 변경 등

PyPDF2는 사용이 간편하고 문서화가 잘 되어 있으며, 많은 기능들을 제공합니다. 하지만 한글 문자 인식률이 낮은 문제점이 있습니다.

PyPDF2 사용 예제:

import PyPDF2

# PDF 파일 읽기
with open('example.pdf', 'rb') as file:
    pdf = PyPDF2.PdfFileReader(file)
    num_pages = pdf.numPages
    first_page_text = pdf.getPage(0).extractText()
    print(f"Total pages: {num_pages}")
    print(f"First page text: {first_page_text}")

# PDF 파일 쓰기
new_pdf = PyPDF2.PdfFileWriter()
new_pdf.addPage(pdf.getPage(0))
with open('new_pdf.pdf', 'wb') as file:
    new_pdf.write(file)

2. PDFMiner3k

PDFMiner3k는 PDF 파일을 파싱하는 라이브러리로, PDF 파일의 구조를 이해하여 텍스트와 이미지를 추출할 수 있습니다. 다음과 같은 기능들을 제공합니다:

PDF 파일 읽기: 페이지 추출, 텍스트 추출, 이미지 추출 등
페이지 레이아웃 분석: 텍스트의 위치, 크기, 스타일 등을 파악할 수 있습니다.
텍스트 인코딩: 여러 언어의 텍스트를 정확하게 추출할 수 있습니다.

PDFMiner3k는 한글 문자의 인식률이 높고, 레이아웃 분석 기능을 제공하기 때문에 복잡한 PDF 파일을 처리할 때 유용합니다. 하지만 PyPDF2에 비해 사용법이 다소 복잡하고, 일부 기능이 부족한 경우도 있습니다.

PDFMiner3k 사용 예제:

import pdfminer
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

# PDF 파일 읽기
def pdf_to_text(pdf_path):
    rsrcmgr = PDFResourceManager()
    retstr = io.StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    with open(pdf_path, 'rb') as file:
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        for page in PDFPage.get_pages(file, check_extractable=True):
            interpreter.process_page(page)
        text = retstr.getvalue()
    device.close()
    retstr.close()
    return text

# PDF 파일의 텍스트 추출
text = pdf_to_text('example.pdf')
print(text)

3. 결론

PyPDF2와 PDFMiner3k는 모두 유용한 라이브러리이지만, 각각의 특징과 장단점이 있습니다. 다음은 선택 시 고려해야 할 사항입니다:

PyPDF2는 사용이 간편하고 많은 기능을 제공하지만, 한글 문자 인식률이 낮을 수 있습니다.
PDFMiner3k는 한글 문자 인식률이 높고 레이아웃 분석 기능을 제공하지만, 사용법이 복잡할 수 있고 일부 기능이 부족할 수도 있습니다.

따라서, 텍스트 추출 또는 쓰기 기능을 중점적으로 사용한다면 PyPDF2를 선택하는 것이 좋으며, 복잡한 PDF 파일의 텍스트와 레이아웃을 분석해야 한다면 PDFMiner3k를 선택하는 것이 좋습니다.

참고자료

PyPDF2 공식 문서: https://pythonhosted.org/PyPDF2/
PDFMiner3k 공식 문서: https://pdfminer-docs.readthedocs.io/