[python] PyPDF2와 tabula-py 라이브러리 사용 예시

이번 포스트에서는 PyPDF2와 tabula-py 라이브러리를 사용하여 PDF 파일에서 텍스트와 테이블을 추출하는 방법을 알아보겠습니다. PyPDF2는 PDF 파일을 다루는 데 사용되는 강력한 라이브러리이고, tabula-py는 PDF 파일에서 테이블을 추출하는 데 특화된 라이브러리입니다.

목차

PyPDF2 라이브러리 설치

먼저 PyPDF2 라이브러리를 설치해야 합니다. 다음 명령을 사용하여 설치할 수 있습니다:

pip install PyPDF2

tabula-py 라이브러리 설치

다음으로 tabula-py 라이브러리를 설치합니다. 다음 명령을 사용하여 설치할 수 있습니다:

pip install tabula-py

PDF 파일에서 텍스트 추출하기

PyPDF2를 사용하여 PDF 파일에서 텍스트를 추출하는 방법은 다음과 같습니다:

import PyPDF2

# PDF 파일 열기
with open('example.pdf', 'rb') as file:
    reader = PyPDF2.PdfFileReader(file)
    # 페이지 수
    num_pages = reader.numPages

    # 각 페이지의 텍스트 출력
    for page in range(num_pages):
        page_obj = reader.getPage(page)
        print(page_obj.extractText())

PDF 파일에서 테이블 추출하기

tabula-py를 사용하여 PDF 파일에서 테이블을 추출하는 방법은 다음과 같습니다:

import tabula

# PDF 파일에서 테이블 추출
tables = tabula.read_pdf('example.pdf', pages='all')

# 추출된 테이블 출력
for table in tables:
    print(table)

이제 PyPDF2와 tabula-py 라이브러리를 사용하여 PDF 파일에서 텍스트와 테이블을 추출하는 방법에 대해 알아보았습니다. 이를 응용하여 다양한 작업을 수행할 수 있습니다. 자세한 내용은 각 라이브러리의 공식 문서를 참조하시기 바랍니다.

참고 자료