[python] PyPDF2와 tabula-py 라이브러리 사용 예시
이번 포스트에서는 PyPDF2와 tabula-py 라이브러리를 사용하여 PDF 파일에서 텍스트와 테이블을 추출하는 방법을 알아보겠습니다. PyPDF2는 PDF 파일을 다루는 데 사용되는 강력한 라이브러리이고, tabula-py는 PDF 파일에서 테이블을 추출하는 데 특화된 라이브러리입니다.
목차
PyPDF2 라이브러리 설치
먼저 PyPDF2 라이브러리를 설치해야 합니다. 다음 명령을 사용하여 설치할 수 있습니다:
pip install PyPDF2
tabula-py 라이브러리 설치
다음으로 tabula-py 라이브러리를 설치합니다. 다음 명령을 사용하여 설치할 수 있습니다:
pip install tabula-py
PDF 파일에서 텍스트 추출하기
PyPDF2를 사용하여 PDF 파일에서 텍스트를 추출하는 방법은 다음과 같습니다:
import PyPDF2
# PDF 파일 열기
with open('example.pdf', 'rb') as file:
reader = PyPDF2.PdfFileReader(file)
# 페이지 수
num_pages = reader.numPages
# 각 페이지의 텍스트 출력
for page in range(num_pages):
page_obj = reader.getPage(page)
print(page_obj.extractText())
PDF 파일에서 테이블 추출하기
tabula-py를 사용하여 PDF 파일에서 테이블을 추출하는 방법은 다음과 같습니다:
import tabula
# PDF 파일에서 테이블 추출
tables = tabula.read_pdf('example.pdf', pages='all')
# 추출된 테이블 출력
for table in tables:
print(table)
이제 PyPDF2와 tabula-py 라이브러리를 사용하여 PDF 파일에서 텍스트와 테이블을 추출하는 방법에 대해 알아보았습니다. 이를 응용하여 다양한 작업을 수행할 수 있습니다. 자세한 내용은 각 라이브러리의 공식 문서를 참조하시기 바랍니다.