[python] PDF 파일에서 특정 키워드 검색하기
PDF 파일은 텍스트를 포함한 문서를 저장하는 데 자주 사용되는 형식입니다. 때로는 PDF 파일에서 특정 키워드를 검색해야 할 때가 있습니다. 이 글에서는 Python을 사용하여 PDF 파일에서 특정 키워드를 검색하는 방법에 대해 알아보겠습니다.
필요한 라이브러리 설치
PDF 파일을 다루기 위해서는 PyPDF2
라이브러리를 설치해야 합니다. pip
을 사용하여 다음과 같이 설치할 수 있습니다:
pip install PyPDF2
코드 구현
다음은 PDF 파일에서 특정 키워드를 검색하는 Python 코드의 예입니다:
import PyPDF2
def search_keyword_in_pdf(pdf_file, keyword):
with open(pdf_file, 'rb') as file:
pdf_reader = PyPDF2.PdfReader(file)
for page_number in range(len(pdf_reader.pages)):
page = pdf_reader.pages[page_number]
text = page.extractText()
if keyword in text:
print(f"키워드 '{keyword}'가 페이지 {page_number + 1}에서 발견되었습니다.")
위 코드에서 pdf_file
변수에는 검색하려는 PDF 파일의 경로를, keyword
변수에는 검색하려는 키워드를 입력하면 됩니다.
사용 예시
다음은 해당 코드를 사용하여 PDF 파일에서 “Python”이라는 키워드를 검색하는 예시입니다:
pdf_file = 'example.pdf'
keyword = 'Python'
search_keyword_in_pdf(pdf_file, keyword)
위 예시 코드를 실행하면, “Python”이라는 키워드가 어떤 페이지에 있는지 출력됩니다.