[python] PDF 파일에서 특정 키워드 검색하기

PDF 파일은 텍스트를 포함한 문서를 저장하는 데 자주 사용되는 형식입니다. 때로는 PDF 파일에서 특정 키워드를 검색해야 할 때가 있습니다. 이 글에서는 Python을 사용하여 PDF 파일에서 특정 키워드를 검색하는 방법에 대해 알아보겠습니다.

필요한 라이브러리 설치

PDF 파일을 다루기 위해서는 PyPDF2 라이브러리를 설치해야 합니다. pip을 사용하여 다음과 같이 설치할 수 있습니다:

pip install PyPDF2

코드 구현

다음은 PDF 파일에서 특정 키워드를 검색하는 Python 코드의 예입니다:

import PyPDF2

def search_keyword_in_pdf(pdf_file, keyword):
    with open(pdf_file, 'rb') as file:
        pdf_reader = PyPDF2.PdfReader(file)

        for page_number in range(len(pdf_reader.pages)):
            page = pdf_reader.pages[page_number]
            text = page.extractText()
            
            if keyword in text:
                print(f"키워드 '{keyword}'가 페이지 {page_number + 1}에서 발견되었습니다.")

위 코드에서 pdf_file 변수에는 검색하려는 PDF 파일의 경로를, keyword 변수에는 검색하려는 키워드를 입력하면 됩니다.

사용 예시

다음은 해당 코드를 사용하여 PDF 파일에서 “Python”이라는 키워드를 검색하는 예시입니다:

pdf_file = 'example.pdf'
keyword = 'Python'

search_keyword_in_pdf(pdf_file, keyword)

위 예시 코드를 실행하면, “Python”이라는 키워드가 어떤 페이지에 있는지 출력됩니다.

참고자료