[python] PDF 파일에서 텍스트 유형 축소하기

30 Nov 2023

python

PDF 파일은 다양한 유형의 텍스트를 포함할 수 있습니다. 때로는 텍스트의 유형을 축소해서 특정한 유형의 텍스트만 사용하고 싶을 수 있습니다. 이 문서에서는 Python을 사용하여 PDF 파일에서 특정 유형의 텍스트를 추출하는 방법을 알아보겠습니다.

필요한 패키지 설치하기

먼저, PDF 파일에서 텍스트를 추출하기 위해 PyPDF2 패키지를 설치해야 합니다. 아래와 같이 pip 명령어를 사용하여 패키지를 설치할 수 있습니다.

pip install PyPDF2

PDF 파일에서 특정 유형의 텍스트 추출하기

다음은 PDF 파일에서 특정 유형의 텍스트를 추출하는 예제 코드입니다. 아래 코드를 참고하여 원하는 텍스트 유형을 추출할 수 있습니다.

import PyPDF2

def extract_text_from_pdf(file_path, target_type):
    with open(file_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfReader(file)
        text = ''
        for page in pdf_reader.pages:
            if target_type in page.extract_text():
                text += page.extract_text()
        return text

file_path = 'example.pdf'
target_type = '텍스트 유형'
extracted_text = extract_text_from_pdf(file_path, target_type)
print(extracted_text)

위 코드에서 file_path에는 대상 PDF 파일의 경로를, target_type에는 추출하고자 하는 텍스트 유형을 지정하면 됩니다. extract_text_from_pdf 함수를 호출하여 해당 유형의 텍스트를 추출하고, 결과를 extracted_text 변수에 저장합니다. 마지막으로 print 함수를 사용하여 추출된 텍스트를 출력합니다.

위 코드에서 PyPDF2.PdfReader 클래스를 사용하여 PDF 파일을 열고, page.extract_text()를 사용하여 각 페이지의 텍스트를 추출합니다. 추출한 텍스트에 대하여 원하는 유형의 텍스트가 포함되어 있는지 확인하고, 결과를 반환합니다.

결론

Python의 PyPDF2 패키지를 사용하면 PDF 파일로부터 특정 유형의 텍스트를 추출할 수 있습니다. 위 예제 코드를 참고하여 원하는 텍스트 유형을 추출해보세요.