[python] PDF 파일에서 특정 유형의 요소 복사하기

30 Nov 2023

python

PDF는 일반적으로 텍스트, 이미지, 표 등 다양한 유형의 요소를 포함하는 문서형식입니다. 때때로 PDF 파일에서 특정 유형의 요소를 추출하여 다른 곳에 복사해야 할 때가 있습니다. 이번 블로그 포스트에서는 Python을 사용하여 PDF 파일에서 특정 유형의 요소를 복사하는 방법을 알아보겠습니다.

1. PyPDF2 라이브러리 설치하기

먼저, PyPDF2라이브러리를 설치해야 합니다. 이 라이브러리는 PDF 파일을 다루기 위한 유용한 도구입니다. 아래의 명령어를 사용하여 PyPDF2를 설치하세요.

pip install PyPDF2

2. 특정 유형의 요소 복사하기

이제 PyPDF2를 사용하여 특정 유형의 요소를 복사하는 방법을 알아보겠습니다.

import PyPDF2

def copy_elements_from_pdf(source_file, destination_file, element_type):
    with open(source_file, 'rb') as file:
        reader = PyPDF2.PdfReader(file)
        writer = PyPDF2.PdfFileWriter()

        for page in reader.pages:
            for element in page.extract_elements():
                if element_type in element.get_element_type():
                    writer.add_page(element)

        with open(destination_file, 'wb') as output:
            writer.write(output)

위 코드에서 copy_elements_from_pdf 함수는 세 개의 인자를 받습니다. source_file은 원본 PDF 파일 경로, destination_file은 복사될 파일 경로, element_type은 복사할 요소의 유형입니다.

함수는 먼저 source_file을 열고, PdfReader를 생성합니다. PdfReader는 원본 PDF 파일의 페이지 및 요소에 대한 액세스를 제공합니다. PdfFileWriter를 생성하여 복사될 파일의 작성자를 생성합니다.

각 페이지에 대해 extract_elements를 사용하여 페이지의 모든 요소를 추출합니다. 그런 다음, 각 요소의 유형이 element_type과 일치하는지 확인합니다. 일치하는 요소를 writer의 페이지로 추가합니다.

마지막으로, destination_file을 열고 writer의 내용을 파일에 작성합니다.

3. 사용 예시

위에서 작성한 함수를 사용하는 예시를 살펴보겠습니다.

copy_elements_from_pdf('source.pdf', 'destination.pdf', 'text')

위의 예시 코드는 source.pdf에서 ‘text’ 유형의 요소를 추출하여 destination.pdf에 복사합니다. 원본 파일과 대상 파일의 경로를 실제 파일 경로로 변경해야 합니다.

4. 요약

Python의 PyPDF2라이브러리를 사용하여 PDF 파일에서 특정 유형의 요소를 복사하는 방법을 알아보았습니다. 이를 사용하면 PDF 파일에서 특정 정보나 데이터를 추출하여 다른 곳에 사용할 수 있습니다.

더 자세한 내용은 PyPDF2 문서를 참조하세요.