[python] PDF 파일에서 텍스트 유형 화면 캡처하기

PDF 파일에서 텍스트 유형의 내용을 추출하는 것은 데이터 분석이나 자동화 작업에 매우 유용합니다. 이 글에서는 Python을 사용하여 PDF 파일에서 텍스트를 캡처하는 방법을 알아보겠습니다.

필요한 패키지 설치

먼저, PyPDF2Pillow 패키지를 설치해야 합니다. 아래의 명령을 사용하여 설치할 수 있습니다.

pip install PyPDF2 Pillow

PDF 파일에서 텍스트 캡처하기

PDF 파일에서 텍스트를 캡처하는 과정은 다음과 같습니다.

  1. PyPDF2를 사용하여 PDF 파일을 엽니다.
  2. 페이지 별로 텍스트 유형을 찾고, 필요한 텍스트를 추출합니다.
  3. 추출한 텍스트를 화면에 보여주거나 저장합니다.

다음은 위 과정을 Python 코드로 구현한 예시입니다.

import PyPDF2
import io
from PIL import Image

def extract_text_from_pdf(filename):
    text = ""
    with open(filename, "rb") as file:
        pdf = PyPDF2.PdfFileReader(file)
        num_pages = pdf.getNumPages()
        for page_num in range(num_pages):
            page = pdf.getPage(page_num)
            text += page.extractText()
    return text

def capture_text_as_image(filename):
    text = extract_text_from_pdf(filename)
    image = Image.new("RGB", (800, 600), (255, 255, 255))
    image_path = "captured_text.png"
    image.save(image_path)
    return image_path

pdf_filename = "example.pdf"
captured_image_path = capture_text_as_image(pdf_filename)
print(f"PDF 파일에서 텍스트 캡처한 이미지: {captured_image_path}")

위 예시 코드에서 example.pdf 파일로부터 텍스트를 추출하고, 추출한 텍스트를 빈 이미지에 저장합니다. 저장한 이미지는 captured_text.png로 출력됩니다.

참고자료