[python] PDF 파일에서 텍스트 유형 화면 캡처하기
PDF 파일에서 텍스트 유형의 내용을 추출하는 것은 데이터 분석이나 자동화 작업에 매우 유용합니다. 이 글에서는 Python을 사용하여 PDF 파일에서 텍스트를 캡처하는 방법을 알아보겠습니다.
필요한 패키지 설치
먼저, PyPDF2
와 Pillow
패키지를 설치해야 합니다. 아래의 명령을 사용하여 설치할 수 있습니다.
pip install PyPDF2 Pillow
PDF 파일에서 텍스트 캡처하기
PDF 파일에서 텍스트를 캡처하는 과정은 다음과 같습니다.
PyPDF2
를 사용하여 PDF 파일을 엽니다.- 페이지 별로 텍스트 유형을 찾고, 필요한 텍스트를 추출합니다.
- 추출한 텍스트를 화면에 보여주거나 저장합니다.
다음은 위 과정을 Python 코드로 구현한 예시입니다.
import PyPDF2
import io
from PIL import Image
def extract_text_from_pdf(filename):
text = ""
with open(filename, "rb") as file:
pdf = PyPDF2.PdfFileReader(file)
num_pages = pdf.getNumPages()
for page_num in range(num_pages):
page = pdf.getPage(page_num)
text += page.extractText()
return text
def capture_text_as_image(filename):
text = extract_text_from_pdf(filename)
image = Image.new("RGB", (800, 600), (255, 255, 255))
image_path = "captured_text.png"
image.save(image_path)
return image_path
pdf_filename = "example.pdf"
captured_image_path = capture_text_as_image(pdf_filename)
print(f"PDF 파일에서 텍스트 캡처한 이미지: {captured_image_path}")
위 예시 코드에서 example.pdf
파일로부터 텍스트를 추출하고, 추출한 텍스트를 빈 이미지에 저장합니다. 저장한 이미지는 captured_text.png
로 출력됩니다.