[python] PDF 파일에서 특정 영역 인식하기

30 Nov 2023

python

PDF 파일에서 특정 영역을 자동으로 인식하는 것은 많은 데이터 처리 작업에서 유용합니다. 이 기능은 파이썬의 PyPDF2 라이브러리를 사용하여 구현할 수 있습니다. PyPDF2는 PDF 파일을 조작하기 위한 강력한 도구입니다.

이 블로그 포스트에서는 PyPDF2를 사용하여 특정 영역을 인식하는 방법을 알아보겠습니다.

코드 예제

먼저, PyPDF2를 설치해야 합니다. 아래의 명령을 사용하여 설치할 수 있습니다.

pip install PyPDF2

그런 다음, 아래와 같은 코드 예제를 사용하여 PDF 파일의 특정 영역을 인식해 보겠습니다.

import PyPDF2

def extract_text_by_coordinates(pdf_file, x1, y1, x2, y2):
    pdf_reader = PyPDF2.PdfFileReader(pdf_file)
    page = pdf_reader.getPage(0)
    page_text = page.extract_text()

    # 영역 좌표 및 텍스트 추출
    text = ""
    lines = page_text.split("\n")
    for line in lines:
        if x1 <= float(line[0:line.find(" ")]) <= x2 and y1 <= float(line[line.find(" ")+1:line.find(" ")]) <= y2:
            text += line + "\n"

    return text

pdf_file = "example.pdf"
x1 = 100  # 왼쪽 위 X 좌표
y1 = 200  # 왼쪽 위 Y 좌표
x2 = 300  # 오른쪽 아래 X 좌표
y2 = 400  # 오른쪽 아래 Y 좌표
extracted_text = extract_text_by_coordinates(pdf_file, x1, y1, x2, y2)

print(extracted_text)

이 코드는 extract_text_by_coordinates 함수를 정의하고, 해당 함수 내에서 PyPDF2를 사용하여 PDF 파일에서 특정 영역의 텍스트를 추출합니다. 좌표를 조정하여 원하는 영역을 선택할 수 있습니다. 그리고 이를 터미널에서 출력합니다.

결론

PyPDF2를 활용하여 PDF 파일에서 특정 영역을 인식하는 방법에 대해 알아보았습니다. 이를 통해 원하는 데이터를 자동으로 추출하고, 인식한 정보를 활용하여 다양한 데이터 처리 작업을 수행할 수 있습니다.