[python] PDF 파일에서 특정 영역 스캔하기

30 Nov 2023

python

PDF 파일은 소중한 정보를 담고 있는 문서 형식입니다. 때때로 특정 영역만을 스캔하고 해당 영역에 대한 작업을 수행해야 할 때가 있습니다. 이번 포스트에서는 Python을 사용하여 PDF 파일에서 특정 영역을 스캔하는 방법에 대해 알아보겠습니다.

1. PyPDF2 라이브러리 설치

PDF 파일을 다루기 위해 우리는 PyPDF2라는 Python 라이브러리를 사용할 것입니다. 아래의 명령어를 사용하여 PyPDF2를 설치합니다.

pip install PyPDF2

2. PDF 파일 열기

다음 단계에서는 PDF 파일을 열고 해당 파일과 상호작용할 수 있는 Python 코드를 작성해 보겠습니다.

import PyPDF2

# PDF 파일 열기
with open('파일명.pdf', 'rb') as file:
    pdf = PyPDF2.PdfFileReader(file)

위 코드는 PdfFileReader 클래스를 사용하여 PDF 파일을 열고 pdf 변수에 할당하는 단계입니다. rb 모드를 사용하여 파일을 읽기 모드로 열었습니다.

3. 페이지 선택하기

특정 영역을 스캔하기 위해서는 해당 페이지를 먼저 선택해야 합니다. 아래의 코드를 참고하여 원하는 페이지를 선택하세요.

# 원하는 페이지 선택 (첫 번째 페이지는 인덱스 0부터 시작)
page_number = 0
page = pdf.getPage(page_number)

위 코드에서 getPage() 메서드를 사용하여 원하는 페이지를 선택합니다. 첫 번째 페이지는 인덱스 0부터 시작하므로 원하는 페이지 번호에 맞게 수정해야 합니다.

4. 특정 영역 스캔하기

이제 선택한 페이지에서 특정 영역을 스캔하는 방법에 대해 알아보겠습니다. PyPDF2를 사용하여 좌표를 지정하고 해당 영역의 내용을 추출할 수 있습니다.

# 특정 영역 스캔 (왼쪽 상단 모서리의 x, y 좌표, 오른쪽 하단 모서리의 x, y 좌표)
left = 100
top = 100
right = 300
bottom = 300

text = page.extract_text()
scanned_area = text[left:right, top:bottom]

위 코드를 사용하여 원하는 영역을 스캔하고 해당 영역의 텍스트를 추출할 수 있습니다. 원하는 영역의 왼쪽 상단 모서리와 오른쪽 하단 모서리의 x, y 좌표를 지정하여 영역을 정의합니다. 그 후 extract_text() 메서드를 사용하여 페이지의 전체 텍스트를 추출하고, 스캔된 영역만을 선택하여 scanned_area 변수에 할당합니다.

이제 Python을 사용하여 PDF 파일에서 특정 영역을 스캔하는 방법에 대해 알아보았습니다. 이를 활용하여 원하는 영역을 추출하고 필요한 작업을 수행할 수 있습니다.

참고 자료

PyPDF2 공식 문서