[python] PDF 파일에서 특정 영역 인식하기
PDF 파일에서 특정 영역을 자동으로 인식하는 것은 많은 데이터 처리 작업에서 유용합니다. 이 기능은 파이썬의 PyPDF2
라이브러리를 사용하여 구현할 수 있습니다. PyPDF2
는 PDF 파일을 조작하기 위한 강력한 도구입니다.
이 블로그 포스트에서는 PyPDF2
를 사용하여 특정 영역을 인식하는 방법을 알아보겠습니다.
코드 예제
먼저, PyPDF2
를 설치해야 합니다. 아래의 명령을 사용하여 설치할 수 있습니다.
pip install PyPDF2
그런 다음, 아래와 같은 코드 예제를 사용하여 PDF 파일의 특정 영역을 인식해 보겠습니다.
import PyPDF2
def extract_text_by_coordinates(pdf_file, x1, y1, x2, y2):
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
page = pdf_reader.getPage(0)
page_text = page.extract_text()
# 영역 좌표 및 텍스트 추출
text = ""
lines = page_text.split("\n")
for line in lines:
if x1 <= float(line[0:line.find(" ")]) <= x2 and y1 <= float(line[line.find(" ")+1:line.find(" ")]) <= y2:
text += line + "\n"
return text
pdf_file = "example.pdf"
x1 = 100 # 왼쪽 위 X 좌표
y1 = 200 # 왼쪽 위 Y 좌표
x2 = 300 # 오른쪽 아래 X 좌표
y2 = 400 # 오른쪽 아래 Y 좌표
extracted_text = extract_text_by_coordinates(pdf_file, x1, y1, x2, y2)
print(extracted_text)
이 코드는 extract_text_by_coordinates
함수를 정의하고, 해당 함수 내에서 PyPDF2
를 사용하여 PDF 파일에서 특정 영역의 텍스트를 추출합니다. 좌표를 조정하여 원하는 영역을 선택할 수 있습니다. 그리고 이를 터미널에서 출력합니다.
결론
PyPDF2
를 활용하여 PDF 파일에서 특정 영역을 인식하는 방법에 대해 알아보았습니다. 이를 통해 원하는 데이터를 자동으로 추출하고, 인식한 정보를 활용하여 다양한 데이터 처리 작업을 수행할 수 있습니다.