[python] PDF 파일에서 텍스트 유형 스캔하기

PDF 파일은 다양한 형식의 문서를 저장하는데 사용되며, 때로는 이러한 파일에 포함된 텍스트를 추출해야 할 때가 있습니다. Python을 사용하여 PDF 파일에서 텍스트 유형을 스캔하는 방법을 알아보겠습니다.

필요한 라이브러리 설치하기

먼저, PyPDF2 라이브러리를 사용하여 PDF 파일에서 텍스트를 읽을 수 있습니다. 다음 명령을 실행하여 PyPDF2를 설치합니다:

pip install PyPDF2

PDF 파일 읽기

다음 코드를 사용하여 PDF 파일을 읽고 텍스트를 추출합니다.

import PyPDF2

def extract_text_from_pdf(file_path):
    with open(file_path, 'rb') as file:
        pdf = PyPDF2.PdfFileReader(file)
        text = ""
        for page_number in range(pdf.numPages):
            page = pdf.getPage(page_number)
            text += page.extract_text()
    return text

# PDF 파일 경로
file_path = "example.pdf"

# PDF 파일에서 텍스트 추출
text = extract_text_from_pdf(file_path)
print(text)

위 코드에서는 extract_text_from_pdf 함수를 정의하여 PDF 파일을 열고 페이지별로 텍스트를 추출합니다. 추출된 텍스트는 변수 text에 저장되며, 이를 원하는 방식으로 처리할 수 있습니다.

텍스트 처리하기

추출된 텍스트를 분석하거나 다른 용도로 사용하려면 텍스트 처리 기술을 사용할 수 있습니다. Python에서는 re 모듈을 사용하여 텍스트에서 정규 표현식을 사용하여 원하는 패턴을 찾을 수 있습니다.

import re

# 정규 표현식을 사용하여 일치하는 패턴 찾기
pattern = r"example"
matches = re.findall(pattern, text)

for match in matches:
    print(match)

위 코드에서는 re 모듈을 사용하여 example이라는 패턴과 일치하는 문자열을 찾습니다. re.findall 함수는 일치하는 모든 패턴을 찾아 리스트로 반환하며, 각 일치 항목을 반복하여 출력합니다.

이제 Python을 사용하여 PDF 파일에서 텍스트 유형을 스캔하는 방법을 알았습니다. 이를 기반으로 원하는 작업을 수행할 수 있습니다.

참고 자료