[python] PDF 파일에서 텍스트 유형 확대하기

30 Nov 2023

python

PDF 파일은 일반적으로 이미지와 텍스트로 구성되어 있습니다. 하지만 때로는 PDF 파일 내에 있는 텍스트를 확대해서 보고 싶을 수 있습니다. Python을 사용하면 PDF 파일에서 텍스트를 추출하고 확대할 수 있는 간단한 스크립트를 작성할 수 있습니다.

필요한 라이브러리 설치하기

먼저, PDF 파일을 처리하기 위해 PyPDF2 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install PyPDF2

PDF 파일에서 텍스트 추출하기

PDF 파일에서 텍스트를 추출하기 위해서는 PyPDF2 라이브러리를 사용해야 합니다. 아래의 예제 코드는 주어진 PDF 파일에서 텍스트를 추출하는 방법을 보여줍니다.

import PyPDF2

def extract_text_from_pdf(file_path):
    file = open(file_path, 'rb')
    reader = PyPDF2.PdfReader(file)
    num_pages = len(reader.pages)
    text = ""
    
    for page in reader.pages:
        text += page.extract_text()
    
    file.close()
    
    return text

위의 예제 코드에서 extract_text_from_pdf 함수는 주어진 PDF 파일의 경로를 인자로 받고, 텍스트를 추출하여 문자열로 반환합니다.

텍스트 확대하기

텍스트를 확대하기 위해서는 추출한 텍스트에서 원하는 부분을 찾아내고, 필요한 만큼 확대해야 합니다. 아래의 예제 코드는 특정 텍스트를 찾아 크기를 조절하는 방법을 보여줍니다.

import re

def enlarge_text(text, keyword, factor):
    pattern = re.compile(re.escape(keyword), re.IGNORECASE)
    enlarged_text = pattern.sub(lambda m: m.group(0) * factor, text)
    
    return enlarged_text

위의 예제 코드에서 enlarge_text 함수는 추출한 텍스트, 확대할 키워드, 그리고 확대할 배수를 인자로 받습니다. 찾아낸 키워드를 원하는 배수만큼 확대하여 반환합니다.

예제 실행

이제 위에서 작성한 함수들을 사용하여 예제를 실행해보겠습니다.

pdf_file_path = "example.pdf"
extracted_text = extract_text_from_pdf(pdf_file_path)
enlarged_text = enlarge_text(extracted_text, "Lorem ipsum", 3)
print(enlarged_text)

위의 코드에서 example.pdf는 확대하려는 PDF 파일의 경로입니다. extract_text_from_pdf 함수를 사용하여 텍스트를 추출하고, enlarge_text 함수를 사용하여 특정 키워드를 3배 확대한 후 출력합니다.

결론

Python을 사용하여 PDF 파일에서 텍스트를 추출하고 필요한 부분을 확대하는 방법에 대해 알아보았습니다. 이를 응용하여 다양한 PDF 파일을 처리하고 텍스트를 보다 효과적으로 확대할 수 있습니다.