[python] PDF 파일에서 텍스트 유형 붙여넣기

30 Nov 2023

python

PDF 파일은 일반적으로 이미지 형식으로 저장되어 있어서 텍스트를 직접 편집하기가 어렵습니다. 그러나 Python의 PyPDF2 라이브러리를 사용하면 PDF 파일에서 텍스트를 추출할 수 있습니다.

1. `PyPDF2` 설치하기

먼저 PyPDF2 라이브러리를 설치해야 합니다. 다음 명령어를 사용하여 설치할 수 있습니다.

pip install PyPDF2

2. PDF 파일 열기

PDF 파일을 열고 텍스트를 추출하기 위해 아래 코드를 사용합니다.

import PyPDF2

# PDF 파일 열기
pdf_file = open('example.pdf', 'rb')

# PyPDF2 리더 객체 생성
reader = PyPDF2.PdfReader(pdf_file)

위 코드에서 example.pdf는 추출할 텍스트가 있는 PDF 파일의 경로입니다. rb는 읽기 모드로 파일을 열라는 의미입니다.

3. 텍스트 추출하기

이제 실제로 텍스트를 추출해 보겠습니다. 아래 코드를 사용하여 모든 페이지에서 텍스트를 추출할 수 있습니다.

# 추출한 텍스트를 담을 변수 초기화
extracted_text = ''

# 모든 페이지에 대해 텍스트 추출
for page in reader.pages:
    extracted_text += page.extract_text()

# 추출한 텍스트 출력
print(extracted_text)

4. 추출한 텍스트 붙여넣기

이제 extracted_text 변수에 추출한 텍스트가 저장되어 있습니다. 이를 원하는 곳에 붙여넣기하면 됩니다.

다음은 추출한 텍스트를 새로운 파일에 저장하는 예시입니다.

# 추출한 텍스트를 새 파일에 저장
output_file = open('extracted_text.txt', 'w')
output_file.write(extracted_text)
output_file.close()

위 코드에서 extracted_text.txt는 추출한 텍스트를 저장할 파일의 경로입니다.

5. 마무리

이제 PyPDF2 라이브러리를 사용하여 PDF 파일에서 텍스트를 추출하고 붙여넣기할 수 있는 방법을 알게 되었습니다. 이를 활용하여 다양한 작업을 수행할 수 있습니다. 자세한 내용은 PyPDF2 공식 문서를 참조하세요.

1. PyPDF2 설치하기

2. PDF 파일 열기

3. 텍스트 추출하기

4. 추출한 텍스트 붙여넣기

5. 마무리

1. `PyPDF2` 설치하기