[python] PDF 파일에서 텍스트 유형 붙여넣기
PDF 파일은 일반적으로 이미지 형식으로 저장되어 있어서 텍스트를 직접 편집하기가 어렵습니다. 그러나 Python의 PyPDF2
라이브러리를 사용하면 PDF 파일에서 텍스트를 추출할 수 있습니다.
1. PyPDF2
설치하기
먼저 PyPDF2
라이브러리를 설치해야 합니다. 다음 명령어를 사용하여 설치할 수 있습니다.
pip install PyPDF2
2. PDF 파일 열기
PDF 파일을 열고 텍스트를 추출하기 위해 아래 코드를 사용합니다.
import PyPDF2
# PDF 파일 열기
pdf_file = open('example.pdf', 'rb')
# PyPDF2 리더 객체 생성
reader = PyPDF2.PdfReader(pdf_file)
위 코드에서 example.pdf
는 추출할 텍스트가 있는 PDF 파일의 경로입니다. rb
는 읽기 모드로 파일을 열라는 의미입니다.
3. 텍스트 추출하기
이제 실제로 텍스트를 추출해 보겠습니다. 아래 코드를 사용하여 모든 페이지에서 텍스트를 추출할 수 있습니다.
# 추출한 텍스트를 담을 변수 초기화
extracted_text = ''
# 모든 페이지에 대해 텍스트 추출
for page in reader.pages:
extracted_text += page.extract_text()
# 추출한 텍스트 출력
print(extracted_text)
4. 추출한 텍스트 붙여넣기
이제 extracted_text
변수에 추출한 텍스트가 저장되어 있습니다. 이를 원하는 곳에 붙여넣기하면 됩니다.
다음은 추출한 텍스트를 새로운 파일에 저장하는 예시입니다.
# 추출한 텍스트를 새 파일에 저장
output_file = open('extracted_text.txt', 'w')
output_file.write(extracted_text)
output_file.close()
위 코드에서 extracted_text.txt
는 추출한 텍스트를 저장할 파일의 경로입니다.
5. 마무리
이제 PyPDF2
라이브러리를 사용하여 PDF 파일에서 텍스트를 추출하고 붙여넣기할 수 있는 방법을 알게 되었습니다. 이를 활용하여 다양한 작업을 수행할 수 있습니다. 자세한 내용은 PyPDF2 공식 문서를 참조하세요.