[java] 특정 페이지만 추출하기(PDF 파일에서)(Java Apache PDFBox 사용)

17 Nov 2023

java

개요

이번 글에서는 Java 프로그래밍 언어를 사용하여 Apache PDFBox 라이브러리를 이용해 PDF 파일에서 특정 페이지를 추출하는 방법을 알아보겠습니다.

필요한 라이브러리

Apache PDFBox: PDF 파일 조작을 위한 Java 라이브러리입니다.

코드 구현

import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class PageExtractor {
    public static void main(String[] args) {
        try (PDDocument document = PDDocument.load("sample.pdf")) {
            PDFTextStripper stripper = new PDFTextStripper();
            stripper.setStartPage(2); // 추출할 첫 페이지 번호 설정
            stripper.setEndPage(2); // 추출할 마지막 페이지 번호 설정
            String extractedText = stripper.getText(document);
            
            System.out.println(extractedText);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

위 코드에서는 “sample.pdf”라는 PDF 파일에서 2페이지만을 추출합니다. 추출한 페이지의 텍스트는 extractedText 변수에 저장되며, 이를 화면에 출력합니다.

실행 결과 예시

This is the content of page 2.

결론

Java Apache PDFBox 라이브러리를 사용하면 Java 프로그래밍 언어로 PDF 파일에서 특정 페이지를 추출할 수 있습니다. 필요한 페이지의 번호를 설정하여 추출하는 방법을 이용하면 됩니다.

참고 자료

Apache PDFBox 공식 사이트: https://pdfbox.apache.org/
Apache PDFBox GitHub 레포지토리: https://github.com/apache/pdfbox