[java] Apache PDFBox를 이용한 재해결 코드 생성

18 Dec 2023

java

Apache PDFBox는 Java로 작성된 오픈 소스 라이브러리로, PDF 파일을 생성, 수정, 읽기 및 파싱하는 데 사용됩니다. 이 라이브러리를 사용하여 Java 애플리케이션에서 PDF 파일에서 텍스트를 추출하고 새로운 PDF 파일을 생성하는 방법을 살펴보겠습니다.

PDF 파일에서 텍스트 추출

PDF 파일에서 텍스트를 추출하기 위해, Apache PDFBox를 사용하여 PDFTextStripper 클래스를 활용할 수 있습니다. 아래는 간단한 예제 코드입니다.

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFTextExtractor {
    public static void main(String[] args) {
        try {
            File file = new File("input.pdf");
            PDDocument document = PDDocument.load(file);
            PDFTextStripper pdfStripper = new PDFTextStripper();
            String text = pdfStripper.getText(document);
            System.out.println("Extracted text: " + text);
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

위 코드는 input.pdf로부터 텍스트를 추출하고 콘솔에 출력하는 간단한 예제입니다.

PDF 파일 생성

PDF 파일을 생성하기 위해, Apache PDFBox를 사용하여 PDDocument 및 PDPage 등의 클래스를 사용할 수 있습니다. 아래는 새로운 PDF 파일을 생성하는 예제 코드입니다.

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;

import java.io.File;
import java.io.IOException;

public class PDFCreator {
    public static void main(String[] args) {
        PDDocument document = new PDDocument();
        PDPage blankPage = new PDPage();
        document.addPage(blankPage);

        try {
            document.save("output.pdf");
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

위 코드는 새로운 PDF 파일을 생성하고 output.pdf로 저장하는 간단한 예제입니다.

Apache PDFBox를 사용하여 PDF 파일에서 텍스트를 추출하고 새로운 PDF 파일을 생성하는 방법에 대한 간략한 안내였습니다. 자세한 내용은 Apache PDFBox 공식 문서를 참조하시기 바랍니다.