[java] Apache PDFBox를 이용한 재해결 코드 생성
Apache PDFBox는 Java로 작성된 오픈 소스 라이브러리로, PDF 파일을 생성, 수정, 읽기 및 파싱하는 데 사용됩니다. 이 라이브러리를 사용하여 Java 애플리케이션에서 PDF 파일에서 텍스트를 추출하고 새로운 PDF 파일을 생성하는 방법을 살펴보겠습니다.
PDF 파일에서 텍스트 추출
PDF 파일에서 텍스트를 추출하기 위해, Apache PDFBox를 사용하여 PDFTextStripper
클래스를 활용할 수 있습니다. 아래는 간단한 예제 코드입니다.
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFTextExtractor {
public static void main(String[] args) {
try {
File file = new File("input.pdf");
PDDocument document = PDDocument.load(file);
PDFTextStripper pdfStripper = new PDFTextStripper();
String text = pdfStripper.getText(document);
System.out.println("Extracted text: " + text);
document.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
위 코드는 input.pdf
로부터 텍스트를 추출하고 콘솔에 출력하는 간단한 예제입니다.
PDF 파일 생성
PDF 파일을 생성하기 위해, Apache PDFBox를 사용하여 PDDocument
및 PDPage
등의 클래스를 사용할 수 있습니다. 아래는 새로운 PDF 파일을 생성하는 예제 코드입니다.
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import java.io.File;
import java.io.IOException;
public class PDFCreator {
public static void main(String[] args) {
PDDocument document = new PDDocument();
PDPage blankPage = new PDPage();
document.addPage(blankPage);
try {
document.save("output.pdf");
document.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
위 코드는 새로운 PDF 파일을 생성하고 output.pdf
로 저장하는 간단한 예제입니다.
Apache PDFBox를 사용하여 PDF 파일에서 텍스트를 추출하고 새로운 PDF 파일을 생성하는 방법에 대한 간략한 안내였습니다. 자세한 내용은 Apache PDFBox 공식 문서를 참조하시기 바랍니다.