[java] PDF 파일에서 특정 필드 추출하기(Java Apache PDFBox 사용)

17 Nov 2023

java

이 블로그 포스트에서는 PDF 파일에서 특정 필드를 추출하는 방법에 대해 알아보겠습니다. 이를 위해 Java Apache PDFBox 라이브러리를 사용할 것입니다.

Apache PDFBox란?

Apache PDFBox는 Java로 작성된 오픈 소스 라이브러리로, PDF 파일을 다루는 다양한 기능을 제공합니다. 이 라이브러리를 사용하여 PDF 파일에서 텍스트, 이미지, 필드 등을 추출하거나 생성할 수 있습니다.

필요한 라이브러리 설정

먼저, Apache PDFBox 라이브러리를 다운로드하고, 프로젝트에 추가해야 합니다. 다음 링크에서 최신 버전의 라이브러리를 다운로드할 수 있습니다:

Apache PDFBox 다운로드

다운로드한 jar 파일을 프로젝트의 라이브러리 경로에 추가해주세요.

PDF 파일에서 특정 필드 추출하기

이제, PDF 파일에서 특정 필드를 추출하는 코드를 작성해보겠습니다. 아래 코드는 “example.pdf”라는 PDF 파일에서 “name”이라는 필드를 추출하는 예시입니다.

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.interactive.form.PDAcroForm;
import org.apache.pdfbox.pdmodel.interactive.form.PDField;

import java.io.File;
import java.io.IOException;

public class PdfFieldExtractor {
    public static void main(String[] args) {
        try {
            // PDF 파일 로드
            PDDocument document = PDDocument.load(new File("example.pdf"));

            // 양식 필드 가져오기
            PDAcroForm acroForm = document.getDocumentCatalog().getAcroForm();
            PDField field = acroForm.getField("name");

            // 필드 값 추출하기
            String fieldValue = field.getValueAsString();

            System.out.println("필드 값: " + fieldValue);

            // 문서 닫기
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

위의 코드에서는 PDDocument 클래스를 사용하여 PDF 파일을 로드하고, PDAcroForm 클래스를 사용하여 양식 필드를 가져옵니다. 이후 PDField로부터 필드의 값을 추출하여 출력합니다.

실행 결과

위의 코드를 실행하면, “example.pdf” 파일의 “name” 필드의 값을 출력합니다. 필드의 값을 원하는대로 변경하거나 활용할 수 있습니다.

마무리

이번 포스트에서는 Apache PDFBox를 사용하여 PDF 파일에서 특정 필드를 추출하는 방법에 대해 알아보았습니다. PDF 파일 처리에는 더 많은 기능과 API가 지원되므로, 자세한 내용은 Apache PDFBox 공식 문서를 참조하시기 바랍니다. PDF 파일 처리에 대한 요구사항이 있다면, Apache PDFBox는 매우 유용한 도구일 것입니다.