[java] Apache PDFBox를 이용한 텍스트 추출

18 Dec 2023

java

Apache PDFBox는 Java로 작성된 오픈 소스 라이브러리로, PDF 문서를 생성하고 수정하는 기능을 제공합니다. 또한, PDF 문서로부터 텍스트를 추출하는 기능을 간편하게 사용할 수 있습니다. 이번 포스트에서는 Apache PDFBox를 이용하여 PDF 문서로부터 텍스트를 추출하는 방법에 대해 소개하겠습니다.

1. Apache PDFBox 의존성 추가

먼저, Maven 또는 Gradle 프로젝트의 의존성에 Apache PDFBox를 추가해야 합니다. Maven을 사용하는 경우 아래와 같이 pom.xml 파일에 의존성을 추가할 수 있습니다.

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.24</version>
</dependency>

Gradle을 사용하는 경우 build.gradle 파일에 의존성을 추가해야 합니다.

implementation group: 'org.apache.pdfbox', name: 'pdfbox', version: '2.0.24'

의존성을 추가한 후 프로젝트를 다시 빌드하여 Apache PDFBox를 사용할 수 있도록 설정해야 합니다.

2. PDF 문서에서 텍스트 추출하기

이제 Apache PDFBox를 사용하여 PDF 문서로부터 텍스트를 추출하는 방법에 대해 알아보겠습니다. 아래는 간단한 예제 코드입니다.

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFTextExtractor {
    public static void main(String[] args) {
        try {
            File file = new File("sample.pdf");
            PDDocument document = PDDocument.load(file);
            PDFTextStripper pdfTextStripper = new PDFTextStripper();
            String text = pdfTextStripper.getText(document);
            System.out.println("Extracted Text:\n" + text);
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

위의 예제 코드는 sample.pdf 파일에서 텍스트를 추출하여 출력하는 간단한 Java 프로그램입니다.

3. 결론

Apache PDFBox를 사용하면 Java 프로그램에서 PDF 문서로부터 텍스트를 손쉽게 추출할 수 있습니다. 이를 통해 PDF 문서에 포함된 텍스트 데이터를 쉽게 활용할 수 있습니다.

PDFBox 라이브러리의 공식 문서나 예제들을 참고하여 더 다양한 활용 방법을 익힐 수 있습니다.

위 내용은 Apache PDFBox 공식 웹사이트(https://pdfbox.apache.org/) 및 GitHub 저장소 등을 참고하여 작성되었습니다.