[java] Apache PDFBox를 사용한 PDF 파일 검색하기

17 Nov 2023

java

PDF 파일은 많은 정보를 포함하고 있어 검색하는 작업이 어려울 수 있습니다. 하지만 Apache PDFBox라는 라이브러리를 사용하면 쉽게 PDF 파일을 검색할 수 있습니다. 이번 글에서는 Java를 사용하여 Apache PDFBox를 통해 PDF 파일을 검색하는 방법을 알아보겠습니다.

1. Apache PDFBox 라이브러리 설정하기

먼저, Apache PDFBox를 사용하기 위해 라이브러리를 설정해야 합니다. Maven 프로젝트를 사용하는 경우 pom.xml 파일에 다음 의존성을 추가하세요:

<dependencies>
    <dependency>
        <groupId>org.apache.pdfbox</groupId>
        <artifactId>pdfbox</artifactId>
        <version>2.0.25</version>
    </dependency>
</dependencies>

Gradle 프로젝트를 사용하는 경우 build.gradle 파일에 다음 종속성을 추가하세요:

dependencies {
    implementation 'org.apache.pdfbox:pdfbox:2.0.25'
}

2. PDF 파일에서 텍스트 검색하기

Apache PDFBox를 사용하여 PDF 파일에서 텍스트를 검색하는 방법은 간단합니다. 다음은 예시 코드입니다:

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PdfSearcher {
    public static void main(String[] args) {
        String pdfFilePath = "path/to/pdf/file.pdf";
        String searchTerm = "example";

        try (PDDocument document = PDDocument.load(new File(pdfFilePath))) {
            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);

            if (text.contains(searchTerm)) {
                System.out.println("검색어가 PDF 파일에서 발견되었습니다.");
            } else {
                System.out.println("검색어를 찾을 수 없습니다.");
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

위 코드에서 pdfFilePath 변수에 검색할 PDF 파일의 경로를 지정하고 searchTerm 변수에 검색할 텍스트를 지정합니다. 그리고 PDDocument 클래스의 load 메소드를 사용하여 PDF 파일을 로드합니다. PDFTextStripper를 사용하여 PDF 파일의 텍스트를 추출한 다음, 추출한 텍스트에 검색어가 포함되어 있는지 확인합니다.

3. 결론

이제 Apache PDFBox를 사용하여 PDF 파일에서 텍스트를 검색하는 방법을 알아보았습니다. PDF 파일에 포함된 다양한 정보를 빠르고 쉽게 검색할 수 있습니다. 추가적으로 Apache PDFBox에는 텍스트 추출 이외에도 PDF 파일의 다른 기능을 활용할 수 있는 다양한 기능이 있습니다. 자세한 내용은 Apache PDFBox 공식 문서를 참고하시기 바랍니다.