[java] Apache PDFBox로 PDF 파일에서 특정 텍스트 찾기

Apache PDFBox는 Java로 구현된 오픈 소스 라이브러리로, PDF 파일을 다루는 다양한 기능을 제공합니다. 이 라이브러리를 사용하면 PDF 파일에서 특정 텍스트를 찾아내는 기능을 구현할 수 있습니다.

필요한 라이브러리 추가하기

먼저, Apache PDFBox를 사용하기 위해 프로젝트에 해당 라이브러리를 추가해야 합니다. 다음은 Maven을 사용하는 경우 pom.xml 파일에 의존성을 추가하는 예시입니다.

<dependencies>
    <dependency>
        <groupId>org.apache.pdfbox</groupId>
        <artifactId>pdfbox</artifactId>
        <version>2.0.22</version>
    </dependency>
</dependencies>

PDF 파일에서 특정 텍스트 찾기

다음은 Apache PDFBox를 사용하여 PDF 파일에서 특정 텍스트를 찾는 예시 코드입니다:

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PdfTextSearcher {

    public static void main(String[] args) {
        try {
            File pdfFile = new File("path/to/pdf/file.pdf");
            PDDocument document = PDDocument.load(pdfFile);

            PDFTextStripper textStripper = new PDFTextStripper();
            String allText = textStripper.getText(document);

            String searchText = "특정 텍스트";

            if (allText.contains(searchText)) {
                System.out.println("PDF 파일에서 '" + searchText + "'를 찾았습니다.");
            } else {
                System.out.println("PDF 파일에서 '" + searchText + "'를 찾을 수 없습니다.");
            }

            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

위의 예시 코드에서 “path/to/pdf/file.pdf”를 찾고자 하는 PDF 파일의 경로로 변경해주세요. 코드는 주어진 PDF 파일에서 모든 텍스트를 추출하고, 지정한 텍스트를 포함하는지 여부를 확인합니다.

결론

Apache PDFBox를 사용하면 Java에서 PDF 파일에서 특정 텍스트를 찾아내는 기능을 구현할 수 있습니다. 위의 예시 코드를 참고하여 원하는 기능을 구현해보세요.

참고 자료