[java] PDF 파일에서 특정 키워드 검색(Java Apache PDFBox 사용)

17 Nov 2023

java

이번 포스트에서는 Java Apache PDFBox 라이브러리를 사용하여 PDF 파일에서 특정 키워드를 검색하는 방법에 대해 알아보겠습니다.

Apache PDFBox 소개

Apache PDFBox는 Java로 개발된 오픈 소스 라이브러리로, PDF 파일을 조작하고 생성하는 데 사용할 수 있습니다. PDF 문서를 읽고 쓰는 기능을 제공하여 효율적으로 PDF 파일을 다룰 수 있습니다.

PDF 파일에서 키워드 검색하기

PDF 파일에서 특정 키워드를 검색하려면 먼저 Apache PDFBox 라이브러리를 프로젝트에 추가해야 합니다. 아래는 Maven을 사용하는 경우의 의존성 설정입니다.

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.25</version>
</dependency>

검색할 키워드와 PDF 파일의 경로를 입력받는 메서드를 구현해 보겠습니다.

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PdfKeywordSearch {
    public static void main(String[] args) {
        String keyword = "Java"; // 검색할 키워드
        String pdfFilePath = "path/to/pdf/file.pdf"; // PDF 파일 경로

        try {
            PDDocument document = PDDocument.load(new File(pdfFilePath));
            PDFTextStripper textStripper = new PDFTextStripper();

            String pdfContent = textStripper.getText(document);

            if (pdfContent.contains(keyword)) {
                System.out.println("키워드 '" + keyword + "'를 찾았습니다!");
            } else {
                System.out.println("키워드 '" + keyword + "'를 찾을 수 없습니다.");
            }

            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

위 코드에서는 PDDocument.load() 메서드를 사용하여 PDF 파일을 로드하고, PDFTextStripper.getText() 메서드를 사용하여 PDF 파일의 텍스트 내용을 추출합니다. 추출된 텍스트 내용에 키워드가 포함되어 있는지 확인하여 결과를 출력합니다.

실행 결과 예시입니다.

키워드 'Java'를 찾았습니다!

위 예제에서는 키워드가 단순히 포함되어 있는지만 확인하였지만, 필요에 따라 정규식을 사용하여 더 복잡한 검색도 수행할 수 있습니다.

결론

이번 포스트에서는 Apache PDFBox 라이브러리를 사용하여 Java에서 PDF 파일에서 특정 키워드를 검색하는 방법에 대해 알아보았습니다. PDF 파일을 조작하는 다양한 기능을 제공하는 Apache PDFBox는 PDF 처리에 유용한 도구입니다. PDF 파일을 다루는 작업을 할 때는 Apache PDFBox를 활용해 보시기 바랍니다.

참고 자료: