[java] PDF 파일의 텍스트 추출하기(Java Apache PDFBox 사용)

17 Nov 2023

java

PDF 파일에서 텍스트를 추출하는 것은 자바를 사용하여 간단하게 할 수 있습니다. Apache PDFBox 라이브러리는 PDF 파일의 내용을 탐색하고 텍스트를 추출하는 데 도움이되는 강력한 도구입니다.

아래의 예제 코드를 통해 PDF 파일에서 텍스트를 추출하는 방법을 살펴보겠습니다.

의존성 추가

먼저, Maven을 사용하는 경우 pom.xml 파일에 다음 의존성을 추가해야 합니다.

<dependencies>
  <dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.26</version>
  </dependency>
</dependencies>

예제 코드

import java.io.File;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class PDFTextExtractor {
    public static void main(String[] args) {
        try {
            // PDF 파일 경로
            String filePath = "path/to/pdf/file.pdf";

            // PDF 파일 열기
            PDDocument document = PDDocument.load(new File(filePath));

            // PDF 파일의 텍스트 추출
            PDFTextStripper textStripper = new PDFTextStripper();
            String text = textStripper.getText(document);

            // 추출된 텍스트 출력
            System.out.println(text);

            // PDF 파일 닫기
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

위의 코드를 실행하면 지정된 PDF 파일에서 모든 텍스트가 추출되고 콘솔에 출력됩니다.

추가 옵션

PDF 파일에서 추출된 텍스트를 원하는대로 조작할 수있는 다양한 옵션이 있습니다. 예를 들어, 특정 페이지에서만 텍스트를 추출하거나 특정 텍스트를 필터링하여 추출하는 등의 작업을 수행 할 수 있습니다. 이러한 옵션에 대한 자세한 내용은 Apache PDFBox 문서를 참조하십시오.

결론

Java Apache PDFBox 라이브러리를 사용하면 PDF 파일에서 텍스트를 추출하는 것이 매우 간단해집니다. 위의 예제 코드를 기반으로 시작하여 다른 작업을 수행하고 필요에 따라 추가 옵션을 사용할 수 있습니다.

위의 내용을 참조하여 Java에서 PDF 파일의 텍스트를 추출하는 작업을 진행해 보세요!