[java] Apache POI를 이용한 Word 문서 추출

Apache POI( Poor Obfuscation Implementation)는 자바로 Microsoft Office 파일 형식을 처리하는 라이브러리입니다. 이 라이브러리는 Word, Excel, PowerPoint 등의 파일에 접근하여 데이터를 읽고 쓸 수 있습니다. 이번 포스트에서는 Apache POI를 사용하여 Word 문서에서 텍스트를 추출하는 방법을 알아보겠습니다.

Apache POI 설치

Apache POI를 사용하기 위해서는 먼저 해당 라이브러리를 다운로드하고 프로젝트에 추가해야 합니다. Maven을 사용중이라면 pom.xml 파일에 다음 의존성을 추가해주세요.

<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>4.1.2</version>
</dependency>

Word 문서에서 텍스트 추출하기

다음은 Apache POI를 사용하여 Word 문서에서 텍스트를 추출하는 예제 코드입니다.

import java.io.FileInputStream;
import java.io.IOException;

import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;

public class WordExtractorExample {
    public static void main(String[] args) {
        try {
            FileInputStream fis = new FileInputStream("path/to/word/document.docx");
            XWPFDocument document = new XWPFDocument(fis);
            XWPFWordExtractor extractor = new XWPFWordExtractor(document);
            String text = extractor.getText();

            System.out.println(text);

            fis.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

위의 코드에서 “path/to/word/document.docx” 부분을 추출하고자 하는 Word 문서의 경로로 변경해주세요. 이 예제 코드는 Word 문서를 읽어와서 XWPFWordExtractor를 사용하여 텍스트를 추출한 뒤, 추출된 텍스트를 콘솔에 출력하는 간단한 예제입니다.

결론

Apache POI를 사용하면 자바로 Word 문서를 쉽게 처리할 수 있습니다. 이번 포스트에서는 Word 문서에서 텍스트를 추출하는 예제를 살펴보았습니다. Apache POI의 다양한 기능을 활용하여 더욱 복잡한 작업을 수행할 수도 있습니다. 추가 정보나 자세한 사용법은 Apache POI 공식 문서를 참고하시면 도움이 될 것입니다.

참고 자료