[python] python-docx로 워드 문서 맞춤법 검사하기

이번 포스트에서는 python-docx 라이브러리를 사용하여 워드 문서의 맞춤법을 검사하는 방법을 알아보겠습니다.

1. python-docx 설치하기

먼저, python-docx 라이브러리를 설치해야 합니다. 다음 명령을 사용하여 설치할 수 있습니다.

pip install python-docx

2. 워드 문서 열기

from docx import Document

# 워드 문서 열기
doc = Document('example.docx')

위의 코드를 사용하여 example.docx 파일을 열 수 있습니다. 만약 새로운 워드 문서를 생성하려면 Document() 함수에 파일 경로를 지정하지 않고 빈 Document 객체를 생성할 수도 있습니다.

3. 문서의 텍스트 추출하기

# 문서의 텍스트 추출하기
text = ''
for paragraph in doc.paragraphs:
    text += paragraph.text

위의 코드를 사용하여 워드 문서의 모든 텍스트를 추출할 수 있습니다. doc.paragraphs 속성은 문서의 모든 문단을 나타내는 리스트입니다.

4. 맞춤법 검사하기

이제 py-hanspell 라이브러리를 사용하여 텍스트의 맞춤법을 검사할 수 있습니다. 먼저, 다음 명령을 사용하여 py-hanspell 라이브러리를 설치해야 합니다.

pip install py-hanspell

그리고 다음 코드를 사용하여 텍스트의 맞춤법을 검사할 수 있습니다.

from hanspell import spell_checker

# 맞춤법 검사하기
checked_text = spell_checker.check(text)
checked_text = checked_text.checked

print(checked_text)

위의 코드를 사용하면 text 변수에 저장된 텍스트의 맞춤법이 검사되고, 검사 결과가 checked_text 변수에 저장됩니다. checked_text 변수의 내용을 프린트하여 맞춤법이 수정된 텍스트를 확인할 수 있습니다.

결론

이제 python-docxpy-hanspell 라이브러리를 사용하여 워드 문서의 맞춤법을 검사하는 방법을 알아보았습니다. 이를 응용하여 자동으로 맞춤법 검사를 수행하는 스크립트를 작성할 수 있습니다. 자세한 내용은 python-docxpy-hanspell 라이브러리의 공식 문서를 참조해 주세요.