[python] python-docx로 워드 문서 맞춤법 검사하기
이번 포스트에서는 python-docx 라이브러리를 사용하여 워드 문서의 맞춤법을 검사하는 방법을 알아보겠습니다.
1. python-docx 설치하기
먼저, python-docx 라이브러리를 설치해야 합니다. 다음 명령을 사용하여 설치할 수 있습니다.
pip install python-docx
2. 워드 문서 열기
from docx import Document
# 워드 문서 열기
doc = Document('example.docx')
위의 코드를 사용하여 example.docx
파일을 열 수 있습니다. 만약 새로운 워드 문서를 생성하려면 Document()
함수에 파일 경로를 지정하지 않고 빈 Document 객체를 생성할 수도 있습니다.
3. 문서의 텍스트 추출하기
# 문서의 텍스트 추출하기
text = ''
for paragraph in doc.paragraphs:
text += paragraph.text
위의 코드를 사용하여 워드 문서의 모든 텍스트를 추출할 수 있습니다. doc.paragraphs
속성은 문서의 모든 문단을 나타내는 리스트입니다.
4. 맞춤법 검사하기
이제 py-hanspell 라이브러리를 사용하여 텍스트의 맞춤법을 검사할 수 있습니다. 먼저, 다음 명령을 사용하여 py-hanspell 라이브러리를 설치해야 합니다.
pip install py-hanspell
그리고 다음 코드를 사용하여 텍스트의 맞춤법을 검사할 수 있습니다.
from hanspell import spell_checker
# 맞춤법 검사하기
checked_text = spell_checker.check(text)
checked_text = checked_text.checked
print(checked_text)
위의 코드를 사용하면 text
변수에 저장된 텍스트의 맞춤법이 검사되고, 검사 결과가 checked_text
변수에 저장됩니다. checked_text
변수의 내용을 프린트하여 맞춤법이 수정된 텍스트를 확인할 수 있습니다.
결론
이제 python-docx와 py-hanspell 라이브러리를 사용하여 워드 문서의 맞춤법을 검사하는 방법을 알아보았습니다. 이를 응용하여 자동으로 맞춤법 검사를 수행하는 스크립트를 작성할 수 있습니다. 자세한 내용은 python-docx와 py-hanspell 라이브러리의 공식 문서를 참조해 주세요.