[python] NLTK를 사용해 텍스트의 문장 구조를 분석하는 방법은 무엇인가요?
  1. NLTK 설치하기:
    pip install nltk
    
  2. NLTK 패키지 가져오기:
    import nltk
    
  3. 텍스트를 문장으로 분리하기:
    from nltk.tokenize import sent_tokenize
    
    text = "NLTK는 자연어 처리를 위한 유용한 도구입니다. 문장 구조를 분석하려면 NLTK를 사용할 수 있습니다."
    sentences = sent_tokenize(text)
    
    print(sentences)
    

    위의 코드는 주어진 텍스트를 문장으로 분리하고, 분리된 문장들을 리스트로 반환합니다.

  4. 문장의 토큰화:
    from nltk.tokenize import word_tokenize
    
    tokens = word_tokenize(sentences[0])
    
    print(tokens)
    

    위의 코드는 첫 번째 문장을 단어로 토큰화하고, 토큰들을 리스트로 반환합니다. 이 단계는 문장 내부의 단어들을 개별적으로 처리하기 위해 필요합니다.

  5. 문장 구조 분석:
    from nltk import pos_tag
    
    tagged_tokens = pos_tag(tokens)
    
    print(tagged_tokens)
    

    위의 코드는 토큰화된 단어들에 품사 태그를 부여하고, 품사 태그를 출력합니다. 이 단계는 문장 내의 각 단어가 어떤 품사인지 파악하기 위해 필요합니다.

NLTK를 사용하면 텍스트의 문장 구조를 분석하고 다양한 정보를 추출할 수 있습니다. 또한, NLTK에는 품사 태깅 외에도 많은 기능들이 있으므로, 자연어 처리 작업에 널리 사용되는 도구입니다.

참고 링크: