[javascript] Ramda를 활용한 텍스트 마이닝

30 Nov 2023

javascript

텍스트 마이닝은 텍스트 데이터에서 의미있는 정보를 추출하고 분석하는 과정을 말합니다. 이러한 작업은 자연어 처리와 기계 학습 알고리즘을 활용하여 수행됩니다. 이번에는 Ramda라는 함수형 프로그래밍 라이브러리를 사용하여 텍스트 마이닝을 해보겠습니다.

Ramda란?

Ramda는 JavaScript에서 함수형 프로그래밍을 지원하기 위해 설계된 라이브러리입니다. Ramda는 Immutable한 데이터 구조와 다양한 함수들을 제공하여 코드를 간결하고 읽기 쉽게 만들어줍니다. 함수형 프로그래밍의 핵심 개념인 고차 함수, 커링 등을 지원하여 코드를 모듈화하고 재사용성을 높일 수 있습니다.

텍스트 데이터 가져오기

먼저 텍스트 데이터를 가져와야 합니다. 가장 간단한 방법은 REST API를 사용하여 데이터를 가져오는 것입니다. 아래는 axios 라이브러리를 사용하여 텍스트 데이터를 가져오는 예시입니다.

import axios from 'axios';

const getTextData = async () => {
  try {
    const response = await axios.get('https://api.example.com/text');
    return response.data;
  } catch (error) {
    console.error('Error fetching text data:', error);
  }
};

위 코드에서는 axios 라이브러리를 사용하여 ‘https://api.example.com/text’ 경로로 GET 요청을 보내고, 응답 데이터를 반환하도록 구현되어 있습니다.

텍스트 데이터 전처리

다음으로는 텍스트 데이터를 전처리해야 합니다. 전처리는 텍스트 데이터에서 불필요한 문자를 제거하거나 단어를 토큰화하는 등의 작업을 포함합니다. 아래는 Ramda를 사용하여 텍스트 데이터를 전처리하는 예시입니다.

import { compose, split, toLower, replace, trim } from 'ramda';

const preprocessText = (text) => {
  const removePunctuation = replace(/[^\w\s]/g, '');
  const lowercase = toLower;
  const removeWhitespace = trim;
  const tokenize = split(' ');

  const preprocessingPipeline = compose(
    removePunctuation,
    lowercase,
    removeWhitespace,
    tokenize
  );

  return preprocessingPipeline(text);
};

const textData = 'Hello, World!';
const preprocessedData = preprocessText(textData);
console.log(preprocessedData);

위 코드에서는 Ramda의 함수들을 사용하여 텍스트 데이터를 전처리합니다. removePunctuation은 정규식을 사용하여 구두점을 제거하고, lowercase는 텍스트를 소문자로 변환합니다. removeWhitespace는 문자열에서 앞뒤 공백을 제거하며, tokenize는 공백을 기준으로 문자열을 토큰화합니다. 이러한 전처리 작업을 모두 합성 함수인 preprocessingPipeline에 적용하여 텍스트 데이터를 전처리합니다.

데이터 분석

전처리된 텍스트 데이터를 바탕으로 데이터 분석을 수행할 수 있습니다. 예를 들어, 단어 빈도수를 계산하거나 감성 분석을 수행하는 등의 작업이 있을 수 있습니다. 이러한 작업을 위해 Ramda는 다양한 함수들을 제공합니다. 아래는 단어 빈도수를 계산하는 예시 코드입니다.

import { groupBy, countBy, mapObjIndexed, compose } from 'ramda';

const calculateWordFrequency = (textData) => {
  const wordCount = compose(
    mapObjIndexed((value) => Object.keys(value).length),
    groupBy((word) => word),
    countBy((word) => word)
  )(textData);

  return wordCount;
};

const preprocessedData = ['hello', 'world', 'hello'];
const wordFrequency = calculateWordFrequency(preprocessedData);
console.log(wordFrequency);

위 코드에서는 Ramda의 groupBy, countBy, mapObjIndexed 함수들을 사용하여 단어 빈도수를 계산합니다. 먼저 countBy 함수로 단어의 개수를 계산한 후, groupBy 함수로 단어를 그룹화합니다. 마지막으로 mapObjIndexed 함수로 단어 그룹의 길이를 계산하여 단어 빈도수를 얻습니다.

결론

Ramda를 활용하여 텍스트 데이터의 전처리와 분석을 수행할 수 있습니다. Ramda의 다양한 함수들을 조합하여 코드를 간결하고 읽기 쉽게 작성할 수 있으며, 함수형 프로그래밍의 장점을 활용하여 코드의 모듈화와 재사용성을 높일 수 있습니다. 이를 통해 텍스트 마이닝 작업을 효율적으로 수행할 수 있습니다.