[python] 웹 크롤링을 활용한 도서 리뷰 데이터 분석

15 Dec 2023

python

도서 리뷰는 도서 구매에 대한 결정을 돕는 중요한 정보원으로 활용됩니다. 이번 블로그 포스트에서는 파이썬을 사용하여 웹 크롤링을 통해 도서 리뷰 데이터를 수집하고, 이를 분석하는 방법에 대해 알아보겠습니다.

웹 크롤링을 통한 도서 리뷰 데이터 수집

파이썬의 requests와 BeautifulSoup 라이브러리를 활용하여 도서 리뷰가 있는 웹페이지에서 데이터를 수집할 수 있습니다. 예를 들어, 아마존의 도서 페이지에서 리뷰 섹션을 크롤링하여 데이터를 수집할 수 있습니다.

import requests
from bs4 import BeautifulSoup

url = '도서 리뷰 페이지 URL 입력'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

reviews = soup.find_all('div', class_='review')
for review in reviews:
    # 리뷰 데이터 추출
    review_text = review.find('p', class_='review-text').get_text()
    rating = review.find('span', class_='rating').get_text()
    # 데이터 저장 또는 분석에 활용

도서 리뷰 데이터 분석

수집한 도서 리뷰 데이터를 분석하여 다양한 정보를 얻을 수 있습니다. 예를 들어, 특정 도서의 평균 평점, 리뷰 내용에서 언급되는 주요 키워드, 사용자들의 선호도 등을 분석하여 도서에 대한 다양한 측면을 알 수 있습니다.

import pandas as pd
import matplotlib.pyplot as plt

# 데이터를 데이터프레임으로 변환
data = {'review_text': [리뷰 텍스트], 'rating': [평점]}
df = pd.DataFrame(data)

# 평균 평점 계산
average_rating = df['rating'].mean()

# 주요 키워드 분석
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
cv_fit = cv.fit_transform(df['review_text'])
word_list = cv.get_feature_names_out()
count_list = cv_fit.toarray().sum(axis=0)
word_freq = dict(zip(word_list, count_list))
# 가장 많이 언급된 단어 시각화
word_freq_df = pd.DataFrame(list(word_freq.items()), columns=['단어', '빈도'])
word_freq_df = word_freq_df.sort_values('빈도', ascending=False)
plt.bar(word_freq_df['단어'][:10], word_freq_df['빈도'][:10])
plt.show()

도서 리뷰 데이터 분석을 통해 독자들의 관심사를 파악하고 도서에 대한 통찰력을 얻을 수 있습니다.

위의 방법을 통해 웹 크롤링을 통한 도서 리뷰 데이터 수집과 분석에 대해 알아보았습니다. 도서 리뷰 데이터는 도서 관련 의사결정을 돕는 데 중요한 자산이므로, 이러한 분석은 도서 출간자나 판매업자에게 유용한 정보를 제공할 수 있습니다.