[파이썬] Scrapy 웹 스크레이핑 결과의 대시보드 생성

06 Sep 2023

Scrapy

웹 스크레이핑은 정보를 수집하고 분석하는 데 매우 유용한 도구입니다. Scrapy는 파이썬으로 작성된 웹 스크레이핑 프레임워크로, 웹 페이지에서 데이터를 추출하는 데 매우 강력한 기능을 제공합니다. 이번 블로그 포스트에서는 Scrapy를 사용하여 웹 스크레이핑 결과를 대시보드 형태로 생성하는 방법을 알아보겠습니다.

대시보드의 중요성

대시보드는 데이터의 시각화된 개요를 제공하여 사용자가 데이터를 쉽게 이해하고 분석할 수 있게 도와줍니다. 웹 스크레이핑으로 수집한 데이터를 대시보드에 표시함으로써 데이터를 효과적으로 시각화하고, 패턴과 추세를 발견하며, 인사이트를 도출할 수 있습니다.

대시보드 생성 도구 선택

파이썬에는 다양한 대시보드 생성 도구가 있지만, 이번 예제에서는 Dash라는 인기 있는 대시보드 프레임워크를 사용합니다. Dash는 Flask, Plotly 등의 파이썬 라이브러리를 기반으로한 대화형 대시보드를 쉽게 개발할 수 있도록 도와줍니다.

웹 스크레이핑 결과 추출

먼저, Scrapy를 사용하여 웹 스크레이핑 작업을 수행해야 합니다. Scrapy는 웹 페이지의 HTML을 가져와서 필요한 데이터를 추출하는 기능을 제공합니다. 예제 코드에서는 Scrapy를 사용하여 네이버 홈페이지의 실시간 검색어를 추출하는 작업을 수행합니다.

import scrapy

class NaverSpider(scrapy.Spider):
    name = 'naver_spider'
    start_urls = ['https://www.naver.com']

    def parse(self, response):
        for rank in response.css('.ah_item .ah_r'):
            yield {
                'rank': rank.css('::text').get()
            }

위 코드는 NaverSpider라는 Scrapy 스파이더 클래스를 정의합니다. start_urls에 지정된 URL에서 HTML을 가져와서 .ah_item .ah_r CSS 선택자를 사용하여 실시간 검색어 순위를 추출합니다. 추출한 결과를 yield 키워드로 반환하게 됩니다.

대시보드 생성

이제 스크레이핑한 데이터를 대시보드에 표시하기 위해 Dash를 사용합니다. 다음 예제 코드는 Dash를 사용하여 실시간 검색어의 순위를 막대 그래프로 시각화하는 대시보드를 생성합니다.

import dash
import dash_core_components as dcc
import dash_html_components as html

app = dash.Dash(__name__)

app.layout = html.Div(children=[
    html.H1(children='네이버 실시간 검색어 대시보드'),
    dcc.Graph(
        id='rank_graph',
        figure={
            'data': [
                {'x': ['1', '2', '3', '4', '5'], 'y': [4, 12, 5, 10, 8], 'type': 'bar', 'name': '순위'},
            ],
            'layout': {
                'title': '실시간 검색어 순위'
            }
        }
    )
])

if __name__ == '__main__':
    app.run_server(debug=True)

위의 코드는 Dash 앱 객체를 생성하고, 대시보드의 레이아웃을 정의한 후 서버를 실행합니다. 대시보드에는 ‘네이버 실시간 검색어 대시보드’라는 제목이 표시되며, 막대 그래프로 실시간 검색어의 순위가 표시됩니다.

결론

Scrapy를 사용하여 웹 스크레이핑을 수행하고, Dash를 사용하여 웹 스크레이핑 결과를 대시보드 형태로 시각화할 수 있습니다. 이를 통해 데이터의 개요를 시각적으로 파악하고, 추세와 패턴을 발견하며, 데이터에서 인사이트를 도출할 수 있습니다. 대시보드를 통해 효율적인 데이터 분석을 수행할 수 있으며, 의사 결정에 도움이 될 수 있습니다.