[파이썬] 웹 스크래핑과 음악 정보 추출

01 Sep 2023

python

웹 스크래핑은 웹 페이지에서 데이터를 추출하는 기술로, 파이썬을 사용하여 쉽게 구현할 수 있습니다. 이번 포스트에서는 웹 스크래핑을 활용하여 음악 정보를 추출하는 방법에 대해 알아보겠습니다.

웹 스크래핑 기본 개념

웹 스크래핑은 웹 페이지의 HTML 코드를 분석하여 필요한 정보를 추출하는 과정을 말합니다. HTML 코드는 웹 페이지의 구조와 내용을 정의하는 마크업 언어로 작성되어 있습니다.

파이썬에서는 requests 라이브러리를 사용하여 웹 페이지의 내용을 가져올 수 있고, beautifulsoup 라이브러리를 사용하여 HTML 코드를 파싱하여 원하는 정보를 추출할 수 있습니다. 이 외에도 다양한 라이브러리와 기술이 있지만, 이번 포스트에서는 간단한 예제를 통해 기본 개념을 이해해보겠습니다.

음악 정보 추출 예제

이번 예제에서는 음악 검색을 통해 원하는 음악의 제목과 아티스트 정보를 추출하는 것을 목표로 합니다. 예를 들어 Melon 사이트에서 특정 음악을 검색하고, 해당 음악의 제목과 아티스트 정보를 추출해보겠습니다.

import requests
from bs4 import BeautifulSoup

def search_music(music_title):
    # 검색어를 이용하여 Melon 사이트에서 검색
    url = f"https://www.melon.com/search/song/index.htm?q={music_title}"
    response = requests.get(url)
    
    # 검색 결과 HTML 코드 파싱
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 검색 결과 중 첫 번째 음악 정보 추출
    first_music = soup.find('div', class_='song_list').find('div', class_='ellipsis rank01').find('a')
    music_name = first_music.text
    artist_name = first_music.next_sibling.next_sibling.text
    
    return music_name, artist_name

# 음악 정보 검색하기
music_title = "Dynamite"
music_name, artist_name = search_music(music_title)

# 검색 결과 출력하기
print(f"음악 제목: {music_name}")
print(f"아티스트: {artist_name}")

위의 예제 코드를 실행하면, Melon 사이트에서 “Dynamite”라는 제목의 음악을 검색한 후, 해당 음악의 제목과 아티스트 정보를 출력합니다.

이처럼 웹 스크래핑을 활용하면 다양한 웹 사이트에서 원하는 데이터를 추출할 수 있습니다. 하지만 웹 스크래핑 시에는 반드시 웹 사이트의 이용 약관 및 정책을 확인하고, 법적인 제약 사항을 준수해야 합니다.

이번 포스트에서는 웹 스크래핑과 음악 정보 추출에 대해 알아보았습니다. 웹 스크래핑을 통해 다양한 데이터를 추출하여 활용할 수 있는데, 앞으로의 개발에 많은 도움이 될 것입니다.