[python] 파이썬을 사용한 데이터 파싱 및 정제

데이터 파싱은 데이터를 가져와서 필요한 정보를 추출하고 구조화하는 과정을 말합니다. 파이썬은 이를 위한 강력한 도구들을 제공하며, 데이터 정제 및 가공에도 용이합니다. 이 글에서는 파이썬을 사용하여 데이터를 파싱하고 정제하는 방법에 대해 살펴보겠습니다.

1. 라이브러리 가져오기

import requests
from bs4 import BeautifulSoup
import pandas as pd

2. 데이터 가져오기

url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

3. 데이터 파싱

data = []
for item in soup.find_all('div', class_='item'):
    title = item.find('h2').text
    price = item.find('span', class_='price').text
    data.append({'Title': title, 'Price': price})

4. 데이터 정제

df = pd.DataFrame(data)
df['Price'] = df['Price'].apply(lambda x: x.replace('$', '').replace(',', '')).astype(float)

5. 정제된 데이터 저장

df.to_csv('parsed_data.csv', index=False)

위 코드는 웹페이지에서 데이터를 가져와 파싱한 후, 필요한 정보를 추출하고 정제하여 CSV 파일로 저장하는 과정을 보여줍니다. 이를 통해 파이썬을 사용하여 데이터를 효과적으로 다루고 가공할 수 있음을 확인할 수 있습니다.

[참고 자료]


본 문서는 참고용으로, 실제 데이터에 대한 파싱 및 정제 시 상황에 맞게 코드를 수정해야 합니다.