[파이썬] Beautiful Soup 4 스크레이핑한 데이터의 정제 및 정규화

06 Sep 2023

beautiful soup

데이터 스크레이핑은 웹에서 데이터를 수집하는 과정을 의미합니다. Beautiful Soup 4는 파이썬 라이브러리로, 웹 스크레이핑 작업을 보다 쉽고 편리하게 수행할 수 있도록 도와줍니다. Beautiful Soup 4를 사용하여 스크레이핑한 데이터를 정제하고 정규화하는 방법에 대해 알아보겠습니다.

데이터 스크레이핑하기

Beautiful Soup 4를 사용하여 웹에서 데이터를 스크레이핑하는 기본적인 방법은 아래와 같습니다. 먼저, 웹 페이지의 HTML을 가져와서 BeautifulSoup 객체를 생성합니다.

from bs4 import BeautifulSoup
import requests

# 웹 페이지의 URL
url = "https://example.com"

# 웹 페이지의 HTML을 가져오기
response = requests.get(url)
html = response.text

# BeautifulSoup 객체 생성
soup = BeautifulSoup(html, 'html.parser')

위의 코드에서 response 객체를 사용하여 웹 페이지의 HTML을 가져옵니다. BeautifulSoup 클래스의 생성자에는 HTML과 파서 종류를 인자로 전달하여 soup 객체를 생성합니다.

데이터 정제하기

Beautiful Soup 4를 사용하면 스크레이핑한 데이터를 쉽게 정제할 수 있습니다. find와 같은 메서드를 사용하여 특정 요소를 찾고, text 속성을 사용하여 해당 요소의 텍스트 내용을 추출할 수 있습니다.

예를 들어, 아래의 HTML 코드를 생각해봅시다.

<html>
  <body>
    <h1>Hello, Beautiful Soup 4!</h1>
    <p>This is a sample paragraph.</p>
  </body>
</html>

위의 HTML에서 <h1> 요소의 텍스트를 추출하기 위해 다음과 같은 코드를 사용할 수 있습니다.

# 'h1' 태그 찾기
h1_tag = soup.find('h1')

# 'h1' 태그의 텍스트 추출
h1_text = h1_tag.text

# 결과 출력
print(h1_text)

결과는 다음과 같이 출력됩니다.

Hello, Beautiful Soup 4!

이와 같은 방식으로 HTML에서 원하는 요소를 찾고, 그를 통해 데이터를 정제할 수 있습니다.

데이터 정규화하기

스크레이핑한 데이터는 종종 불필요한 공백, 개행 문자, HTML 태그 등이 포함될 수 있습니다. 이러한 불필요한 요소들을 제거하고, 데이터를 정규화하는 과정이 필요합니다.

예를 들어, 아래의 HTML에서 <p> 요소의 텍스트를 추출하고 정규화하기 위해 다음과 같은 코드를 사용할 수 있습니다.

# 'p' 태그 찾기
p_tag = soup.find('p')

# 'p' 태그의 텍스트 추출
p_text = p_tag.text

# 텍스트 정규화
normalized_text = p_text.strip()

# 결과 출력
print(normalized_text)

위의 코드에서 strip 메서드를 사용하여 텍스트의 앞뒤 공백을 제거하였습니다.

정규화 과정에서 strip 외에도, 다양한 문자열 처리 함수 및 정규식을 사용하여 데이터를 정제할 수 있습니다. 이는 데이터의 특성 및 사용 목적에 따라 다양하게 결정됩니다.

결론

Beautiful Soup 4를 사용하여 데이터 스크레이핑 작업을 수행한 후, 이를 효과적으로 정제하고 정규화하는 것은 매우 중요합니다. 이를 통해 데이터의 가독성을 높이고, 적절한 형식으로 데이터를 활용할 수 있습니다.

다양한 추출 및 정규화 기술을 활용하여 스크레이핑한 데이터를 다양한 분야에 활용할 수 있습니다. Beautiful Soup 4를 통해 웹에서 원하는 데이터를 스크레이핑하고, 이를 효과적으로 정제하여 활용해보세요!