[python] Beautiful Soup로 웹 페이지에서 태그 이동하기

30 Nov 2023

python

데이터 스크레이핑을 위해 웹 페이지의 태그를 이동하고 정보를 추출해야 하는 경우가 많습니다. 이를 위해 Beautiful Soup 라이브러리를 사용할 수 있습니다. Beautiful Soup는 HTML 및 XML 문서를 구문 분석하여 태그를 쉽게 검색하고 조작할 수 있는 Python 라이브러리입니다.

Beautiful Soup 설치하기

Beautiful Soup를 사용하기 위해서는 먼저 라이브러리를 설치해야 합니다. 아래의 명령을 사용하여 설치합니다.

pip install beautifulsoup4

웹 페이지에서 태그 이동하기

Beautiful Soup를 사용하여 웹 페이지에서 태그를 이동하는 방법을 알아보겠습니다.

라이브러리 가져오기

Beautiful Soup를 사용하기 위해 우선 라이브러리를 가져와야 합니다. 다음 코드를 사용하여 라이브러리를 가져올 수 있습니다.
```
from bs4 import BeautifulSoup
```

HTML 문서 파싱하기

Beautiful Soup를 사용하기 위해 HTML 문서를 파싱해야 합니다. BeautifulSoup 객체를 생성하고 파싱할 HTML 문서와 파싱 방법을 지정합니다. 아래의 코드 예제를 참고하세요.

html_doc = """
<html>
    <head>
        <title>웹 페이지 제목</title>
    </head>
    <body>
        <div class="content">
            <h1>웹 페이지 내용</h1>
            <p>첫 번째 단락입니다.</p>
            <p>두 번째 단락입니다.</p>
        </div>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

태그 검색하기

BeautifulSoup 객체를 사용하여 웹 페이지의 특정 태그를 검색할 수 있습니다. find() 또는 find_all() 메서드를 사용하여 원하는 태그를 검색합니다. 아래의 코드 예제를 참고하세요.

# class가 "content"인 div 태그 찾기
content_div = soup.find('div', class_='content')

# h1 태그 찾기
h1_tag = content_div.find('h1')

# 모든 p 태그 찾기
p_tags = content_div.find_all('p')

for p in p_tags:
    print(p.text)

출력 결과:

첫 번째 단락입니다.
두 번째 단락입니다.

Beautiful Soup를 사용하여 웹 페이지에서 태그를 이동하고 데이터를 추출하는 방법에 대해 간단하게 알아보았습니다. 이를 응용하여 웹 스크레이핑을 더욱 효율적으로 수행할 수 있습니다.

참고 문서: