[python] Beautiful Soup로 웹 페이지에서 태그 이동하기

데이터 스크레이핑을 위해 웹 페이지의 태그를 이동하고 정보를 추출해야 하는 경우가 많습니다. 이를 위해 Beautiful Soup 라이브러리를 사용할 수 있습니다. Beautiful Soup는 HTML 및 XML 문서를 구문 분석하여 태그를 쉽게 검색하고 조작할 수 있는 Python 라이브러리입니다.

Beautiful Soup 설치하기

Beautiful Soup를 사용하기 위해서는 먼저 라이브러리를 설치해야 합니다. 아래의 명령을 사용하여 설치합니다.

pip install beautifulsoup4

웹 페이지에서 태그 이동하기

Beautiful Soup를 사용하여 웹 페이지에서 태그를 이동하는 방법을 알아보겠습니다.

  1. 라이브러리 가져오기

    Beautiful Soup를 사용하기 위해 우선 라이브러리를 가져와야 합니다. 다음 코드를 사용하여 라이브러리를 가져올 수 있습니다.

    from bs4 import BeautifulSoup
    
  2. HTML 문서 파싱하기

    Beautiful Soup를 사용하기 위해 HTML 문서를 파싱해야 합니다. BeautifulSoup 객체를 생성하고 파싱할 HTML 문서와 파싱 방법을 지정합니다. 아래의 코드 예제를 참고하세요.

    html_doc = """
    <html>
        <head>
            <title>웹 페이지 제목</title>
        </head>
        <body>
            <div class="content">
                <h1>웹 페이지 내용</h1>
                <p>첫 번째 단락입니다.</p>
                <p>두 번째 단락입니다.</p>
            </div>
        </body>
    </html>
    """
    
    soup = BeautifulSoup(html_doc, 'html.parser')
    
  3. 태그 검색하기

    BeautifulSoup 객체를 사용하여 웹 페이지의 특정 태그를 검색할 수 있습니다. find() 또는 find_all() 메서드를 사용하여 원하는 태그를 검색합니다. 아래의 코드 예제를 참고하세요.

    # class가 "content"인 div 태그 찾기
    content_div = soup.find('div', class_='content')
    
    # h1 태그 찾기
    h1_tag = content_div.find('h1')
    
    # 모든 p 태그 찾기
    p_tags = content_div.find_all('p')
    
    for p in p_tags:
        print(p.text)
    

    출력 결과:

    첫 번째 단락입니다.
    두 번째 단락입니다.
    

Beautiful Soup를 사용하여 웹 페이지에서 태그를 이동하고 데이터를 추출하는 방법에 대해 간단하게 알아보았습니다. 이를 응용하여 웹 스크레이핑을 더욱 효율적으로 수행할 수 있습니다.

참고 문서: