[python] Beautiful Soup로 웹 페이지에서 태그 이동하기
데이터 스크레이핑을 위해 웹 페이지의 태그를 이동하고 정보를 추출해야 하는 경우가 많습니다. 이를 위해 Beautiful Soup 라이브러리를 사용할 수 있습니다. Beautiful Soup는 HTML 및 XML 문서를 구문 분석하여 태그를 쉽게 검색하고 조작할 수 있는 Python 라이브러리입니다.
Beautiful Soup 설치하기
Beautiful Soup를 사용하기 위해서는 먼저 라이브러리를 설치해야 합니다. 아래의 명령을 사용하여 설치합니다.
pip install beautifulsoup4
웹 페이지에서 태그 이동하기
Beautiful Soup를 사용하여 웹 페이지에서 태그를 이동하는 방법을 알아보겠습니다.
-
라이브러리 가져오기
Beautiful Soup를 사용하기 위해 우선 라이브러리를 가져와야 합니다. 다음 코드를 사용하여 라이브러리를 가져올 수 있습니다.
from bs4 import BeautifulSoup
-
HTML 문서 파싱하기
Beautiful Soup를 사용하기 위해 HTML 문서를 파싱해야 합니다.
BeautifulSoup
객체를 생성하고 파싱할 HTML 문서와 파싱 방법을 지정합니다. 아래의 코드 예제를 참고하세요.html_doc = """ <html> <head> <title>웹 페이지 제목</title> </head> <body> <div class="content"> <h1>웹 페이지 내용</h1> <p>첫 번째 단락입니다.</p> <p>두 번째 단락입니다.</p> </div> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser')
-
태그 검색하기
BeautifulSoup
객체를 사용하여 웹 페이지의 특정 태그를 검색할 수 있습니다.find()
또는find_all()
메서드를 사용하여 원하는 태그를 검색합니다. 아래의 코드 예제를 참고하세요.# class가 "content"인 div 태그 찾기 content_div = soup.find('div', class_='content') # h1 태그 찾기 h1_tag = content_div.find('h1') # 모든 p 태그 찾기 p_tags = content_div.find_all('p') for p in p_tags: print(p.text)
출력 결과:
첫 번째 단락입니다. 두 번째 단락입니다.
Beautiful Soup를 사용하여 웹 페이지에서 태그를 이동하고 데이터를 추출하는 방법에 대해 간단하게 알아보았습니다. 이를 응용하여 웹 스크레이핑을 더욱 효율적으로 수행할 수 있습니다.
참고 문서: