[python] 파이썬 BeautifulSoup과 XML 파싱
XML은 데이터를 구조화하여 저장하고 교환하는 데 많이 사용되는 형식입니다. XML 문서를 파싱하여 데이터를 추출하고 조작하는 것은 데이터 처리 작업에 중요한 부분입니다. 이를위해 파이썬에서는 BeautifulSoup라는 라이브러리를 사용할 수 있습니다.
BeautifulSoup이란?
BeautifulSoup은 HTML 및 XML과 같은 마크업 언어를 파싱하고 쿼리하여 데이터를 쉽게 추출할 수 있는 파이썬 라이브러리입니다. BeautifulSoup을 사용하면 복잡한 XML 구조에서 데이터를 추출하는 작업을 간단하게 수행할 수 있습니다.
BeautifulSoup 설치
BeautifulSoup은 pip를 사용하여 쉽게 설치할 수 있습니다. 다음 명령을 사용하여 BeautifulSoup을 설치합니다:
pip install beautifulsoup4
XML 파싱 예제
다음은 BeautifulSoup을 사용하여 XML 문서에서 데이터를 추출하는 간단한 예제입니다.
from bs4 import BeautifulSoup
# XML 문서를 문자열로 읽어옴
xml_data = '''
<students>
<student>
<name>John</name>
<age>20</age>
</student>
<student>
<name>Jane</name>
<age>22</age>
</student>
</students>
'''
# BeautifulSoup을 사용하여 XML 파싱
soup = BeautifulSoup(xml_data, 'xml')
# 학생들의 정보를 추출
students = soup.find_all('student')
for student in students:
name = student.find('name').text
age = student.find('age').text
print(f'이름: {name}, 나이: {age}')
위의 예제에서는 XML 문서를 문자열로 읽어와서 BeautifulSoup 객체를 생성합니다. 그런 다음 find_all
메서드를 사용하여 해당 태그를 모두 찾고, find
메서드를 사용하여 해당 태그 내의 텍스트를 추출합니다.
결론
BeautifulSoup은 파이썬에서 XML 파싱을 쉽게 수행할 수 있는 강력한 도구입니다. BeautifulSoup을 사용하여 XML 문서에서 데이터를 추출하고 조작하여 데이터 처리 작업을 더 효율적으로 수행할 수 있습니다.