[python] 파이썬 BeautifulSoup과 XML 파싱

04 Dec 2023

python

XML은 데이터를 구조화하여 저장하고 교환하는 데 많이 사용되는 형식입니다. XML 문서를 파싱하여 데이터를 추출하고 조작하는 것은 데이터 처리 작업에 중요한 부분입니다. 이를위해 파이썬에서는 BeautifulSoup라는 라이브러리를 사용할 수 있습니다.

BeautifulSoup이란?

BeautifulSoup은 HTML 및 XML과 같은 마크업 언어를 파싱하고 쿼리하여 데이터를 쉽게 추출할 수 있는 파이썬 라이브러리입니다. BeautifulSoup을 사용하면 복잡한 XML 구조에서 데이터를 추출하는 작업을 간단하게 수행할 수 있습니다.

BeautifulSoup 설치

BeautifulSoup은 pip를 사용하여 쉽게 설치할 수 있습니다. 다음 명령을 사용하여 BeautifulSoup을 설치합니다:

pip install beautifulsoup4

XML 파싱 예제

다음은 BeautifulSoup을 사용하여 XML 문서에서 데이터를 추출하는 간단한 예제입니다.

from bs4 import BeautifulSoup

# XML 문서를 문자열로 읽어옴
xml_data = '''
<students>
    <student>
        <name>John</name>
        <age>20</age>
    </student>
    <student>
        <name>Jane</name>
        <age>22</age>
    </student>
</students>
'''

# BeautifulSoup을 사용하여 XML 파싱
soup = BeautifulSoup(xml_data, 'xml')

# 학생들의 정보를 추출
students = soup.find_all('student')
for student in students:
    name = student.find('name').text
    age = student.find('age').text
    print(f'이름: {name}, 나이: {age}')

위의 예제에서는 XML 문서를 문자열로 읽어와서 BeautifulSoup 객체를 생성합니다. 그런 다음 find_all 메서드를 사용하여 해당 태그를 모두 찾고, find 메서드를 사용하여 해당 태그 내의 텍스트를 추출합니다.

결론

BeautifulSoup은 파이썬에서 XML 파싱을 쉽게 수행할 수 있는 강력한 도구입니다. BeautifulSoup을 사용하여 XML 문서에서 데이터를 추출하고 조작하여 데이터 처리 작업을 더 효율적으로 수행할 수 있습니다.