[파이썬] Beautiful Soup 4 정렬된 XML 문서 다루기

06 Sep 2023

beautiful soup

XML은 데이터를 저장하고 전송하기 위한 형식으로 많이 사용됩니다. XML 문서에서 데이터를 추출하거나 변경해야 할 때가 종종 있습니다. 이러한 작업을 수행하기 위해 파이썬에서는 Beautiful Soup 라이브러리를 사용할 수 있습니다.

이번 포스트에서는 Beautiful Soup 4를 사용하여 정렬된 XML 문서를 다루는 방법에 대해 알아보겠습니다.

1. Beautiful Soup 설치

먼저 Beautiful Soup를 설치해야 합니다. 파이썬에서는 pip를 사용하여 간단하게 설치할 수 있습니다.

pip install beautifulsoup4

2. XML 파일 파싱하기

XML 파일을 파싱하는 것은 Beautiful Soup를 사용하여 간단한 작업입니다. 먼저 BeautifulSoup 클래스를 import하고 파싱하려는 XML 파일 이름과 파서를 전달하여 클래스 인스턴스를 생성합니다.

from bs4 import BeautifulSoup

# XML 파일을 파싱할 때는 파일 객체를 사용
with open('example.xml', 'r') as file:
    soup = BeautifulSoup(file, 'xml')

'xml'은 파서의 종류를 지정하는 매개변수입니다. Beautiful Soup는 다양한 종류의 파서를 지원하므로, 실제로 사용하려는 파서에 대한 문서를 참조하는 것이 좋습니다.

3. XML 태그 접근하기

파싱된 XML 문서에서는 Beautiful Soup의 다양한 메소드를 사용하여 원하는 데이터에 접근할 수 있습니다. 간단한 예제로 XML 문서의 모든 태그를 가져와 보겠습니다.

# 모든 태그 가져오기
tags = soup.find_all()
for tag in tags:
    print(tag.name)

위 코드는 XML 문서의 모든 태그를 가져와서 태그의 이름을 출력합니다.

4. XML 데이터 변경하기

Beautiful Soup를 사용하면 XML 문서의 데이터를 쉽게 변경할 수 있습니다. 예를 들어, XML 문서에서 특정 태그의 내용을 변경하는 방법을 알아보겠습니다.

tag = soup.find('tag_name')  # 변경하려는 태그를 찾음
tag.string = 'New content'  # 태그 내용 변경

위 코드에서는 find() 메소드를 사용하여 변경하려는 태그를 찾습니다. 그런 다음 .string 속성을 사용하여 태그 내용을 변경합니다.

마무리

이제 여러분은 Beautiful Soup 4를 사용하여 정렬된 XML 문서를 다루는 방법에 대해 알아보았습니다. 위에서 소개한 내용은 Beautiful Soup의 기본적인 사용법입니다. 더 복잡한 작업을 수행하려면 Beautiful Soup 문서를 참조하거나 다른 예제를 살펴보는 것이 좋습니다.

참고 문서: Beautiful Soup Documentation