[javascript] 자바스크립트 정규식으로 HTML 태그 제거

HTML에서 텍스트를 추출하거나 처리해야 하는 경우가 있습니다. 이때 정규식을 사용하여 HTML 태그를 제거할 수 있습니다. 자바스크립트에서 정규식을 활용하여 HTML 태그를 제거하는 방법을 알아보겠습니다.

1. 정규식을 사용한 HTML 태그 제거

아래는 replace 메서드와 정규식을 사용하여 HTML 태그를 제거하는 예제입니다.

const htmlString = "<p>안녕하세요</p>";
const textWithoutTags = htmlString.replace(/<[^>]*>/g, '');
console.log(textWithoutTags); // 결과: "안녕하세요"

위의 예제에서 정규식 /<[^>]*>/g<로 시작하고 >로 끝나는 모든 문자열을 찾아 제거합니다. 이를 통해 HTML 태그를 제거할 수 있습니다.

2. DOMParser를 사용한 HTML 태그 제거

또 다른 방법으로는 DOMParser를 사용하여 HTML 문자열을 파싱하고 textContent를 추출하는 방법이 있습니다.

const htmlString = "<p>안녕하세요</p>";
const parser = new DOMParser();
const parsedHtml = parser.parseFromString(htmlString, 'text/html');
const textWithoutTags = parsedHtml.body.textContent;
console.log(textWithoutTags); // 결과: "안녕하세요"

위의 예제에서는 DOMParser를 사용하여 HTML 문자열을 파싱하고, body의 textContent를 활용하여 HTML 태그를 제거했습니다.

이렇게 자바스크립트를 사용하여 정규식이나 DOMParser를 활용하여 HTML 태그를 제거할 수 있습니다. 이를 통해 HTML에서 순수한 텍스트를 추출하거나 처리할 수 있습니다.

더 자세한 정보는 MDN Web Docs의 DOMParser정규식를 참고하시기 바랍니다.