[java] 자바 브라우저 자동화에서의 웹 페이지 텍스트 추출 방법

자바를 사용하여 브라우저를 자동화하고 웹 페이지에서 텍스트를 추출하는 방법에 대해 알아보겠습니다.

1. Selenium을 사용한 웹 페이지 접속

먼저 Selenium 웹 드라이버를 사용하여 웹 페이지에 접속합니다.

WebDriver driver = new ChromeDriver();
driver.get("https://example.com");

2. 웹 페이지에서 텍스트 추출

2.1. 특정 엘리먼트의 텍스트 추출

특정 엘리먼트의 텍스트를 추출하는 방법은 다음과 같습니다.

WebElement element = driver.findElement(By.id("elementId"));
String text = element.getText();
System.out.println(text);

2.2. 전체 페이지 텍스트 추출

전체 페이지의 텍스트를 추출하는 방법은 페이지의 소스코드를 가져와서 파싱하는 것입니다. 예를 들어, Jsoup 라이브러리를 사용하여 이를 수행할 수 있습니다.

String pageSource = driver.getPageSource();
Document doc = Jsoup.parse(pageSource);
String text = doc.text();
System.out.println(text);

3. 자원 관리 및 종료

작업을 마치고 나면 드라이버를 종료하여 리소스를 해제해야 합니다.

driver.quit();

이제 자바로 브라우저를 자동화하고 웹 페이지에서 텍스트를 추출하는 방법을 알아보았습니다. 원하는 웹 페이지의 데이터를 가져와서 활용할 수 있는 강력한 도구입니다.

위의 내용은 Selenium과 Jsoup을 사용하는 예시입니다.

참고 자료