[파이썬] 웹 스크래핑과 번역 서비스 활용

01 Sep 2023

python

web scraping

소개

웹 스크래핑은 인터넷에서 데이터를 추출하는 과정을 의미합니다. 번역 서비스는 다른 언어로 쓰여진 내용을 원하는 언어로 번역해주는 서비스를 제공합니다. 이 두 가지 기술을 결합하여 활용하면, 웹 사이트에서 텍스트 데이터를 스크래핑한 후 번역 서비스를 통해 다른 언어로 번역된 데이터를 얻을 수 있습니다.

이 글에서는 Python 언어를 사용하여 웹 스크래핑과 번역 서비스를 어떻게 활용하는지 알아보겠습니다.

웹 스크래핑

웹 스크래핑을 위해 Python에서는 Beautiful Soup과 Requests 라이브러리를 이용할 수 있습니다. Beautiful Soup는 HTML 및 XML 파일에서 데이터를 추출하는 데 사용되며, Requests는 웹 페이지에 HTTP 요청을 보내고 내용을 가져오는 데 사용됩니다.

아래는 예시 코드입니다.

import requests
from bs4 import BeautifulSoup

url = "https://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

# 원하는 요소를 찾아내기 위해 CSS 선택자를 사용합니다.
title = soup.select_one("h1").text
paragraphs = soup.select("p")

print(title)
for p in paragraphs:
    print(p.text)

위 코드에서는 requests 라이브러리를 사용하여 주어진 URL에 HTTP GET 요청을 보냅니다. 그리고 해당 응답을 Beautiful Soup를 사용해 파싱하여 원하는 요소를 추출한 후 출력합니다.

번역 서비스

번역 서비스를 활용하기 위해 Google Cloud Translation API를 사용할 수 있습니다. Google Cloud Translation API는 다양한 언어 쌍을 서로 번역할 수 있는 강력한 API를 제공합니다. API 키를 발급받은 후, Python에서 해당 API를 호출하여 번역 요청을 할 수 있습니다.

아래는 예시 코드입니다.

from google.cloud import translate

def translate_text(text, target_language):
    client = translate.TranslationServiceClient()

    parent = client.location_path("PROJECT_ID", "global")

    response = client.translate_text(
        parent=parent,
        contents=[text],
        target_language_code=target_language,
    )

    for translation in response.translations:
        print(translation.translated_text)

text = "Hello, world!"
target_language = "fr"

translate_text(text, target_language)

위 코드에서는 google-cloud-translate 라이브러리를 사용하여 Google Cloud Translation API를 호출하여 번역 요청을 보냅니다. 번역된 결과는 원하는 언어로 출력됩니다.

웹 스크래핑과 번역 서비스 활용

이제 웹 스크래핑과 번역 서비스를 결합하여 활용해보겠습니다. 아래는 웹 스크래핑한 내용을 번역하는 예시 코드입니다.

import requests
from bs4 import BeautifulSoup
from google.cloud import translate

def scrape_and_translate(url, target_language):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, "html.parser")

    # 원하는 요소를 찾아내기 위해 CSS 선택자를 사용합니다.
    paragraphs = soup.select("p")

    client = translate.TranslationServiceClient()
    parent = client.location_path("PROJECT_ID", "global")

    for p in paragraphs:
        text = p.text
        response = client.translate_text(
            parent=parent,
            contents=[text],
            target_language_code=target_language,
        )
        for translation in response.translations:
            print(translation.translated_text)

url = "https://example.com"
target_language = "fr"

scrape_and_translate(url, target_language)

위 코드에서는 원하는 웹 사이트에서 텍스트를 스크래핑하여 추출한 후, 번역 서비스를 통해 해당 텍스트를 번역합니다. 번역된 결과는 원하는 언어로 출력됩니다.

결론

이렇게 Python을 사용하여 웹 스크래핑과 번역 서비스를 결합하여 다른 언어로 된 웹 페이지의 내용을 활용할 수 있습니다. 웹 스크래핑과 번역은 데이터 수집 및 분석에 유용한 기술이므로, 다양한 프로젝트에 적용해보세요.