[python] HTTPie를 사용하여 웹 페이지의 제목을 추출하는 방법은 어떻게 되나요?
HTTPie는 Python으로 작성된 간단하면서도 유용한 명령 줄 HTTP 클라이언트입니다. 이를 사용하여 웹 페이지의 제목을 추출하는 방법은 아래와 같습니다.
먼저, HTTPie를 설치해야 합니다. 다음 명령어를 사용하여 설치할 수 있습니다.
pip install httpie
설치가 완료되었다면, 다음 명령어를 사용하여 웹 페이지의 제목을 추출할 수 있습니다.
http -b HEAD <URL> | grep -i -m 1 '<title>' | sed -e 's/<[^>]*>//g' | sed -e 's/^[ \t]*//'
위 명령어에서 <URL>
부분에 원하는 웹 페이지의 URL을 입력하면 됩니다. 이 명령어는 다음과 같은 작업을 수행합니다.
http -b HEAD <URL>
: HEAD 요청으로 웹 페이지의 헤더 정보를 가져옵니다.grep -i -m 1 '<title>'
: 헤더 정보에서 첫 번째로<title>
태그를 포함하는 행을 찾습니다.sed -e 's/<[^>]*>//g'
: HTML 태그를 제거합니다.sed -e 's/^[ \t]*//'
: 문자열 앞의 공백을 제거합니다.
이렇게 명령어를 실행하면 해당 웹 페이지의 제목을 출력할 수 있습니다.
참고문헌:
- HTTPie 공식 문서: https://httpie.io/
- HTTPie GitHub 저장소: https://github.com/httpie/httpie