wget을 이용해 다운받기 기타등등 Tips

wget 홈페이지
    https://eternallybored.org/misc/wget/

[원문 : http://blog.naver.com/addragon/140043349794]


  • Startup
    • -b, --background : 백그라운드로 작동한다.
  • Logging and Input File
    • -q, --quiet : 화면에 아무런 출력을 하지 않는다.
    • -nv, --non-verbose : 화면에 장황한 출력을 하지 않고 간단한 출력을 한다.
  • Download
    • -t number : number만큼 받기를 시도한다. (0은 무한대)
    • -O filename : 페이지를 filname으로 저장한다.
    • --spider : 페이지를 다운받지 않고 있는지 검사만 한다.
    • -T seconds : seconds동안만 서버의 응답을 기다린다.
    • -np : 상위 디렉토리에 있는 것은 빼고 원하는 파일이하의 디렉토리에서만 다운 받는다.
    • -A [콤마로 구분된 파일형식] : 나열된 파일형식만 받는다.
    • -R [콤마로 구분된 파일형식] : 나열된 파일형식만 받지 않는다.
  • Directory
    • -nd : 디렉토리를 만들지 않는다.
    • -P preifx : preifx의 디렉토리를 만들어서 결과를 저장한다.
  • Recursive Retrival
    • -r : 링크를 따라가면서 반복적으로 웹페이지를 가져온다. 기본 depth는 5이다.
    • -l depth : -r 옵션의 depth를 지정한다.
  • 기타
    • -e [환경변수]: .wgetrc 에 환경변수를 나열한 것과 같은 효과이다.
    • -e robots=off : robot.txt를 무시하고 받는다.
    • --header="User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; Windows NT)" : 특정브라우저로 위장한다.
  • 매번 같은 옵션을 커맨드라인에 사용하기 번거롭다면 .wgetrc를 사용하자.
  • 사용예
    • $ wget naver.com    :  naver.com의 첫 페이지만 받는다.
    • $ wget  -r -l 4 -A html,htm naver.com : naver.com을 level 4만큼 html,htm파일만 받는다.

https 프로토콜 파일의 경우 보안에 막혀 다운이 안받아지는 경우가 있다.
그럴때는 옵션에 --no-check-certificate 를 추가해 주자

덧글

댓글 입력 영역