Honlapok letöltését segítő program

Itt egy teljes leírás róla amit nem én találtam ki:
pl.: wget -r honlap.hu

 letölti a teljes honlapotwget(1)NÉV
wget - egy program állományok letöltésére a World Wide Web-rõl ÁTTEKINTÉSwget [kapcsolók] [URL-lista] FIGYELMEZTETÉSAz itt található információk a Wget teljes dokumentációjának csak egy részét képezik. Nem naprakész. Az információs dokumentáció teljes, naprakész adatokat tartalmaz. Az információs dokumentációt az Emacs info alrendszerével vagy az info programmal lehet megtekinteni.LEÍRÁSWget egy program különbözõ állományok bináris letöltésére a World Wide Web-rõl HTTP (Hyper Text Átviteli Protokoll) és FTP (File Átviteli Protokoll) -n keresztül lemezre mentés céljára. Wget egy nem-interaktív program, amely azt jelenti, hogy a háttérben is tud dolgozni a felhasználó bejelentkezése nélkül, nem úgy, mint a legtöbb Web-böngészõ (tehát a program elindítása után nyugodtan ki lehet jelentkezni, a program tovább fog mûködni). A szerverrel való kapcsolat alapján dönti el, hogy az állományok megfelelõen kerültek-e letöltésre, és addig próbálja meg a letöltést míg az megfelelõ nem lesz, vagy a felhasználó által beállított értéket el nem éri. FTP szervereknél REST módot használja, ha lehetséges. Proxy szerverek használata támogatott, hogy a letöltést gyorsítsa, a hálózat terhelését csökkentse. Wget egy teljes körû letöltési mechanizmust használ, amellyel a Web nagy részét le lehet letölteni, hogy a távoli gép fa struktúráját a helyi gépen hozzuk létre. Természetesen a letöltési mélységet (rekurzió) és más paramétereket meg lehet adni. A letöltött dokumentumok figyelésével biztosítja a Wget, hogy a rekurzió sohase kerüljön végtelen ciklusba. Mind HTTP, mind FTP szervereknél alkalmazható. A letöltés folyamata könnyen nyomon követhetõ formában jelenik meg, pontokkal mutatva. Mindegyik pont 1k letöltött adatot jelent. Beépített funkciók segítik a letöltés finomhangolását, pl. mely hivatkozásokra (linkre) terjedjen ki a letöltés (Ld. -L, -D és -H kapcsolók). URL ELNEVEZÉSEKAz RFC1738 szabványban rögzített URL formák többsége használható. 2 alternatív forma megadása lehetséges a wget-ben, amely azt jelenti, hogy az alábbi módokon lehet megadni egy dokumentum helyét az Interneten:Hagyományos URL (ajánlott forma):http://gazdagép:[portszám]/elérésiút
http://fly.cc.fer.hr/
ftp://ftp.xemacs.org/pub/xemacs/xemacs-19.14.tar.gz
ftp://felhasználónév:jelszó@gazdagép/könyvtár/állomány

Csak FTP esetén használandó (ncftp-szerû):gazdagép:/könyvtár/állomány

Csak HTTP esetén használandó (netscape-szerû):
gazdagép(:portszám)/könyvtár/állomány


A felhasználónév és/vagy jelszó megadása az URL-ben az alábbi módon lehetséges:

ftp://felhasználónév:jelszó@gazdagép/könyvtár/állomány


Ha a fenti formák között nem tudjuk mi a különbség, akkor nyugodtan használhatjuk a lynx vagy netscape-nél alkalmazott formákat. Az alternatív formák nem elterjedtek, ezért lehet, hogy a jövõben nem fognak mûködni a Wget-ben.

OPCIÓKPár parancssori kapcsolóval lehet a wget -et vezérelni. Nem szükséges ezek mindegyikének teljes ismerete vagy használata, ha csak nem a program alapbeállításától eltérõ mûködést szeretnénk elérni. Egyszerû használathoz egyáltalán nem kell a különbözõ kapcsolókat használni. Jó tanács, hogy a gyakran használt beállításokat a .wgetrc állományban tároljuk. A következõ lista az összes kapcsolót bemutatja rövid magyarázattal csökkenõ fontossági sorrendben: -h --helpFelsorolja a lehetséges kapcsolókat. Segítséget nyújt a program használatához. Nem megfelelõ vagy hiányos parancssor használatakor is megjelenik.  -V --versionMegjeleníti a Wget verziószámát.  -v --verboseRészletes (verbose) kimenet az összes lehetséges információval. Alapesetben a kimenet csak a letöltéseket és hibaüzeneteket tartalmazza. Ha a kimenet a stdout, akkor alapértelmezett a részletes mód.  -q --quietCsöndes mód (quiet), a kimenet teljes hiánya.  -d --debugHibakeresõ (debug) mód. Csak akkor érhetõ el, ha a program a -DDEBUG opcióval lett fordítva. Ha a program fordítása így történt, akkor a kimenetben csak a -d kapcsoló megadása után jelenik meg többlet információ.  "-i állomány --input-file=állomány"A megadott állományból olvassa ki a szükséges URL-ket, ekkor nem szükséges a parancssorban URL-t megadni. Ha azonban mind a parancssorban, mind az állomány révén URL lett megadva, akkor elõször a parancssori URL kerül feldolgozásra. Az állománynak nem szükséges HTMLdokumentumnak lennie (de nem gond ha az), elég ha csak egymás után felsorolva vannak az URL-ek.Azonban, ha a -force-html kapcsolót használjuk, akkor az állományt HTML dokumentumként olvassa be. Ebben az esetben a problémát relatív hivatkozások (relativ links) okozhatják, amelyet a dokumentumban elhelyezett <base href="URL"> vagy a -base=URL kapcsoló megadásával lehet kiküszöbölni.  "-o naplóállomány --output-file=naplóállomány"A megadott naplóállományba (logfile) írja az üzeneteket a stdout helyett. Részletes kiment kerül a naplóállományba. Ha ez nem szükséges, akkor használjuk a -nv (nem részletes, non-verbose) opciót.  "-a naplóállomány --append-output=naplóállomány"Naplóállományhoz hozzáfûzés. Ugyanaz, mint az -o opció, csak hozzáfûzi az újabb üzeneteket a naplóállományhoz (vagy újat hoz létre, ha még nem létezik) ahelyett, hogy felülírná a régi állományt.  "-t szám --tries=szám"A szám-ban megadott értékre állítja az újrapróbálkozások (retries) számát. 0 a végtelen sok próbálkozást jelenti.  --follow-ftpHTML dokumentumokban található FTP hivatkozásokat is letölti.  -c --continue-ftpFTP állományok letöltésénél ott folytatja (continuing), ahol a letöltés megszakadt. A "wget -c ftp://sunsite.doc.ic.ac.uk/ls-lR.Z" paranccsal ha az aktuális könyvtárban már található egy ls-lR.Z állomány, akkor a wget a lokális állomány mérete utáni részt tölti le. Nem szükséges megadni a -c kapcsolót, ha folytatni akarjuk a letöltést megszakadó kapcsolatnál, mert a wget ezt önállóan megteszi, vagyis megpróbálja folytatni a megszakadt letöltést.Ahol használni kell ezt az opciót, az egy részben letöltött (más FTP programmal, vagy egy megállított wget-tel) állomány teljes letöltésénél.  "-g on/off --glob=on/off"Kiegészítés (globbing) be/kikapcsolása FTP letöltéskor. Alapesetben bekapcsolódik a kiegészítés, ha az URL helyettesítõ karaktereket tartalmaz (pl. csillag, kérdõjel). A kiegészítéssel több állományt lehet ugyanabból a könyvtárból letölteni egyetlen paranccsal, például ftp://gnjilux.cc.fer.hr/*.msg. A kiegészítés jelenleg csak Unix FTP szervereknél alkalmazható.  "-e parancs --execute=parancs"A parancsban megadott dolgot hajtja végre, úgy mintha a .wgetrc állományban lett volna megadva. A parancssorban megadott parancs elõbb kerül végrehajtásra, mint a .wgetrc állományban megadott, ha ott egyáltalán meg van adva.  -N --timestampingA dátum-méretjelzés (timestamping) figyelése, hogy a program megállapítsa szükséges-e a dokumentum letöltése. Ha a távoli állomány utolsó módosításának idõpontja régebbi, mint a helyi másolaté, és ha a méretük is azonos, akkor az állomány nem kerül letöltésre. Ez a kapcsoló a hetenként történõ HTTP vagy FTP tükrözésekkor hasznos, mivel nem engedi meg ugyanannak a dokumentumnak az újabb letöltését, ha az nem lett megváltoztatva.  -F --force-htmlHa a bemenet egy dokumentumból történik, akkor azt HTML-dokumentumként értelmezi. Ezzel a HTML-dokumentumban megadott relatív hivatkozások letöltését lehet elvégezni, ha a <base href> szerepel a bemeneti állományban vagy a -base kapcsoló meg lett adva a parancssorban.  "-B base_href --base=base_href"A base_href-ben megadott helyet fogja használni, mintha a bemeneti állományban szerepelt volna <base href="URL"> formában. Az állományban szereplõ cím felülírja a parancssorban megadottat.  -r --recursiveRekurzív (recursive) letöltés. Az URL protokolltól függõen ez két dolgot jelent. HTTP oldalak rekurzív letöltése azt jelenti, hogy a parancssorban megadott URL-t letölti, azt HTML-dokumentumként kezeli (ha egyáltalán az) és letölti mindazokat az állományokat, amelyekre a dokumentum hivatkozott, ezt folytatja egy megadott szintig (alapesetben ez 5 szint, -l opcióval megváltoztatható). wget a HTTP szerveren található könyvtárstruktúrával azonos struktúrába tölti le a dokumentumokat.Ez az opció bemutatóknál hasznos, ahol a lassú Internet kapcsolatot szeretnénk elkerülni. A legjobb eredményt akkor kapjuk, ha a hivatkozások relatívak, mivel így az oldalak a letöltött helyen is gond nélkül fognak mûködni.FTP esetén a rekurzív letöltés a megadott könyvtár összes alkönyvtárának letöltését jelenti, hasonlóan a HTTP rekurzív letöltéséhez.Jól meg kell gondolni a rekurzív letöltés használatát, mert az Internet kapcsolat nagy leterhelését eredményezheti. A terhelést a letöltés mélységének csökkentésével (Ld. -l) és/vagy az újrapróbálkozások számának csökkentésével (Ld. -t) lehet csökkenteni.  -m --mirrorTükrözés (mirroring) használata. Ez a rekurzió és dátum-méretfigyelés kombinációja.  "-l szint --level=szint"A rekurzív letöltés mélységét adja meg. Alapesetben ez 5. A megadott letöltési mélység elérésekor a letöltés visszatér a szülõkönyvtárba, és onnan megy tovább másik szálon. Így az -r -l1 használata csak egy dokumentumból történõ letöltést eredményez. A letöltés mélységének 0-t megadva (elméletileg) végtelen mélységû letöltés érhetõ el. Jól gondoljuk meg, mert a letöltött dokumentumok száma exponenciálisan növekszik a letöltés mélységével.  -H --span-hostsHost-ok átlépése rekurzív letöltéskor. Ld. -r és -D kapcsolók. Bõvebben a HIVATKOZÁSOK KÖVETÉSE részben.  -L --relativeCsak relatív hivatkozások követése. Adott honlap letöltésekor hasznos, mivel az akár ugyanazon szerveren lévõ dokumentumokat is figyelmen kívül hagyja, ha nem relatív a hivatkozás. Bõvebben a HIVATKOZÁSOK KÖVETÉSE részben.  "-D tartomány-lista --domains=tartomány-lista"A használandó és a DNS (Tartomány Név Szerver, Domain Name Server)-ben azonosított tartományok listája vesszõvel elválasztva. Ez nem helyettesíti a -H kapcsolót, ha szükséges, akkor azt külön is meg kell adni. A kapcsolóval gyorsítani lehet a feldolgozást, még ha csak egy szerverre is történik az átmenet. Bõvebben a HIVATKOZÁSOK KÖVETÉSE részben.  "-A lista / -R lista --accept=lista / --reject=lista"Vesszõvel felsorolt kiterjesztések, amelyek letöltése engedélyezett (Accepting) vagy nem engedélyezett (Rejecting). Például ha csak GIF és JPEG állományokat szeretnénk letölteni, akkor a -A gif,jpg,jpeg opciót használjuk. Ha viszont minden le szeretnénk tölteni a méretes MPEG és AU állományok kivételével, akkor az -R mpg,mpeg,au opciót használjuk. "-X lista --exclude-directories lista"Vesszõvel egymás után felsorolt könyvtárak neve, amelyeket nem szeretnénk letölteni (eXclude).  "-P prefix --directory-prefix=prefix"A letöltési állományok könyvtárát állítja be a prefix-ben megadottra (alapesetben ez "."). Az összes dokumentum és könyvtár a megadott könyvtárba kerül lementésre.  "-T szám --timeout=szám"Várakozási idõ (timeout) beállítása. Minden letöltéskor egy megadott idõ van engedélyezve a dokumentum olvasásának megkezdésére, ha ez nem történne meg akkor kapcsolat továbbra is élne, de nem adna eredményt. Alapesetben a várakozási idõ 900s (15 perc).  "-Y on/off --proxy=on/off"Proxy használatának engedélyezése/tiltása. Ha a megfelelõ környezeti változóban ez meg van adva, akkor automatikusan mûködésbe lép.  "-Q szám[KM] --quota=szám[KM]"Letöltési kvóta (quota) megadása byte-ban (alapértelmezett), kilobyte-ban vagy megabyte-ban. Elõnyösebb az rc állományban beállítani. Ld. késõbb.  "-O állománynév --output-do*****ent=állománynév"A dokumentumok nem a megfelelõ dokumentumnévvel kerülnek lementésre, hanem az állománynév-ben megadott egyetlen állományhoz kerülnek hozzáfûzésre. Ebben az esetben az újrapróbálkozások száma automatikusan 1. Ha `-' -t adunk meg, akkor a stdout-ra kerül a kiíratás, a -quiet kapcsoló pedig be lesz kapcsolva. Óvatosan használjuk ezt a kapcsolót mivel minden hibaüzenet kiírását kikapcsolja, így nem tudjuk megfelelõen ellenõrizni awget mûködését.  -S --server-responseKiírja a HTTP és/vagy FTP szerver által küldött válaszok fejlécét.  -s --save-headersLementi a HTTP szerver által küldött fejlécet a tényleges tartalom elõtt.  "--header=additional-header"Alternatív fejléc (header) megadása. Több eltérõ fejlécet is meg lehet adni. A fejléc nem tartalmazhat CR vagy LF kódot.  --http-user --http-passwdA HTTP szerverhez szükséges felhasználónév és jelszó magadása. Wget jelenleg csak a hagyományos authentikációs (ellenõrzési) módot kezeli.  -ncNem írja felül a rekurzív letöltéskor a már lementett dokumentumokat (not-clobber). Ez a kapcsoló akkor hasznos, ha egy megszakadt letöltést szeretnénk folytatni onnan, ahol megszakadt. Ekkor a .html vagy .htm dokumentumok a lemezrõl töltõdnek be és kerülnek feldolgozásra a Web letöltés folytatásához.  -nvNem részletes (non-verbose) mód használata, amellyel csak a hibaüzenetek és az alapvetõ információk kerülnek kijelzésre. A -quiet opcióval lehet teljesen megszüntetni a kijelzést.  -ndRekurzív letöltéskor nem hozza létre a szükséges könyvtárstruktúrát (no-directories). Ezzel a kapcsolóval az összes dokumentum egyetlen könyvtárba kerül letöltésre felülírás nélkül (ha ugyanazon állománynév többször fordul elõ, akkor .n kierjesztéssel kerül az újabb állomány lementésre).  -xAz -nd ellentétes opciója. Könyvtárstruktúra létrehozása még akkor is, ha nem lenne szükséges a letöltésnél.  -nhAz idõt rabló DNS-azonosítás kikapcsolása minden hostra. Bõvebben a HIVATKOZÁSOK KÖVETÉSE részben.  -nHKikapcsolja gazdagép-névvel megegyezõ könyvtár létrehozását (no-hostname). Alapesetben a http://fly.cc.fer.hr cím egy fly.cc.fer.hr könyvtárat fog létrehozni, ahova a dokumentumok letöltésre kerülnek. Ezzel az opcióval ezt lehet megelõzni.  --no-parentNem lép feljebb a szülõkönyvtárnál.  -k --convert-linksNem relatív hivatkozások (non-relativ links) konvertálása a helyi gépen relatív hivatkozásokra. HIVATKOZÁSOK KÖVETÉSEA rekurzív letöltésnél meg lehet adni, hogy mely hivatkozások legyenek figyelembe véve. Csak relatív hivatkozásokHa csak a relatív hivatkozások kerülnek letöltésre (-L kapcsoló), akkor a rekurzív letöltés sohasem tölt le egy másik szerverrõl.