kontrola url

Diskuze o telefonování a telefonních službách, rady, návody, připomínky, ...
Odpovědět
mymartin
Příspěvky: 151
Registrován: čtv 11. úno 2016 22:36:45

kontrola url

Příspěvek od mymartin »

Existuje nějaký program který by vypsal veškeré url na doméně.
Děkuji za rady Obrázek
Uživatelský avatar
xsouku04
Administrátor
Příspěvky: 8146
Registrován: pát 15. říj 2010 11:11:44
Bydliště: Brno
Kontaktovat uživatele:

Re: kontrola url

Příspěvek od xsouku04 »

mymartin píše:Existuje nějaký program který by vypsal veškeré url na doméně.
Děkuji za rady Obrázek
K čemu to má být dobré? Existují programy na stahování celého webu.
Co je a co není URL, je ale poměrně těžké říct, protože někdy se další url rozlišuje jen pomocí dalšího GET parametru, jindy se tak jen odesílá formulář.
Je třeba stránka http://www.odorik.cz/ceny.html?cenikFiltr=Z další URL nebo nikoli? Kde je přesně hranice?
Dnes je celá řada webu jen v javascriptu, který data stahuje ve speciálním rozhraní, a tam už URL úplně ztrácí význam. Viz třeba http://www.odorik.cz/aw
A to jsou všechny věci, které sami, ač konzervativní a nemoderní, používáme. Ještě jsou zde moderní novinky, o kterých ani nevím, ale někdo jiný je může použít.
mymartin
Příspěvky: 151
Registrován: čtv 11. úno 2016 22:36:45

Re: kontrola url

Příspěvek od mymartin »

Jde mi o vypsání všech adres na konkretní doméně.
Příklad: odorik.cz

http://www.odorik.cz/obchod/kategorie/a ... -tg1611fxh
http://www.odorik.cz/obchod/kategorie/t ... et-a510-ip
https://www.odorik.cz/obchod/kategorie/ ... -terminalu
https://www.odorik.cz/obchod/kategorie/ ... sco-spa112
https://www.odorik.cz/obchod/kategorie/ ... am-gxp1160
https://www.odorik.cz/obchod/kategorie/ ... am-gxp1610
https://www.odorik.cz/obchod/kategorie/ ... am-gxp1620
https://www.odorik.cz/obchod/kategorie/ ... et-a510-ip


Hledám něco podobného jako
brokenlinkcheck.com nebo deadlinkchecker.com
ale na vypsaní všech adres s možností stáhnout data třeba do pdf.
Neznáte nějakou alternativu která nehledá jenom mrtvé adresy.
Potřebuji tento nástroj pro analýzu určitých stránek.
Děkuji za tipy :)
MaT
Příspěvky: 364
Registrován: pát 29. bře 2013 14:35:14

Re: kontrola url

Příspěvek od MaT »

No otázka je, co podle Vás přesně znamená "všechny adresy na dané doméně" a kde je chcete vzít. Jedna věc je jít na stránku www.odorik.cz a z ní se pokusit získat všechna URL. Jenže na té doméně odorik.cz může být spousta dalších adres, ale ty nejsou přímo na hlavní stránce www.odorik.cz, ale na nějakých podstránkách. Takže musíte stáhnout tyto stránky a v nich znovu hledat všechny URL. A i tak se nedostanete ke všem, některé jsou třeba jen pro registrované (a přihlášené uživatele). No a otázka pak je, jestli hledat jen to, co je v atributech href (u odkazů - a, obrázků - img, nebo i u něčeho dalšího), nebo i URL, které bude jen někde v textu a nebude označkováno jako odkaz. To druhé by bylo těžší a naráží na to, co píše pan Soukup - tedy jak poznat, co je odkaz a co už případně ne. Ale pomocí regular expression se to dá. Když jde jen o odkazy z atributů href, tak by na to možná šel s nějakými parametry použít wget nebo curl. Jinak to také často bývá úloha pro procvičení si některého programovacího jazyka (v Pythonu jsem to viděl určitě) - třeba něco jako: "Napište si crawler, který zjistí všechny odkazy do 3. úrovně..."
osmdesát
Příspěvky: 168
Registrován: úte 19. srp 2014 14:24:46

Re: kontrola url

Příspěvek od osmdesát »

Protokol http myslím bohužel nenabízí výpis podadresářů a souborů, tak jako to můžeme udělat na místním disku. Koneckonců, i kdyby nabízel, webmastři udělají vše pro to, aby to nebylo jednoduše možné. Zakazují obvykle i výpis, který výchozně generuje např. server apache, když vstoupím do nějakého adresáře, a většinou stejně vstup do adresáře volá index.php.
Jedna možnost je napsat nějaký crawler, který projede linky na hl. stránce, načte si stránky, na něž odkazují tyto linky, tam zase vyhledá linky, z nichž opět načte stránky atd., až nezbude žádný nepřečtený link. Takto se získá výpis všech zveřejněných linků. Ale to neznamená, že na doméně není ještě něco dalšího.
Pokud člověk hledá něco tajného, co má cenu zlata, použije útok hrubou silou, který náhodně zkouší názvy adresářů a podle reakce serveru usoudí, zda tam adresář je či není. Je to komplikovanější o to, že spousta z nich nevrací 404, ale nějakou obecnou korektně vypadající stránku. Na té bývá většinou napsána nějaká hláška, že to tam není, nebo vás to hodí na homepage. Tyhle anomálie je třeba v takovém botu ošetřit.
<nadsázka>V tomto směru je ale už jednodušší atakovat přímo ftp účet, vlézt do něj a z něj udělat přesný a detailní výpis všech souborů </nadsázka>

Osobně si myslím, že zdaleka nejjednodušší je na to použít google, který veškerou práci už udělal za nás. Dotaz site:odorik.cz vypíše vše, o čem google ví, že se na doméně nachází. Google má myslím i nějaké api, pomocí kterého lze ty vyhledané adresy získat v nějaké normální podobě.
Odpovědět