Leggi gli ultimi interventi sul forum
 
You are here: Sky ForumWebSviluppo webProteggersi dallo SPAM con htaccess
: [1]
Proteggersi dallo SPAM con htaccess
Proteggersi dallo SPAM con htaccess
« : October 29, 2008, 10:18:44 pm »

Sempre piĆ¹ spesso bot malevoli o infiltrati fanno visita su queste pagine sovraccaricando i server o cercando indirizzi email. Ultimamente un certo MUNAX, un bot mascherato che proviene dalla Svezia e che dice di compiere una missione di indicizzazione non si sa bene per quale scopo, sta indicizzando con due crawler alla volta questo sito. Non tiene conto del robots.txt e vende i dati (che Google ha impiegato anni ad indicizzare) in pochi giorni.

Quote
Why do they come in as users instead of robots.txt?
(a) Today, web servers are intelligent enough to react on the type of user agent. If our crawlers had a name, say MunaxRob or something like that, many web servers would not know about it and would return junk or maybe nothing at all.
(b) We want the web server to return a page to us where the page looks as close as possible to a page that can be viewed with a standard web browser.
I webmaster allora:
Quote
(a) webmasters would be fast to recognize a total bandwidth hog that was sucking everything at once without regard to the exclusions. Web servers would exclude the Munax asses quickly after seeing the burden they bring and would throw junk at the idiots.
(b) Munax wants to cache your whole site no matter what you want so they disguise as a user

Come difendersi dunque? Aggiungendo delle belle regolette semplici semplici al vostro file .htaccess e magari ridirezionandoli verso kittenwar.com o cose di questo genere con il mod rewrite se volete prendervi questo piacere immenso.

Vi allego le regole htaccess (per vederle dovete essere utenti registrati - non si sa mai gli svedesi) da utilizzare contro bot e spiders "infiltrati".

* deny.txt (66.52 kB - downloaded 1257 times.)
: [1]
You are here: Sky ForumWebSviluppo webProteggersi dallo SPAM con htaccess
: