Strona domowa GDR!a Tor Hidden Service

V 3.8



Facebook, najgorszy z botów

(20. 07. 2012)

Z jakiegoś powodu, Facebook nie stosuje się do protokołu blokowania botów, znanego bardziej jako robots.txt. Każdy link do mojego contentu wstawiony na Facebooka skutkuje odwiedzinami od "facebookexternalhit/1.0" pomimo tego, że robots.txt wyraźnie zabrania botom dostępu do tej strony. FB nawet nie sprawdza pliku robots.txt, więc niby skąd miałby wiedzieć że nie powinien. Jakby tego było mało, trzymają u siebie kopię mojego contentu (część tekstu, obrazki) i co jakiś czas odświeżają sobie, sprawdzając czy aby nic nowszego nie mogą ukraść (nie piszę tu o tej stronie, która oczywiście jest publicznie dostępna).

Wstyd, duża firma, a praktyki jak u rosyjskich crackerów. Ponieważ nie stać mnie na bastion prawników większy niż ma do dyspozycji Zuckerberg, pozostaje rozwiązać problem społeczny za pomocą techniki. Ktoś już przede mną wykonał analizę źródeł niepożądanego ruchu, ja zdecydowałem się na razie zablokować jedynie user-agenty, nie zakresy adresów IP. W skrócie, wystarczyło dodać trzy linijki do configa lighttpd:

$HTTP["useragent" TARGET="_BLANK"> =~ "^(facebookexter|facebookplat)" {
url.rewrite-once = (".*" => "/copyright.html")
}

#firstworldproblems

(komentarzy: 2, ostatni: 04. 10. 2012 - 12:16:56 - slawek@g.pl) Skomentuj
Wyswietlen: 2962, komentarzy: 2 Feed z komentarzami


Imię: Spo0lsh (30. 07. 2012 - 20:13:29)

Treść:
Lubię to, przyda się :)



Imię: slawek@g.pl (04. 10. 2012 - 12:16:55)

Treść:
SŁAWA! :D

Sblam! Antyspam
URL encoded in QR Code Statystyki:

Email
Comments