Címke: robots.txt

Úgy is lehet fertőzött a honlapunk, hogy nem is tudunk róla!

Egyre sűrűbben találkozom olyan “feltört” webhellyel, amely látszólag nem viseli magán a klasszikus fertőzés nyomait, így a “bejelentett támadó webhely” címkét sem kapja meg, mégis sok fejtörést okoz a gazdájának, már ha rájön, hogy illetéktelenek módosították a honlap fájlait.

Elsőre talán mitologikus a fenti megfogalmazás, lássuk mire is gondolok konkrétan.

Korábbi bejegyzésekben többször is volt már szó a bejelentett támadó webhelyekről, ezért most ezekre külön nem térnék ki. Röviden annyi a lényeg, hogy egy, vagy több fájlba elhelyezik a károkozó kódot, ami aztán a böngészőből futtatva láttatja magát és megfertőzi a honlapot megtekintő személy gépét is. Általában ezek a kódok gyorsan kiderülnek, a Google támadó webhelyként próbálja megakadályozni elérésüket.

A gonosz oldal emberei azonban nem pihennek és újabb ötletekkel állnak elő. Most bemutatok kettőt ezek közül.

Robots.txt

Látszólag ártatlan szöveges fájl, a legtöbb webmester nem is használja, létezéséről sem tud. Ha megnyitja, akkor sem vesz benne észre különösebb problémát. Pedig egyre gyakoribb, hogy ide helyezik el az ártó szándékú sort. Gyakorlottabb webmesterek már valószínűleg sejtik, hogy mire is gondolok: egy szimpla Disallow: / sor kerül elhelyezésre ebbe a fájlba, ami lényegében egyet jelent a keresőkből való kizárással. Innentől fogva ugyanis a keresők messziről elkerülik honlapunkat és idővel az indexükből is eltüntetik azt, mivel ez a sor nem jelent más, mint azt, hogy saját magunk kérjük a keresők távolmaradását honlapunktól.

.htaccess

Ez a fájl még inkább rejtve marad az avatlan szemek elől, hiszen a Linux terminológia szerint a ponttal kezdődő fájlnevek rejtett fájlok. A legtöbb FTP program ezt tiszteletben is tartja és csak akkor mutatja meg ezt a fájlt, ha külön kérjük a rejtett fájlok mutatását. A .htaccess fájlba általában pár olyan sor kerül bele, ami azt éri el, hogy a keresőkből érkezve egy idegen, fertőzőtt weboldalra érkezzen a látogató, míg közvetlenül a saját URL-ünket beírva a saját honlapunkat látjuk. A módszer elég aljas és csak akkor észrevehető, ha saját honlapunkra a keresőből érkezünk – ami valljuk be, nem túl gyakori. Látogatóinkat viszont gyorsan elveszthetjük, ráadásul ők honlapunk helyett egy fertőzött weboldalon találják magukat.

Érdemes tehát résen lenni és figyelni! Ugyanakkor csak akkor kezdjünk bele a munkálatokba, felderítésbe, ha tudjuk mit csinálunk. A .htaccess fájl avatatlan módosítása az egész honlapunk leállását is eredményezheti! Ha csak lehet, bízzuk a munkát hozzáértőkre!

Hogyan lehet tartalmat eltüntetni a Google keresőből?

Ezen írás megjelent a logouton is, ott további kiegészítések, fórumkérdések/válaszok is találhatóak.

Gyakori kérdés ez a Google Webmester Súgócsoportban, természetesen van ennek is súgórésze, mégis sokszor felmerül a kérdés, ezért itt összefoglalom a tudnivalókat.

Két eset lehetséges. Természetesen az egyik, amikor nem a te tulajdonodban van az oldal és úgy szeretnél adott információt levetetni – ez a keményebb dió. Ha saját weboldalad egy aloldaláról van szó, úgy a Webmester Eszközök regisztráció és az alábbi tippek szintén segíthetnek.

Ha a honlap nem a te tulajdonodban van:

  • Megkérheted az adott oldal tulajdonosát, hogy távolítsa el az adott tartalmat
  • Te magad kéred ezt a Google-től (sajnos csak akkor van értelme, ha spamről van szó)
  • Ha szerzői jogaidat sérti, úgy itt nyújthatsz be panaszt
  • Ha úgy gondolod, hogy az adott oldal a PageRank növelése céljából követ el csalást (fizetett link, vagy illegálisan átvett tartalom, … ), akkor ezt jelentheted és valószínűleg törlik az adott oldalt

Egyik megoldás sem biztos, de legalább megtetted, ami tőled telik.

Ha az oldal a te kezelésedben áll:

  • Jelentkezz be a Google Webmester Eszközökbe és ott a az URL-eltávolítási kérelem aloldalon kérd az adott (már előzőleg beregisztrált és ellenőrzött) weboldaladról az adott oldal eltávolítását
  • Természetesen győzödj meg arról, hogy az oldal ne létezzen (404, vagy 410-es hibakóddal térjen vissza), vagy a robots.txt-ben így szerepeljen: Disallow: /adott_rul.html, vagy szerepeljen a noindex metateg az oldal fejlécében
  • Ha csak pár oldalrészletet szeretnél törölni és nem olyan sürgős az ügy, használd a noarchive teget

Ez esetben pár napon belül kikerül az indexből a tartalom, de neked kell rá figyelned, hogy a továbbiakban se legyen elérhető a kereső robotok számára az oldal, mert 90 nap múlva akár ismét be is indexelhetik (eddig szól ugyanis az eltávolítási parancs). Ha kicsit több időd is, van, érdemes átolvasni a kapcsolódó témaköröket is.