einzelne HTML-Seiten mit vor Robots schützen

wiwatech · 07.04.2006

Hi,

wie kann ich einzelne HTML-Seiten vor der Indizierung aller Crawler schützen?
Es soll nur die Startseite, bzw. die Datei: start.html (hab ein Frameset) indiziert werden und natürlich die Frames, bei denen ich das Frameet nachladen lasse.

Alle HTML-Seiten liegen im Hauptverzeichnis.

Hat jemand ne Ahnung??

MfG Wanckel

wiwatech · 07.04.2006

hi,
ich hab mir da nun mal was rausgesucht.

Weiß jemand, ob das so korrekt ist:

User-agent: *
Disallow: /überuns.html
Disallow: /abbruch.html
Disallow: /sanierung.html
Disallow: /demontagen.html
Disallow: /generalunternehmer.html
Disallow: /containerdienst.html
Disallow: /bausoffe.html
Disallow: /referenzen.html
Disallow: /kontakt.html
Disallow: /anfahrt.html
Disallow: /impressum.html
Disallow: /navi.html
Disallow: /logo.html
Disallow: /top1.html
Disallow: /topnavirechts.html
Disallow: /unten.html
Disallow: /recylingmaterialien.html
Disallow: /spielsand.html
Disallow: /mutterboden.html
Disallow: /vielesmehr.html
Disallow: /mineralgemische.html
Disallow: /asphalt.html
Disallow: /recyclingsand.html
Disallow: /referenzennavi.html
Disallow: /adressebredow.html
Disallow: /adresseberlin.html
Disallow: /anfahrtberlin.html
Disallow: /anfahrtbredow.html

Somit müsste ich doch nun allen Crawlern verbieten, die nachfolgend genannten HTML-Dateien zu indizieren!!??

Oder??

MFG Wanckel

connyas · 07.04.2006

Weiß jemand, ob das so korrekt ist:

Ist korrekt so

Somit müsste ich doch nun allen Crawlern verbieten, die nachfolgend genannten HTML-Dateien zu indizieren!!??

Falsch, mit einer robots.txt kannst du gar nichts verbieten, die robots.txt ist lediglich eineBitte an den Robot/Spider oder wie auch immer, diese/s Datei/Verzeichnis nicht zu durchsuchen.
Ob sich der Robot/Soider daran hält, dass steht in einem anderen Buch

Verbieten kannst du den Zugriff auf Verzeichnisse/Dateien nur durch eine .htaccess-Datei, bzw. direkt in der Webserver-Konfiguration.

wiwatech · 07.04.2006

Ok, danke!

Es geht auch lediglich darum, dass die unterseiten nicht in Google & Co. einzeln aufgelistet werden, das sie ja sonst ohne Frameset geladen werden, was nicht so schön ist!

Und mir ist das zu aufwendig überall das Frameset per Javascript nachladen zu lassen!
Ich dachte mir, das es so ein wenig unkomplizierter ist

Tarkus · 07.04.2006

@wiwatech:

Du kannst den Code verkürzen, indem du zunächst pauschal alles->'verbietest'' und dann nur die wenigen Seiten erlaubst, die indiziert werden sollen. Dann musst du die Datei robots.txt nicht jedes Mal ergänzen, wenn etwas Neues hinzu kommt.

User-agent: *
Disallow: /
Allow: /index.html
Allow: /start.html
Allow: /seite_x.html
Allow: /seite_y.html
Allow: /seite_z.html

Zusätzlich würde ich aber noch im Header der einzelnen Seiten aufnehmen, ob die jeweilige Seite indiziert werden soll (index/noindex) und ob die dort verlinkten Seiten ebenfalls indiziert werden sollen (follow/nofollow):

Aktuelle Seite und die darin verlinkten Seiten indizieren:
<meta name=robots content=INDEX,FOLLOW>

Aktuelle Seite, aber nicht die darin verlinkten Seiten indizieren:
<meta name=robots content=INDEX,NOFOLLOW>

Nicht die aktuelle Seite, wohl aber die darin verlinkten Seiten indizieren:
<meta name=robots content=NOINDEX,FOLLOW>

Weder die aktuelle Seite noch die darin verlinkten Seiten indizieren:
<meta name=robots content=NOINDEX,NOFOLLOW>

wiwatech · 07.04.2006

Das war mir schon klar, trotzdem danke nochmal!

Das mit dem Allow in der Robots.txt soll aber angeblich nicht so funktionieren!

Ich hab gelesen das nur Disallow definiert wurde!(Quelle: selfHTML)

Da steht drin, das man so nicht bestimmte Seiten zur Indezierung freigeben kann!

Was stimmt denn nun??

MfG Wanckel

Trotzdem danke!!!

connyas · 07.04.2006

Mit Disallow bist du jedenfalls auf der sicheren Seite.
Allow wird nicht von allen Robots/Spidern unterstützt

Tarkus · 08.04.2006

Mal abgesehen davon, dass die Datei robots.txt ohnehin nur eine freundliche Aufforderung an die Robots ist, aber keinerlei Garantie besteht, dass sie auch befolgt wird, ist die Allow-Angabe den Robots mittlerweile durchaus bekannt, denn gerade Suchmaschinen haben ja größtes Interesse daran, Seiten in ihren Index auzunehmen. Ich hatte jedenfalls bisher mit der Allow-Angabe noch keine Probleme, und ich setze sie schon recht lange ein.

einzelne HTML-Seiten mit vor Robots schützen

wiwatech

wiwatech

connyas

wiwatech

Tarkus

wiwatech

connyas

Tarkus

einzelne HTML-Seiten mit vor Robots schützen

ANGEBOTE & SPONSOREN

Neueste Themen

Statistik des Forums