einzelne HTML-Seiten mit vor Robots schützen

  • #1
W

wiwatech

Bekanntes Mitglied
Themenersteller
Dabei seit
09.08.2005
Beiträge
168
Reaktionspunkte
0
Ort
Hamburg
Hi,

wie kann ich einzelne HTML-Seiten vor der Indizierung aller Crawler schützen?
Es soll nur die Startseite, bzw. die Datei: start.html (hab ein Frameset) indiziert werden und natürlich die Frames, bei denen ich das Frameet nachladen lasse.

Alle HTML-Seiten liegen im Hauptverzeichnis.

Hat jemand ne Ahnung??

MfG Wanckel
 
  • #2
hi,
ich hab mir da nun mal was rausgesucht.

Weiß jemand, ob das so korrekt ist:

User-agent: *
Disallow: /überuns.html
Disallow: /abbruch.html
Disallow: /sanierung.html
Disallow: /demontagen.html
Disallow: /generalunternehmer.html
Disallow: /containerdienst.html
Disallow: /bausoffe.html
Disallow: /referenzen.html
Disallow: /kontakt.html
Disallow: /anfahrt.html
Disallow: /impressum.html
Disallow: /navi.html
Disallow: /logo.html
Disallow: /top1.html
Disallow: /topnavirechts.html
Disallow: /unten.html
Disallow: /recylingmaterialien.html
Disallow: /spielsand.html
Disallow: /mutterboden.html
Disallow: /vielesmehr.html
Disallow: /mineralgemische.html
Disallow: /asphalt.html
Disallow: /recyclingsand.html
Disallow: /referenzennavi.html
Disallow: /adressebredow.html
Disallow: /adresseberlin.html
Disallow: /anfahrtberlin.html
Disallow: /anfahrtbredow.html


Somit müsste ich doch nun allen Crawlern verbieten, die nachfolgend genannten HTML-Dateien zu indizieren!!??

Oder??

MFG Wanckel
 
  • #3
Weiß jemand, ob das so korrekt ist:
Ist korrekt so ;)

Somit müsste ich doch nun allen Crawlern verbieten, die nachfolgend genannten HTML-Dateien zu indizieren!!??
Falsch, mit einer robots.txt kannst du gar nichts verbieten, die robots.txt ist lediglich eineBitte an den Robot/Spider oder wie auch immer, diese/s Datei/Verzeichnis nicht zu durchsuchen.
Ob sich der Robot/Soider daran hält, dass steht in einem anderen Buch ;)

Verbieten kannst du den Zugriff auf Verzeichnisse/Dateien nur durch eine .htaccess-Datei, bzw. direkt in der Webserver-Konfiguration.
 
  • #4
Ok, danke!

Es geht auch lediglich darum, dass die unterseiten nicht in Google & Co. einzeln aufgelistet werden, das sie ja sonst ohne Frameset geladen werden, was nicht so schön ist!

Und mir ist das zu aufwendig überall das Frameset per Javascript nachladen zu lassen!
Ich dachte mir, das es so ein wenig unkomplizierter ist
 
  • #5
@wiwatech:

Du kannst den Code verkürzen, indem du zunächst pauschal alles->'verbietest'' und dann nur die wenigen Seiten erlaubst, die indiziert werden sollen. Dann musst du die Datei robots.txt nicht jedes Mal ergänzen, wenn etwas Neues hinzu kommt.

User-agent: *
Disallow: /
Allow: /index.html
Allow: /start.html
Allow: /seite_x.html
Allow: /seite_y.html
Allow: /seite_z.html

Zusätzlich würde ich aber noch im Header der einzelnen Seiten aufnehmen, ob die jeweilige Seite indiziert werden soll (index/noindex) und ob die dort verlinkten Seiten ebenfalls indiziert werden sollen (follow/nofollow):

Aktuelle Seite und die darin verlinkten Seiten indizieren:
<meta name=robots content=INDEX,FOLLOW>

Aktuelle Seite, aber nicht die darin verlinkten Seiten indizieren:
<meta name=robots content=INDEX,NOFOLLOW>

Nicht die aktuelle Seite, wohl aber die darin verlinkten Seiten indizieren:
<meta name=robots content=NOINDEX,FOLLOW>

Weder die aktuelle Seite noch die darin verlinkten Seiten indizieren:
<meta name=robots content=NOINDEX,NOFOLLOW>
 
  • #6
Das war mir schon klar, trotzdem danke nochmal!

Das mit dem Allow in der Robots.txt soll aber angeblich nicht so funktionieren!

Ich hab gelesen das nur Disallow definiert wurde!(Quelle: selfHTML)

Da steht drin, das man so nicht bestimmte Seiten zur Indezierung freigeben kann!

Was stimmt denn nun??

MfG Wanckel

Trotzdem danke!!!
 
  • #7
Mit Disallow bist du jedenfalls auf der sicheren Seite.
Allow wird nicht von allen Robots/Spidern unterstützt ;)
 
  • #8
Mal abgesehen davon, dass die Datei robots.txt ohnehin nur eine freundliche Aufforderung an die Robots ist, aber keinerlei Garantie besteht, dass sie auch befolgt wird, ist die Allow-Angabe den Robots mittlerweile durchaus bekannt, denn gerade Suchmaschinen haben ja größtes Interesse daran, Seiten in ihren Index auzunehmen. Ich hatte jedenfalls bisher mit der Allow-Angabe noch keine Probleme, und ich setze sie schon recht lange ein.
 
Thema:

einzelne HTML-Seiten mit vor Robots schützen

ANGEBOTE & SPONSOREN

Statistik des Forums

Themen
113.840
Beiträge
707.963
Mitglieder
51.494
Neuestes Mitglied
Flensburg45
Oben