einzelne HTML-Seiten mit vor Robots schützen

Dieses Thema einzelne HTML-Seiten mit vor Robots schützen im Forum "Webentwicklung, Hosting & Programmierung" wurde erstellt von wiwatech, 7. Apr. 2006.

Thema: einzelne HTML-Seiten mit vor Robots schützen Hi, wie kann ich einzelne HTML-Seiten vor der Indizierung aller Crawler schützen? Es soll nur die Startseite, bzw....

  1. Hi,

    wie kann ich einzelne HTML-Seiten vor der Indizierung aller Crawler schützen?
    Es soll nur die Startseite, bzw. die Datei: start.html (hab ein Frameset) indiziert werden und natürlich die Frames, bei denen ich das Frameet nachladen lasse.

    Alle HTML-Seiten liegen im Hauptverzeichnis.

    Hat jemand ne Ahnung??

    MfG Wanckel
     
  2. hi,
    ich hab mir da nun mal was rausgesucht.

    Weiß jemand, ob das so korrekt ist:

    User-agent: *
    Disallow: /überuns.html
    Disallow: /abbruch.html
    Disallow: /sanierung.html
    Disallow: /demontagen.html
    Disallow: /generalunternehmer.html
    Disallow: /containerdienst.html
    Disallow: /bausoffe.html
    Disallow: /referenzen.html
    Disallow: /kontakt.html
    Disallow: /anfahrt.html
    Disallow: /impressum.html
    Disallow: /navi.html
    Disallow: /logo.html
    Disallow: /top1.html
    Disallow: /topnavirechts.html
    Disallow: /unten.html
    Disallow: /recylingmaterialien.html
    Disallow: /spielsand.html
    Disallow: /mutterboden.html
    Disallow: /vielesmehr.html
    Disallow: /mineralgemische.html
    Disallow: /asphalt.html
    Disallow: /recyclingsand.html
    Disallow: /referenzennavi.html
    Disallow: /adressebredow.html
    Disallow: /adresseberlin.html
    Disallow: /anfahrtberlin.html
    Disallow: /anfahrtbredow.html


    Somit müsste ich doch nun allen Crawlern verbieten, die nachfolgend genannten HTML-Dateien zu indizieren!!??

    Oder??

    MFG Wanckel
     
  3. Ist korrekt so ;)

    Falsch, mit einer robots.txt kannst du gar nichts verbieten, die robots.txt ist lediglich eineBitte an den Robot/Spider oder wie auch immer, diese/s Datei/Verzeichnis nicht zu durchsuchen.
    Ob sich der Robot/Soider daran hält, dass steht in einem anderen Buch ;)

    Verbieten kannst du den Zugriff auf Verzeichnisse/Dateien nur durch eine .htaccess-Datei, bzw. direkt in der Webserver-Konfiguration.
     
  4. Ok, danke!

    Es geht auch lediglich darum, dass die unterseiten nicht in Google & Co. einzeln aufgelistet werden, das sie ja sonst ohne Frameset geladen werden, was nicht so schön ist!

    Und mir ist das zu aufwendig überall das Frameset per Javascript nachladen zu lassen!
    Ich dachte mir, das es so ein wenig unkomplizierter ist
     
  5. @wiwatech:

    Du kannst den Code verkürzen, indem du zunächst pauschal alles->'verbietest'' und dann nur die wenigen Seiten erlaubst, die indiziert werden sollen. Dann musst du die Datei robots.txt nicht jedes Mal ergänzen, wenn etwas Neues hinzu kommt.

    User-agent: *
    Disallow: /
    Allow: /index.html
    Allow: /start.html
    Allow: /seite_x.html
    Allow: /seite_y.html
    Allow: /seite_z.html

    Zusätzlich würde ich aber noch im Header der einzelnen Seiten aufnehmen, ob die jeweilige Seite indiziert werden soll (index/noindex) und ob die dort verlinkten Seiten ebenfalls indiziert werden sollen (follow/nofollow):

    Aktuelle Seite und die darin verlinkten Seiten indizieren:
    <meta name=robots content=INDEX,FOLLOW>

    Aktuelle Seite, aber nicht die darin verlinkten Seiten indizieren:
    <meta name=robots content=INDEX,NOFOLLOW>

    Nicht die aktuelle Seite, wohl aber die darin verlinkten Seiten indizieren:
    <meta name=robots content=NOINDEX,FOLLOW>

    Weder die aktuelle Seite noch die darin verlinkten Seiten indizieren:
    <meta name=robots content=NOINDEX,NOFOLLOW>
     
  6. Das war mir schon klar, trotzdem danke nochmal!

    Das mit dem Allow in der Robots.txt soll aber angeblich nicht so funktionieren!

    Ich hab gelesen das nur Disallow definiert wurde!(Quelle: selfHTML)

    Da steht drin, das man so nicht bestimmte Seiten zur Indezierung freigeben kann!

    Was stimmt denn nun??

    MfG Wanckel

    Trotzdem danke!!!
     
  7. Mit Disallow bist du jedenfalls auf der sicheren Seite.
    Allow wird nicht von allen Robots/Spidern unterstützt ;)
     
  8. Mal abgesehen davon, dass die Datei robots.txt ohnehin nur eine freundliche Aufforderung an die Robots ist, aber keinerlei Garantie besteht, dass sie auch befolgt wird, ist die Allow-Angabe den Robots mittlerweile durchaus bekannt, denn gerade Suchmaschinen haben ja größtes Interesse daran, Seiten in ihren Index auzunehmen. Ich hatte jedenfalls bisher mit der Allow-Angabe noch keine Probleme, und ich setze sie schon recht lange ein.
     
Die Seite wird geladen...

einzelne HTML-Seiten mit vor Robots schützen - Ähnliche Themen

Forum Datum
Löschen einzelner Einträge in der Systemsteuerung Windows 10 Forum 15. Aug. 2016
Einzelne Zellen in Spalte bedingt Formatieren Microsoft Office Suite 16. Mai 2016
SSD - Einzelne Dateien sicher löschen Windows 10 Forum 1. Apr. 2016
Einzelne Zeilen aus Tabelle Drucken. StarOffice, OpenOffice und LibreOffice 15. März 2016
Hunderte einzelne PDF-Dateien automatisch in Bilddateien umwandeln! Geht das? Software: Empfehlungen, Gesuche & Problemlösungen 13. Okt. 2014