Optimierte Robots.txt für WordPress & WooCommerce

blog website webdesign

Bei regelmäßigen Überprüfungen haben wir bemerkt, dass eine WooCommerce-Website, die auf unserem Webhosting betrieben wird, im Vergleich zur Anzahl der Besucher eine hohe CPU-Auslastung verursacht.

Eine weitere Untersuchung mit unserem SEO-Analysetool Ahref brachte hervor, dass das Limit für den Seiten-Crawl des gesamten Projekts bereits das Limit erreicht hatte.

Dabei tauchte im Crawl-Log verdächtigt häufig der Parameter ?add_to_wishlist= in den Ergebnissen auf.

Das Problem liegt nicht bei WooCommerce oder im “add-to-wishlist”-Format der Links, sondern daran, dass “?add_to_wishlist=”-Seiten nicht zwischenspeicherbar sind. Diverse Parameter treten vielfach in WooCommerce Systemen auf, wenn ein Benutzer angemeldet ist, wenn ein Benutzer Produkte in den Warenkorb hinzufügt oder diese ansieht.

Als wir die Zugriffsprotokolle überprüft haben, haben wir sofort bemerkt, dass Bots wie Googlebot, Bingbot und andere “add-to-wishlist”-Links indizieren. Diese Links können nicht zwischengespeichert und es besteht keine Notwendigkeit, dass sie indiziert werden, da sie andernfalls eine WooCommerce-Website verlangsamen, indem sie Rechenleistung für unnötige Dinge verwenden.

Wie kann man verhindern, dass Google und Ahref “add-to-wishlist”-Links durchsuchen?

Wir müssen darauf hinweisen, dass es WooCommerce-Themes gibt, die die “add-to-cart”-Funktion über Javascript ausführen und die Bots tatsächlich nicht mit diesen Links vertraut sind, es gibt jedoch auch WooCommerce-Themes, die “add-to-cart”-Links direkt in HTML-Dateien hinzufügen.

Egal, ob Ihre “add-to-cart”-Links über Javascript ausgeführt oder direkt in einer HTML-Datei hinzugefügt werden, es wird empfohlen, die Option zum Indizieren von unnötigen Parametern zu deaktivieren. Alles, was Sie unternehmen müssen, ist, in der Datei /robots.txt Parameter festzulegen, die den Robots mitteilen, dass “add-to-cart”-Links nicht indiziert werden sollen.

Beispiel robots.txt für WooCommerce

#Block WooCommerce assets
User-agent: *
Disallow: /cart/
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /kasse/
Disallow: /my-account/
Disallow: /mein-konto/
Disallow: /*?orderby=price
Disallow: /*?orderby=rating
Disallow: /*?orderby=date
Disallow: /*?orderby=price-desc
Disallow: /*?orderby=popularity
Disallow: /*?filter
Disallow: /*add-to-cart=*
Disallow: /*?add_to_wishlist=*


#Block Search assets
User-agent: *
Disallow: /search/
Disallow: *?s=*
Disallow: *?p=*
Disallow: *&p=*
Disallow: *&preview=*
Disallow: /search

Mit diesen Parametern werden die Crawler Ihre “add-to-cart”-Links und einige andere Seiten, die ebenfalls nicht zwischengespeichert werden können, nicht mehr indizieren. Das spart CPU, Arbeitsspeicher und in diesem Fall zusätzlichen Bandbreitenverbrauch.

Fazit

Bei Hosting-Anbietern, die nach CPU-Nutzung abrechnen, würde diese Maßnahme die monatlichen Kosten deutlich reduzieren. Auch bei einem herkömmlichen Webhosting reduziert sich die Auslastung der CPU deutlich. Beim Einsatz von Ahref sparen diese Einstellungen an der robots.txt außerdem wertvolle Crawling-Credits. Und zu guter Letzt profitiert die Gesamtbewertung bei den Google Crawlern, da ebenfalls wertvolle Crawling-Limits geschont werden und der Google Crawler sich auf wichtige Inhalte konzentrieren kann.

Interne Quelle: Confluence

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert