#1 (permalink)  
Alt 27.02.2008, 17:16
Benutzer
 
Registriert seit: 06.12.2007
Beiträge: 34
Standard Google spidert Session trotz Sessionvermeidung

Hallo zusammen,

wie kann man Google davon abhalten, den Shop mit Session zu indexieren?

Ich habe die Einstellung "Spider Session vermeiden? - True", allerdings leider nicht von Anfang an - sondern seit ca. 3 Wochen. Jedoch indexiert Google auch _neue_ Shop-Artikel mit Session, wobei Google diese Seiten definitiv nur mit der Spider-Session-No-Einstellung kennengelernt hat.

Der Google-Bot ist Tag und Nacht Dauergast. Eigentlich ja ganz schön, aber er legt unendlich viele Kopien der gleichen Seiten an (immer mit anderer Session) und lässt dabei die eigentlich wichtigen Seiten leider unberücksichtigt - In-Links sind damit auch sinnlos.

Was tun?

Google-freundliche URLs (sollte ja aber eigentlich darauf keinen Einfluss haben, oder?) und ein allproducts-Listing (Link unter der Navi ganz unten). Wäre superklasse, wenn sich mal jemand, der sich mit Sessions auskennt, unseren Hunde-Shop ansieht und Tipps gibt:

www.dogs4friends.de

Bei Google sieht ein neuer (!) Index-Eintrag dann so aus:

www.dogs4friends.de/product/120/wund-ex-forte-spray---von-cdvet.html?XTCsid=1e62df421ce1f345a70ea181be06f051


Interessanterweise gibt es ein paar wenige Einträge, bei denen Google die Session nicht indexiert hat. Warum auch immer.

1.000 Danke, wer das Problem löst !!!

Weitere Einstellungen:

Suchmaschinenfreundliche URLs: false (wg. extra Tool)
Spider-Session vermeiden? true
Cookie bevorzugen: False
Checken SSL Session ID: False (ist kein SSL drauf)
Checken User Browser: False (nach all den Warnungen hier im Forum scheue ich mich, das umzustellen. Wir sind übrigens bei all-inkl.com als Provider, hat jemand Erfahrung diesbezüglich?)
Checken der IP Adresse: False
Session erneuern: False

Was kann ich tun??? Besten Dank!!!!!
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #2 (permalink)  
Alt 27.02.2008, 18:07
Erfahrener Benutzer
 
Registriert seit: 30.05.2005
Beiträge: 590
Standard

Hallo

ich würde zuerst mal in die robots.txt überprüfen ggf ergänzen

Code:
User-agent: *
Disallow: /address_book_process.php 
Disallow: /account.php 
Disallow: /account_edit.php 
Disallow: /account_edit_process.php 
Disallow: /account_history.php 
Disallow: /account_history_info.php 
Disallow: /address_book.php 
Disallow: /checkout_process.php 
Disallow: /advanced_search.php 
Disallow: /advanced_search_result.php 
Disallow: /checkout_address.php 
Disallow: /checkout_confirmation.php 
Disallow: /checkout_payment.php 
Disallow: /checkout_success.php 
Disallow: /contact_us.php 
Disallow: /create_account.php
Disallow: /create_account_guest.php  
Disallow: /create_account_process.php 
Disallow: /create_account_success.php 
Disallow: /info_shopping_cart.php 
Disallow: /login.php 
Disallow: /logoff.php
Disallow: /password_double_opt.php
Disallow: /popup_image.php 
Disallow: /popup_search_help.php 
Disallow: /privacy.php 
Disallow: /product_notifications.php 
Disallow: /product_reviews.php 
Disallow: /product_reviews_info.php 
Disallow: /reviews.php 
Disallow: /shipping.php 
Disallow: /admin/
Disallow: /export/
Disallow: /download/ 
Disallow: /includes/ 
Disallow: /pub/ 
Disallow: /media/
Disallow: /*?XTCsid
damit die Session ID aus Google verschwindet würde ich nachfolgendes durchführen


Info:
Zum Betrieb des XT C Shops sind Session ID’s erforderlich. Was aber tun wenn nach der Installation die Option unter Konfiguration/Meta.tags “Spider Session vermeiden” nicht aktiviert wurde? Grundsätzlich sollte für den Shop die Google Webmaster Tools genutzt werden. Für die Erstellung einer Sitemap gibt es viele Tools. Bei Google findet man eine große Übersicht mit Links. Das wär schon mal der erste Schritt um Google alle Urls ohne Session ID’s mitzuteilen. Aber wie bekommt man nun die Urls die bereits im Cache sind wieder raus?

Anleitung:
Dazu ist in der Datei includes/application_top.php nach:

Code:
 // include the language translations
 require(DIR_WS_LANGUAGES . $language . '.php');
folgender Code einzufügen

Code:
if ( $spider_flag == true ){
 if ( eregi(tep_session_name(), $_SERVER['REQUEST_URI']) ){
$location = tep_href_link(basename($_SERVER['SCRIPT_NAME']), tep_get_all_get_params(array(tep_session_name())), 'NONSSL', false);
 header("HTTP/1.0 301 Moved Permanently");
 header("Location: $location"); // redirect...bye bye
 }
 }
Damit wird eine 301 Weiterleitung auf die Url ohne Session ID erreicht. Nach und nach verschwinden dann aus dem Index die Urls mit den Session ID’s.

hier auch noch der ausführliche Link

Gruß
Norbert
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #3 (permalink)  
Alt 17.03.2008, 20:54
Benutzer
 
Registriert seit: 06.12.2007
Beiträge: 34
Standard

Wollte nochmal Danke für den Tipp sagen - so langsam verschwinden die Session-URLs wahrhaft bei Google (mehr als 8.000 hat er schon gekillt).
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #4 (permalink)  
Alt 13.06.2008, 12:07
Benutzer
 
Registriert seit: 05.07.2007
Beiträge: 74
Standard Scheinbar besteht das Problem aber immer noch

Hallo flollo,

scheinbar hast Du aber immer noch das Problem mit den Session Ids. Hast Du Direkt Url?

Wir haben auch das Problem. Und keine Lösung. Und leider hat das mit der application_top.php nicht bei uns funktioniert.

Kann es sein, weil in der robot.txt "Disallow: /includes/" steht?

Grüße
saphira
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #5 (permalink)  
Alt 03.09.2009, 10:30
Benutzer
 
Registriert seit: 26.06.2009
Beiträge: 34
Ausrufezeichen

Hallo,

das gleiche Problem haben wir mit der 4.0.12 Version. Hier kann man aber nicht wie beschrieben vorgehen.

Hat jemand da eine Lösung gefunden?

Die SEO URL Funktion ist ja so nicht wirklich sinnvoll, da google den Shop so nicht mag und doppelten INhalt sieht.

Ich bekomme immer so was wie
http://www.meinedomain.de/meinartike...5d96197d9ba94d

Auch wenn ich mich mit wget als google ausgebe.

Geändert von pronord (03.09.2009 um 12:00 Uhr)
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #6 (permalink)  
Alt 06.09.2009, 22:00
Benutzer
 
Registriert seit: 01.06.2009
Beiträge: 35
Standard

Hallo ich habe nach dem update von 4.0.11 nach 4.0.12 auch gleiches Problem das die Session in URL angezeigt wird das war vorher nicht der Fall. Also auch sowas wie http://www.meinedomain.de/meinartike...5d96197d9ba94d

Wer hat bereits eine Lösung ???
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #7 (permalink)  
Alt 22.09.2009, 22:14
Neuer Benutzer
 
Registriert seit: 27.11.2007
Beiträge: 4
Standard

Zitat:
Zitat von wwwowtschik Beitrag anzeigen
Hallo ich habe nach dem update von 4.0.11 nach 4.0.12 auch gleiches Problem das die Session in URL angezeigt wird das war vorher nicht der Fall. Also auch sowas wie http://www.meinedomain.de/meinartike...5d96197d9ba94d

Wer hat bereits eine Lösung ???
Folgender Code-Patch hilft hier bei mir:

--- xtFramework/classes/class.agent_check.php.orig 2009-09-22 23:02:41.000000000 +0200
+++ xtFramework/classes/class.agent_check.php 2009-09-22 22:57:33.000000000 +0200
@@ -45,7 +45,7 @@
$bf = fopen( $bot_file, "r" ) ;

while (!feof($bf)) {
- $bots[] = fgets($bf, 4096);
+ $bots[] = trim(fgets($bf, 4096));
}
fclose($bf);

Problem ist das die Datei xtFramework/library/bots/bots.txt mit CRLF Zeilenenden gespeichert ist und diese bei fgets() unter Linux nicht komplett entfernt werden, wodurch die String-Vergleiche nicht mehr klappen. Mit explizitem entfernen aller Leerzeichen beim Einlesen geht es wieder.

Gruss
Sven-Haegar
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #8 (permalink)  
Alt 25.10.2009, 19:33
Benutzer
 
Registriert seit: 01.06.2009
Beiträge: 35
Standard

Zitat:
Zitat von touchbase Beitrag anzeigen
Folgender Code-Patch hilft hier bei mir:

--- xtFramework/classes/class.agent_check.php.orig 2009-09-22 23:02:41.000000000 +0200
+++ xtFramework/classes/class.agent_check.php 2009-09-22 22:57:33.000000000 +0200
@@ -45,7 +45,7 @@
$bf = fopen( $bot_file, "r" ) ;

while (!feof($bf)) {
- $bots[] = fgets($bf, 4096);
+ $bots[] = trim(fgets($bf, 4096));
}
fclose($bf);

Problem ist das die Datei xtFramework/library/bots/bots.txt mit CRLF Zeilenenden gespeichert ist und diese bei fgets() unter Linux nicht komplett entfernt werden, wodurch die String-Vergleiche nicht mehr klappen. Mit explizitem entfernen aller Leerzeichen beim Einlesen geht es wieder.

Gruss
Sven-Haegar
Das hat leider nicht geholfen. Gibt es vielleicht eine neue Lösung?
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #9 (permalink)  
Alt 11.04.2010, 18:33
Benutzerbild von kindspech
Erfahrener Benutzer
 
Registriert seit: 09.02.2007
Beiträge: 358
Standard

Hallo,

ich habe mich auch gewundert, dass ich nun bei Google XTCsid-Links gefunden habe..

auch ich hatte bereits Spider sessions vermeide = true gesetzt. in der robots steht unter anderem Disallow: XTCsid. nun habe ich bei Google in meinem Account unter Website-Konfiguration/Einstellungen/Parametereinstellungen anpassen/ eine Möglichkeit gefunden, XTCsid-Parameter zu ignorieren.

Zitat:
Google versucht zwar, Vorschläge zu berücksichtigen, kann aber nicht garantieren, dass sie in jedem Fall befolgt werden.
(Google)

Wie seid Ihr das Problem angegangen? Warum eigentlich werden die IDs nun gespeichert? Ich dachte, ich hätte das Thema schon abgehakt..

Liebe Grüße
Natascha
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #10 (permalink)  
Alt 11.04.2010, 19:58
Benutzerbild von kindspech
Erfahrener Benutzer
 
Registriert seit: 09.02.2007
Beiträge: 358
Lächeln

ich hoffe, das das auch so gut war.. jedenfalls habe ich gerade festgestellt, dass seit der veränderten Einstellung bei Google sämtliche XTCsid-Links verschwunden sind (binnen weniger Stunden).
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
Antwort

Lesezeichen

Stichworte
google, session, sessionvermeidung, spidert, trotz

Themen-Optionen
Ansicht

Forumregeln
Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are aus
Pingbacks are aus
Refbacks are aus



Alle Zeitangaben in WEZ +1. Es ist jetzt 13:40 Uhr.

Copyright © 2011 xt:Commerce GmbH / xt:Commerce International Ltd. - All Rights Reserved

xt:Commerce is a SafeCharge brand