#1 (permalink)  
Alt 02.01.2007, 19:31
Benutzer
 
Registriert seit: 28.08.2006
Beiträge: 33
Standard google crawl admin/start.php?!

wie kann das sein das Google die möglichkeit hat die start.php im admin zu crawlen ?!

Was linkt dort hin wenn nicht nur der Login ?!


Code:
00:01:13  	0  	Guest  	66.249.*.*  	18:25:58  	18:25:58  	/admin/start.php?
würde ich nicht zusätzlich einen htaccess laufen haben hätte/habe ich bedenken was es die Sicherheit angeht ?!
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #2 (permalink)  
Alt 06.01.2007, 21:57
Benutzer
 
Registriert seit: 05.01.2007
Ort: Heidenheim
Beiträge: 76
Standard

was soll man da sagen... da gibt es eine datei robots.txt die eigentlich verhindern soll, das crawler/robots dateien anlaufen von denen man das nicht möchte. jetzt stehen da dateien drin, bei denen der robot/crawler explizit mit disallow daraufhin gewiesen wird, das er die in ruhe lassen soll... naja, welcher bot hält sich daran? wohl kaum einer. lösung: die dateien aus der robots.txt rausnehmen (robots.txt disallowed bei mir verzeichnisse, nicht dateien und ausserdem allowed sie explizit die dateien die angelaufen werden dürfen), eine vernünftige .htaccess aufsetzen (sowieso unbeding erforderlich!) und dann kann man nur hoffen das der bot irgendwann aufhört die datei anzulaufen. leider hat er die jetzt im chache und wirds darum wohl immer wieder tun.
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #3 (permalink)  
Alt 09.01.2007, 11:10
Neuer Benutzer
 
Registriert seit: 19.12.2006
Ort: Erfurt
Beiträge: 22
Standard

Zitat:
Zitat von lebensform
eine vernünftige .htaccess aufsetzen (sowieso unbeding erforderlich!)
Sehe ich das richtig, dass ich damit komme ich im Stammverzeichnis des Shops aber auch nicht weit komme? Google hat bei uns auch popup_image.php indiziert. Prinzipiell habe ich nicht sonderlich viel dagegen. Jedoch liefert der (korrekte) Link nur eine leere Seite zurück. Und dagegen habe ich schon etwas.

Hast Du einen Tipp parat, wie wir das ändern können?
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #4 (permalink)  
Alt 09.01.2007, 12:00
Benutzer
 
Registriert seit: 05.01.2007
Ort: Heidenheim
Beiträge: 76
Standard

Zitat:
Sehe ich das richtig, dass ich damit komme ich im Stammverzeichnis des Shops aber auch nicht weit komme?
gerade im stammverzeichnis gehört die .htaccess hin. sie gewährt/verwehrt den zugriff zu alllen anderen dateien und unterverzeichnissen.
natürlich kann ein unterverzeichniss eine weitere .htaccess enthalten

google indiziert alles, wozu es einen link findet. die popup_image.php ist im shop verlink. eben auf die popups's daher indiziert google das auch.

Zitat:
Jedoch liefert der (korrekte) Link nur eine leere Seite zurück. Und dagegen habe ich schon etwas.
das kann nicht sein. ein korrekter link liefert eine html datei mit einem bild darin zurück und keine leere seite. google schneidet aber evtl die parameter ab. dann müsstest du eben die popup.php so abändern, dass, wenn keine parameter übergeben werden, sie einen standard text oder einen header('location: /index.php') oder etwas ähnliches zurück gibt.

Geändert von lebensform (09.01.2007 um 12:02 Uhr)
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #5 (permalink)  
Alt 09.01.2007, 12:56
Neuer Benutzer
 
Registriert seit: 19.12.2006
Ort: Erfurt
Beiträge: 22
Standard

Zitat:
Zitat von lebensform
gerade im stammverzeichnis gehört die .htaccess hin. sie gewährt/verwehrt den zugriff zu alllen anderen dateien und unterverzeichnissen.
natürlich kann ein unterverzeichniss eine weitere .htaccess enthalten
Ja, sorry. Da hatte ich einen Denkfehler. Ich wollte ja das Verzeichnis nicht komplett gegen Zugriffe von Außen abschotten. In einer anderen Installation habe ich eine .htaccess gefunden, die Files mit bestimmten Endungen ausschließt.

Code:
<Files *.inc>
Deny From All
</Files>
<Files *.class>
Deny From All
</Files>
Das könnte ich ja ändern und alle Datein ausschließen, die jetzt auch in der robots.txt ausgeschlossen sind (z.B. login.php, popup_image.php). Wie schließe ich aber ganze Verzeichnisse aus? Geht das überhaupt über eine zentrale .htaccess, oder muss ich dafür im auszuschließenden Verzeichnis eine weitere .htaccess erstellen, die alle Files ausschließt?

Zitat:
Zitat von lebensform
das kann nicht sein. ein korrekter link liefert eine html datei mit einem bild darin zurück und keine leere seite. google schneidet aber evtl die parameter ab. dann müsstest du eben die popup.php so abändern, dass, wenn keine parameter übergeben werden, sie einen standard text oder einen header('location: /index.php') oder etwas ähnliches zurück gibt.
Beispiel: Google hat diese URL indiziert. Der Klick auf dieser URL liefert zunächst eine leere Seite (auch Quelltext ist leer). Mit einem reload wird die Seite aber korrekt angezeigt. Any ideas?

Geändert von jfromm (09.01.2007 um 12:58 Uhr)
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #6 (permalink)  
Alt 09.01.2007, 13:23
Erfahrener Benutzer
 
Registriert seit: 19.07.2006
Ort: Hamburg
Beiträge: 912
Reden

Zitat:
Google hat diese URL indiziert. Der Klick auf dieser URL liefert zunächst eine leere Seite (auch Quelltext ist leer). Mit einem reload wird die Seite aber korrekt angezeigt. Any ideas?
Also ich krieg da sofort und ohne Reload ein Alpenbuch zu sehen
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #7 (permalink)  
Alt 09.01.2007, 13:26
Neuer Benutzer
 
Registriert seit: 19.12.2006
Ort: Erfurt
Beiträge: 22
Standard

Dann will ich mal hoffen, dass hier vielleicht nur unsere hauseigener Proxy oder sonst irgendeine Browser-Einstellung dazwischen funkt.
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #8 (permalink)  
Alt 09.01.2007, 13:32
Benutzer
 
Registriert seit: 05.01.2007
Ort: Heidenheim
Beiträge: 76
Standard

also wenn du in der .htaccess den zugriff auf die popup_image.php verwehrst, dann geht sie natürlich auch nicht mehr... ich habe beispielsweisse in einem älteren projekt eine .htaccess
Code:
<FilesMatch "\.(link|template|bak|content|part|func)$">
	Order allow,deny
	deny from all
</FilesMatch>
dadurch wird der zugriff auf alle dateien verwehrt, die nur durch skripte angesprochen werden dürfen (in diesem fall alle dateien mit endungen wie .link, .template, .bak, .content, .part oder .func), jedoch nicht über http zu ereichen sein sollen. skripte die du über http erreichen musst, dürfen da nicht ausgeschlossen werden. in diesem fall siehst du ja, dass keine dateien mit php endung einbezogen wurden und eine php-datei daher per http abgerufen(die ausführung angestossen) werden kann.

Zitat:
Zitat von jfromm
Wie schließe ich aber ganze Verzeichnisse aus? Geht das überhaupt über eine zentrale .htaccess, oder muss ich dafür im auszuschließenden Verzeichnis eine weitere .htaccess erstellen, die alle Files ausschließt?
so weit ich weiss kannst du den <directory>-container nur in der zentralen konfig verwenden, den zugriff auf ganze verzeichnisse also nur dort ausschliessen. auf die zentrale konfig wirst du aber keinen zugriff haben. da müsstes du deinen provider anfragen, aber: du kannst eine .htaccess im root anlegen und dort den zugriff auf alle dateien verswehren, von denen du das möchtest.
schnell noch was zur definition des gültigkeitsbereiches von .htaccess:
Zitat:
Zitat von http://de.selfhtml.org/servercgi/server/htaccess.htm
.htaccess-Dateien gelten stets für das Verzeichnis, in dem sie abgespeichert werden, sowie für alle Unterverzeichnisse davon und für deren Unterverzeichnisse. Wenn Sie in einem der Unterverzeichnisse andere Regelungen wünschen, müssen Sie dort wiederum eine .htaccess-Datei ablegen. Die Angaben der jeweils aktuellen Datei überschreiben die Angaben von .htaccess-Dateien aus darüberliegenden Verzeichnissen.
Zitat:
Zitat von jfromm
Beispiel: Google hat diese URL indiziert. Der Klick auf dieser URL liefert zunächst eine leere Seite (auch Quelltext ist leer). Mit einem reload wird die Seite aber korrekt angezeigt. Any ideas?
Heute 13:00
bei mir führt es nicht zu einer leeren seite. evtl. ist das ein caching problem auf deinem rechner oder dem server.

ich hab da übrigens was interessantes gefunden, gerade zu google und robots.txt: Funktionsweise - Spider trap
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #9 (permalink)  
Alt 09.01.2007, 15:03
Neuer Benutzer
 
Registriert seit: 19.12.2006
Ort: Erfurt
Beiträge: 22
Frage

Jetzt ist meine Verwirrung beinahe perfekt. Du hast weiter oben geschrieben:
Zitat:
Zitat von lebensform
gerade im stammverzeichnis gehört die .htaccess hin.
Aber was sollte eine .htaccess im konkreten Fall sinnvoller Weise enthalten? Fast alle XT-dateien enden auf .php. Welche tatsächlich ausführbar sein müssen und welche z.B. nur inkludiert werden, erkenne ich ohne tief greifendes Studium nicht.
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
  #10 (permalink)  
Alt 09.01.2007, 15:43
Benutzer
 
Registriert seit: 05.01.2007
Ort: Heidenheim
Beiträge: 76
Standard

include dateien die nicht direkt ausgeführt werden heissen in xt: dateiname.inc.php ausserdem könntest du im verzeichnis /includes/ eine .htaccess anlegen die nur
Code:
Order deny,allow
Deny from all
enthält und dadurch den zugrif auf alle dateien in diesem und den untergeordneten verzeichnissen per http unterbindet.

die .htaccess wird hier verwendet um den zugriff auf dateien via http zu unterbinden! damit nur ein bestimmter client/browser oder eine suchmaschine ausgeschlossen wird, müssen tiefergehende änderungen vorgenommen werden. siehe dazu den vorher von mir geposteten link.

die .htaccess im root beinhaltet also sinnigerweisse folgendes:
Code:
#  -----------------------------------------------------------------------------------------
#  $Id: .htaccess,v 1.2 2004/01/02 08:57:56 fanta2k Exp $
#
#  XT-Commerce - community made shopping
#  http://www.xt-commerce.com
#
#  Copyright (c) 2003 XT-Commerce
#  -----------------------------------------------------------------------------------------
#  based on: 
#  (c) 2000-2001 The Exchange Project 
#  (c) 2002-2003 osCommerce (.htaccess,v 1.1 2002/07/21); www.oscommerce.com
#  (c) 2003      nextcommerce (.htaccess,v 1.1 2003/09/06); www.nextcommerce.org
#
#  Released under the GNU General Public License 
#  -----------------------------------------------------------------------------------------
# This is used with Apache WebServers
#
# The following makes adjustments to the SSL protocol for Internet
# Explorer browsers
#
# For this to work, you must include the parameter 'Limit' to the
# AllowOverride configuration
#
# Example:
#
#<Directory "/usr/local/apache/htdocs">
#  AllowOverride Limit
#</Directory>
#
# 'All' with also work. (This configuration is in your
# apache/conf/httpd.conf file)www
#php_flag register_globals off
<IfModule mod_setenvif.c>
  <IfDefine SSL>
    SetEnvIf User-Agent ".*MSIE.*" \
             nokeepalive ssl-unclean-shutdown \
             downgrade-1.0 force-response-1.0
  </IfDefine>
</IfModule>
<FilesMatch "\.(inc.php|conf|DS_Store)$">
	Order allow,deny
	deny from all
</FilesMatch>
ich hoffe das stimmt so. wie gesagt um google explizit den zugriff zu verbieten musst du trickreicher vorgehen, das habe ich selbst bisher nicht gemacht. ich würde sagen das ist auch nicht nötig.

edit: da habe ich übrigens blödsinn geschrieben
Zitat:
Zitat von lebensform
(robots.txt disallowed bei mir verzeichnisse, nicht dateien und ausserdem allowed sie explizit die dateien die angelaufen werden dürfen),
das bezog sich auf meine .htaccess, nicht auf die robots.txt. disallowed hab ich mit einer .htaccess die zugriff auf alles unterbindet und dann in den unterverzeichnissen die jeweiligen dateien wieder allowed

Geändert von lebensform (09.01.2007 um 15:45 Uhr)
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Wong this Post!
Mit Zitat antworten
Antwort

Lesezeichen

Stichworte
admin or startphp, crawl, google

Themen-Optionen
Ansicht

Forumregeln
Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are aus
Pingbacks are aus
Refbacks are aus


Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
Contribution: Google Sitemap Modul gswkaiser Admininterface 133 16.05.2009 16:14
Google Adwords Conversion Tracking Limna Installation und Konfiguration 11 08.04.2008 20:30


Alle Zeitangaben in WEZ +1. Es ist jetzt 17:14 Uhr.

Copyright © 2011 xt:Commerce GmbH / xt:Commerce International Ltd. - All Rights Reserved

xt:Commerce is a SafeCharge brand