Ubuntu 6.06
Últimas
Configurar el archivo robots.txt | Configurar el archivo robots.txt |
|
|
|
| Escrito por Valc | |
| miércoles, 23 de agosto de 2006 | |
|
INTRODUCCIÓN El archivo robots.txt(en minúsculas), no es más que el nombre de un archivo de texto, que se puede crear con nuestro editor favorito (con codificación ASCII) y ubicarlo en la carpeta donde el servidor interpretará http://localhost, por ejemplo, en Apache2 la ruta por defecto donde colocar el archivo, sería en /var/www La utilidad que cobra este archivo al rellenarlo correctamente, es la de poder indicar a los buscadores, que archivos o carpetas pueden, o no, escanear a partir del directorio donde lo hubieramos colocado, y carpetas que se pudieran encontrar en él. Ya que por defecto, el no disponer de este archivo o tenerlo mal configurado, se considerará por parte del robot, que se tiene permiso concedido para rastrear todo aquello que no se le indique correctamente como "privado" o de acceso restringido, me parece importante también recalcar que, se distinguirán mayúsculas y minúsculas para una identificación correcta. NO siendo lo mismo phpmyadmin que, PhpMyAdmin a la hora de indicar correctamente, que queremos impedir que sea rastreado y por lo tanto exento de aparecer en las búsquedas que pudieran otros realizar en los buscadores del tipo Google.
SINTAXIS .- User-agent: el robot al que se le aplicarán las condiciones de rastreo .- Disallow: Las páginas o carpetas que debe bloquear No hay un limite de entradas para los distintos "User-agent" a los que quisieramos condicionar en sus rastreos, ni tampoco lo hay para el número de carpetas o archivos, a anular de los buscadores. Siendo este el patrón que se sigue: User-agent: indentificador_del_robot Disallow: /carpeta_tal/ Disallow: /carpeta_cual/ Disallow: /archivo_pim.html Disallow: /archivo_pam.html User-agent: indentificador_de_otro_robot Disallow: /carpeta_tarari/ Disallow: /carpeta_cual/ Disallow: /archivo_pum.html Disallow: /archivo_pam.html
(nótese que los archivos, quedan delimitados solo usando una barra "/" al inicio y las carpetas, la requieren al inicio y final del nombre que las define) ¿Qué nos convendría proteger? Segundo: Una vez ahí, ver que cosas tengo instaladas (Utilidades, herramientas de administración..etc) y apuntarlas. Tercero: Editar o crear el archivo robots.txt , dentro del directorio raíz, y añadir tantos "Disallow" como carpetas quisieramos anular de las búsquedas. Por ejemplo, de existir bajo ese nombre de carpeta: (también podemos incluir archivos robots.txt dentro de cualquier otra carpeta distinta a la raíz. Solo hay que tener encuenta que el archivo, actuaría desde esa ruta donde este ubicado y por debajo de ella) ¿Podemos usar comodines? User-agent: * Usar User-agent junto con el comodín del asterisco, supondría indicarle "Cualquier robot rastreador", algo muy conveniente, si total, vamos a aplicar las mismas reglas a todos. Disallow: / Usar Disallow junto a la barra en el directorio raíz, supondria indicarle "Ningún archivo o carpeta de mi sitio". Lo cual estaría muy bien, si lo pudiesemos usar con "robots en lista negra", lo que pasa es que en pricipio, no va a ser posible por este medio; ya que precisamente lo que hace ese tipo de rastreadores es caso omiso a nuestro archivo "robots.txt" y en todo caso, sería impedirlo por otros medios, como averiguar cuales son e impedirles el acceso, por ejemplo, desde el archivo llamado por defecto en la instalación de Apache2, 000-default o desde el archivo .htaccess Aún con esa pega en contra podriamos tratar de dejarlo así: User-agent: Googlebot* Disallow: /carpeta1/ Disallow: /carpeta2/ Disallow: /carpeta3/ User-agent: * Disallow : / De este modo, permitimos solo el paso de "Googlebot", salvo por las carpetas que NO nos interese que rastree y que se pueden incrementar tanto como queramos o necesitemos.
Si queremos permitirlo a unos cuantos buscadores, es simplemente ir incrementando la lista de los que nos interese permitir y prohibir el resto de rastreadores por defecto, por ejemplo en el siguiente código permitimos los rastreos de google y de altavista, el resto, lo prohibimos: User-agent: Googlebot* Disallow: /carpeta1/ Disallow: /carpeta2/ Disallow: /carpeta3/ User-agent: Scooter Disallow: /carpeta1/ Disallow: /carpeta2/ Disallow: /carpeta3/ User-agent: * Disallow : /
Para crear o editar el archivo robots.txt en el directorio raíz del servidor por defecto: Aplicaciones >> Accesorios >> Terminal En la consola que se nos abre: sudo gedit /var/www/robots.txt Una vez añadidos o modificados los cambios, hay que guardar el archivo.
Podeis comprobar si la sintaxis de vuestro archivo robots.txt es correcta desde este enlace. Para mayor información podeis también consultar:
Información relacionada:
Nota informativa: Valorar los artículos o noticias que vayas leyendo, aunque no ofrezca lecturas reales, pues no todo el que lee algo, lo valora dejando constancia; puede ayudar sensiblemente a esta web a la hora dar prioridad a las nuevas publicaciones, según el interés que despierten otras de referencia y su valoración recibida . Por favor, considéralo, solo toma unos segundos.
Un cordial saludo. La administración
|
|
| Modificado el ( domingo, 28 de octubre de 2007 ) |
| < Anterior |
|---|
|
Al no ser profesional de la informática, ni experto del tema, puedo avanzarte que también está a tu alcance montar y administrar portales en internet, aún sin tener conocimientos de HTML u otros lenguajes de programación. Ésto se debe en gran medida a que prácticamente todo el proceso, se puede realizar con intuitivos "golpes de ratón" ..y lo que no se puede realizar a "golpes de ratón", se puede resolver siguiendo tutoriales "limpios" o con soporte. El escollo de mucha gente y por tanto factor decisivo a la hora de tomar la determinación de "montar una web", es la economía o un cierto temor a "tirar su dinero", es decir y por ejemplo, "me gustaría tener una web para tratar tal o cual tema; pero, no puedo afrontar el gasto mensual que ello supone." o "Estoy pensando en este proyecto para internet, pero si no tiene aceptación ¿Qué pasa con mi inversión?".... Así que, inicialmente se intentará afrontar el montaje desde casa, bajo ese punto de vista. Sin ánimo de meter "miedo, espanto o pavor"..sino más bien para que os podais formar idea de en que consisten o cuales van a ser los pasos o puntos a tratar y hasta donde debemos llegar para obtener el resultado final satisfactorio o próximo a nuestra idea inicial..... |