Inktomi solo lee robots.txt
Yahoo ha comprado Inktomi, y según decian, a mediados de este mes, iban a dejar los resultados de google en busqueda web, para pasar a los de Inktomi, parece que solo han hecho pruebas esporádicas hasta ahora.
De allí que veo la importancia de estar en Inktomi.
Aun no he encontrado ninguna razon ni solucion a esto:
Inktomi desde el 13/1 hasta hoy (29/1) solo lee mi robots.txt, y a veces muchas veces al día............como si buscaran algo.
He averiguado que slurp/si de inktomi lee el robots.txt, despues debería entrar slurp/cat a leer por lo menos index.
He escrito a Inktomi y ellos me mandan a su pagina de optimizacion para ser incluido...........como si algo fuera malo de la web.
Desconozco si he estado incluido antes o no.
Despues de hablar con webmasterword, me han dicho que con los links que tengo en Inktomi debería de estar incluido gratuitamente, y que no puede ser por tener fallos la web, porque si no han leido la index como van a saber.
Estos son las estadisticas del spider de Inktomi: y son de slurp/si
Spider Reguested File Number of Hits Bytes Transferred Tm
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 212 13/01/2004 21:31:35
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 212 14/01/2004 6:49:58
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 212 16/01/2004 14:55:07
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 212 17/01/2004 3:18:48
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 212 17/01/2004 8:09:45
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 212 17/01/2004 12:09:55
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 212 17/01/2004 17:25:09
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 7 945 19/01/2004 15:53:17
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 7 945 19/01/2004 15:53:47
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 19/01/2004 20:33:45
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 20/01/2004 9:40:26
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 20/01/2004 16:43:12
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 22/01/2004 1:32:10
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 22/01/2004 20:29:40
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 22/01/2004 22:58:42
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 22/01/2004 23:37:02
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 23/01/2004 3:51:38
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 23/01/2004 7:57:14
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 23/01/2004 12:27:58
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 23/01/2004 15:52:31
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 23/01/2004 19:52:50
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 24/01/2004 0:31:29
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 24/01/2004 4:35:36
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 1673 24/01/2004 7:07:27
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 1673 24/01/2004 11:53:54
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 1673 24/01/2004 16:52:02
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 1673 24/01/2004 20:17:12
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 1673 25/01/2004 2:01:00
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 25/01/2004 7:17:12
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 25/01/2004 11:20:02
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 25/01/2004 15:53:13
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 25/01/2004 20:06:12
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 26/01/2004 5:01:21
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 26/01/2004 11:02:27
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 26/01/2004 17:11:52
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 26/01/2004 20:32:14
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 27/01/2004 9:43:15
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 28/01/2004 5:39:24
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 28/01/2004 19:45:39
Inktomi (Hotbot & AOL & GoTo & MSN & Iwon) /robots.txt 1 135 29/01/2004 2:39:33
He comprobado mi robots.txt con varios comprobaderes de syntax y no tiene errores, he vuelto a hacerla con textpad y guardarla en unix, y despues volver a subirla en modo ascii, pero nada.
Al ver que seguia, he quitado el robots.txt por algunos dias, pero seguia igual, así que la volvi a subir.
A ver si alguien sabe, parece imposible
Hipster
joer.... materia fuerte esta de los buscadores...
podrias explicar un poco todo el post para los profanos en la materia?
orange
Igual no es el robot que indexa el contenido, sino alguna otra especie de bot, que busca otro tipo de información
No es como el GoogleBOT y el FreshBOT, ya que estos dos si que te indexan el site, pero es la idea
Yo que tú no me preocuparía, ya que si tu sitio sigue "las reglas", no tendrás problemas para que lo indexen ... no te preocupes por esos logs, estoy seguro de que el robot hará bien su trabajo
De todas formas si quieres copia aqui el texto de tu robots.txt y le echamos un ojo
pd: para los profanos, aqui está toda la info sobre ROBOTS.TXT
helenp
Hipster
joer.... materia fuerte esta de los buscadores...
podrias explicar un poco todo el post para los profanos en la materia?
Explicar exactamente cual de las cosas?
helenp
este es el robot................
User-agent: *
Disallow: /404.shtml
Disallow: /espanol/404.shtml
Disallow: /svenska/404.shtml
Disallow: /cgi-bin/
Disallow: /scgi-bin/
orange
Pues eso está bien
¿tienes la META de robots?
<meta name="robots" content="index,follow">
helenp
orange
Pues eso está bien
¿tienes la META de robots?
<meta name="robots" content="index,follow">
Si, y la tengo así: <META NAME="ROBOTS" CONTENT="index,follow">
Pero según entiendo el robot jamás llega a leer esa meta en la index, porque si lo hubiera hecho se vería en el log.
El día que quite el robots.txt para ver que pasa, seguía reflejando en las estadisticas que habian entrado buscando mi robots file, la única diferencia es que en error log file, me salian un monton de 404s........
orange
¿Y no será que no acaban de llegar al index?
¿No tendrás un redireccionamiento rrrarrro o algo asi?
Lo digo porque es posible que algo falle, en tu ROBOTS.txt tienes puesto en Disallow los 404, luego si resulta que el robot no encuentra la página pues trataria de ir al 404 ... como lo tienes "capado" pues se queda en el txt y se pira ... prueba de ello es que si lo quitas sí que te llegan al 404
Puedes hacer otra prueba, elimina los 404 del Disallow (pero mantén el txt), y si entonces, en lugar de llegarte al txt, van hasta el 404, es que algo no están encontrando el camino al index
Por cierto, los atributos de las etiquetas HTML mola que estén en minúsculas y cerrados ... ya sabes el XHTML (de hecho el otro ejemplo lo tengo mal, porque copié y pegué de la página de robots), el formato correcto sería así:
<meta name="robots" content="index,follow" />
Y no es que los robots no la lean, sino que pasan de ella, y en general de todas las METAS que pueden ser spameadas por los webmasters (keywords, description, etc ...)
helenp
no tengo ningun redireccionamente, mi htacces esta vacio, ahora si tengo un redireccionamiento en el 404: <meta HTTP-EQUIV="Refresh" CONTENT="5; URL=index.htm">
Bueno ya he quitado Disallow: /404.shtml
a ver que pasa, ya te diré.
Ya he puesto la meta en minusculas.
Para tenerlo cerrado tendría que tener la etiqueta xhtml no?
Ese tema lo voy a tocar cuando termino en pasarlo todo a css
orange
Lo del redireccionamiento en el 404 no te debería dar problemas, porque si llega ahí ya es que la cosa va regular
Imagino que si los dejas 5 segundos en el 404 es porque quieres que vean que ha habido un error, y luego los llevas al index, si no es asi dimelo que yo creo que hay mejores maneras de redireccionar directamente
Si la cosa sigue sin funcionarte, igual podrías sacar una pequeña "cuenta de la vieja" ... le metes en el .htaccess que los errores 404 vayan directamente al index ... de forma que si algún robot se pierde, irá al 404 ... es decir directito a tu home
De todas formas ese problema lo tienes sólo con ese robot ¿no?
helenp
Si solo con este robot.
La razon como lo tengo es que tengo 3 index, 2 en otras carpetas,
si los meto en el .htaccess los españoles y suecos irian al home inglesa, de esta manera van al index correcto siempre.
Si quiero que vean que hay un error, me parece mas correcto así.
Aunque lo mejor sería 3 paginas 404 distintos, lo estuve intentando, pero me cansé asi que puse texto con bandera en los tres idiomas en la misma pagina 404.
Tengo muchos 404, ya que quito y pongo paginas nuevas muy a menudo.
pd. gracias por todo
orange
Ya, es más chungo así ....
Pero el index que tienes como "principal" es página con contenido, ¿verdad? ... es decir, no hace cosas raras
No sé, te soy sincero, si es asi yo no creo que el robot no la encuentre ... y si no lo hace es problema del bot, no de tu web, con lo que tampoco te vas a arriesgar a cambiar cosas que afecten a otros ¿no?
No sé, si ves que la cosa sigue igual postea las recomendaciones que dan en inktomi para posicionamiento, junto con el mail que te enviaron y la estructura de tu web y lo repasamos todo
helenp
Si tiene contenido, y todos los metas que exigen. http://www.marbellasunrentals.com
Podría ser por no tener noscript o tener muchas paginas similares, pero nada de spam, como disponibilidad enero, febrero etc...........
pero realmente no creo.
Creo que es del bot, o que me tienen como baneado pero entonces no leerían mi robot con tanta frecuencia.
Es realmente raro.
No se si pagandoles cambiaría algo, igualmente les pago y sigue igual, Inktomi ha hecho eso a muchos.
Esperaré a ver,
a ver que pasa al quitar lo de 404
orange
OK, avisa con lo que sea, porque me tienes intrigado ... pero ya te digo que debería indexarte ... mándales otro mail
pd: y mete cosas en el noscript !!!
helenp
ya lo se, pero no entiendo lo de noscript, y no he tenido tiempo para estudiarlo, se me amontonan los trabajos, tienes algun buen link en español? lo de wc3 no lo entiendo
Me acabo de dar cuenta de un error.................. mea culpa
User-agent: *
Disallow: /404.shtml
Disallow: /espanol/404.shtml
Disallow: /svenska/404.shtml
Disallow: /cgi-bin/
Disallow: /scgi-bin/
en este robots pone Disallow: /espanol/404.shtml y Disallow: /svenska/404.shtml pero esos 404 no existen ya.................
eso era a lo primero cuando tenia 1 para cada index, podría ser por eso...........???????????
Lo he quitado, a ver que pasa
Que imbecil es uno, y siempre igual, uno ve la cosa y es como si uno no viera......................
orange
el noscript es una etiqueta que vale por si el navegador (en este caso el robot) no acepta el script
No sé qué script utilizas, pero si es algo que el robot no va a seguir (y redirecciones javascript no las va a seguir, porque no acepta javascript) tienes que meterle una alternativa
Es igual que el noframes, estoy harto de ver páginas indexadas en google que son en realidad frames ... qué pasa?, que todo el contenido está en las páginas interiores y no en el frameset ... con lo que el robot no le da casi valor a la página (al menos en cuanto a contenido)
Lo suyo es meter una buena descripción en la etiqueta noframes (o no script), rica en keywords, con etiquetas html (para que se le de importancia a los H1, a los STRONG ...) y con enlaces a las partes importantes del sitio (amén de utilizar un sistema en los frames por separado para que detecten si los han abierto solos y redireccionen al frameset)
Otra cosa, ¿hás probado a ver el site con Lynx? ... Lynx es un navegador sólo texto, que se asemeja muuucho a cómo va a ver una página un robot de búsqueda .... de forma que puedes encontrar diversos fallos
Linx http://www.delorie.com/web/lynxview.html
De lo del noscript no me acuerdo de enlaces, creo que saqué cosas al investigar sobre Javascript y Flash y su relación con los buscadores
helenp
orange
No sé qué script utilizas, pero si es algo que el robot no va a seguir (y redirecciones javascript no las va a seguir, porque no acepta javascript) tienes que meterle una alternativa
Linx http://www.delorie.com/web/lynxview.html
Bueno el script es un menu en javascript, y tengo al pie de paginas un sitemap con links normales.
Gracias por el link a lynx, ahora lo he visto, y se ve muy bien.
helenp
Bueno ha pasado lo peor............
desde 1/1 a 12/1 no he visto Inktomi, (antes no sabia como leer el raw file) desde el 13/1 hasta 29/1 (fecha de este post) ha pasado religiosamente varias veces al día..........
Y no ha vuelto a pasar desde el 29/1................argh
que frustración
meddle
no se si tienen nada que ver con este post, pero creo que os puede interesar:
Designing search engine friendly PHP pages
y
How Robots Work
helenp
Ha vuelto a pasar hoy................
lo mismo que antes, ha leido robots.txt y se ha ido.
Voy a escribirles otra vez, a ver que excusa me sueltan.
meddle
http://alta-posicionamiento-buscadores.blogspot.com/
helenp
Meddle,
ese link no funciona, será temporal........probaré despues,
que, has descubierto algo?
helenp
ese link es muy bueno, aunque no da respuestas a mi irritacion.............
ahora si no es realmente verdad lo que dice, que solo hay 3 o 4 buscadores............ bueno hay muchisimos, yo cuando empezé me apunté en todas que encontraba, por lo menos 500, me tiraba meses hasta las 4 de la mañana, y me ha servido no para tener tantas visitas de ellos sino para tener backlinks para obtener buena posición en google, y ya empezaba las visitas........... y pagar para que te lo hagan o comprar un programa............... lo peor que se pueda hacer.........manualmente,,,,,,,,, currando
helenp
¿Algo como esto es lo que tendría que meter en noscript?
tan facil..........
http://www.pablin.com.ar/computer/cursos/cursojs/js4.htm
< NOSCRIPT >
Lo siento, pero su navegador no es capaz de interpretar el lenguaje JAVA Script por lo que no podrá ver la página al 100% de sus posibilidades.
< /NOSCRIPT >
orange
Claro, pero dentro de la etiqueta metes una descripción del sitio, formateado HTML ojo (H1, STRONG ...), una versión entera de lo que quieres que encuentre el robot, con enlaces y todo si necesitas trazarla una ruta al robot
helenp
Eso es necesario para el robot? no creo, ya que tengo los links al final de cada página, precisamente debido al menu java script,
yo lo decía en vista al usuario.....y que se debe poner si usa script.
podriá poner algo de que podrá encontrar enlaces a las paginas principales al pie de cada página.
Ya que estoy, como se hace para desactivar los scripts, para ver como queda? supongo que en herramientas - opciones de internet.