La primera vegada que vaig llegir aquest títol em va sobtar i em vaig preguntar, què deu ser això tant esotèric?, així que us en faré cinc cèntims.
El terme ve de l’any 1994 quan la doctora Jill Ellsworth va utilitzar aquest terme de “Invisible Web”, per referir-se a la informació que els motors de cerca tradicionals no poden trobar.
No obstant una altra manera de parlar del mateix terme és fent servir les paraules “depp web” es a dir Internet profund ja que en realitat no és invisible, sinó que aquesta informació amb presència a Internet, no està indexada.
El terme ve de l’any 1994 quan la doctora Jill Ellsworth va utilitzar aquest terme de “Invisible Web”, per referir-se a la informació que els motors de cerca tradicionals no poden trobar.
No obstant una altra manera de parlar del mateix terme és fent servir les paraules “depp web” es a dir Internet profund ja que en realitat no és invisible, sinó que aquesta informació amb presència a Internet, no està indexada.
L’origen de l’Internet Invisibles és degut a la forma en què els cercadors, indexen les pàgines web, mitjançant el programa “spider” que inspecciona les pàgines de la xarxa seguint els seus enllaços, d’aquesta manera es va creant una base de dades dels metacercadors. Així a l’hora de buscar una pàgina no ho fa en tota la xarxa sinó en aquestes bases de dades, agilitant la recerca.
Podem parlar de tres tipus d’Internet:
· Internet global: xarxa d’informació lliure i gratuïta que és accessible mitjançant interconnexió d’ordinadors. S’utilitzen programes navegadors, xats, missatgeria o intercanvi de protocols com ftp, p2p i altres.
· Internet invisible: informació que està disponible a Internet però que únicament es accessible a través de pàgines generades dinàmicament desprès de realitzar una consulta en una base de dades. Es inaccessible pels procediments habituals dels agents de búsqueda o directoris, però es pot accedir mitjançant eines de navegació apropiades, correu, etc.
· Internet fosc: fa referència als servidors o host que són totalment inaccessibles. Són zones restringides amb finalitats de seguretat nacional i militar, o bé la configuració incorrecta de routers, serveis de tallafocs i protecció, servidor inactiu o be “segrest” de servidors per utilització il·legal.
Causes d’invisibilitat:
Les pàgines dinàmiques no són idexables, per això han de ser estàtiques i tenir els enllaços cap a d’altres pàgines o ser referència en alguna d’elles.
Un altre problema és el format que conté la informació, els motors de cerca van ser creats per descarregar, llegir i indexar pagines html, per aquest motiu qualsevol altre format es torna invisible davant d’ells com les imatges, àudio, vídeo, arxius pdf, postcript, executables, etc. No obstant algun cercador com Altavista i Google estan oferint ja alguna possibilitat en la cerca d’algun d’aquest formats. Aquest fet provoca que molts informes i estudis que contenen informació valuosa que estan disponibles en la web de forma pública i oberta, com no són indexables, són inaccessibles.
Respecte a les bases de dades, sí podem accedir a les pàgines principals perquè son pagines html, però no podem accedir a la resta, la solució consisteix en generar interfases de consulta unificades que enviaran una mateixa consulta a diferents bases de dades des d’una mateixa pagina web, en aquest cas s’utilitzen els multicercadors o metacercadors.
Tanmateix alguns servidors exclouen els motors de cerca de tots o part de les seves carpetes i directoris mitjançant un protocol d’exclusió que respecten els programes rastrejadors (spiders o crawlers), aquest protocol consisteix en un nombre de valors que poden adquirir l’atribut content com part d’una etiqueta meta que conté una altre atribut, name que conte el valor “robots”. Aquestes indicacions es guarden en un arxiu de text robots.txt que se situa en el servidor de la pàgina web i que se suposa que llegeixen i respecten els rastrejadors (robots).
Així doncs, resumint el tipus d’informació que podem trobar a Internet Invisible són:
· Base de dades: els cercadors només proporciones accés a la pàgina d’inici, perquè la resta són dinàmiques.
· Documents en format pdf, word, xml etc.: encara que ara alguns cercadors ja indexen documents d’aquest tipus.
· Pàgines web que no son idexades per motors de cerca: perquè s’exclouen a traves del protocol d’exclusió.
· Llocs web que necessiten contrasenya: els motors de cerca no poden accedir al contingut d’aquestes pàgines, ja que l’accés està restringit.
Aquí teniu algunes adreces interessants per utilitzar en la vostra cerca:
www.internetinvisible.com/
http://www.closerlooksearch.com/
http://www.invisible-web.net/
4 comentarios:
Molt interessant aquest article. he après coses noves. Jo soc molt conscient de la necessitat dindexar bé degut a que sóc de professió arxiver.
Jsequero sequero.blogia.com
La xarxa no deixa mai de sorpendre’m, abans per lo que trobava i ara per lo que no trobo!
impresionant, la xarxa és sorprenent
Genial!!
A pesar de que el tema ha generado un cierto polémico: Yo estoy prácticamente de acuerdo contigo!!
Un saludo muy cordial
gamirian
Publicar un comentario