Re: [Solar-general] Yacy: buscador Software Libre, anónimo y sin censura

Pablo Manuel Rizzo info en pablorizzo.com
Lun Jul 27 08:15:31 CEST 2009


2009/7/27 Sebastian Bassi <sbassi en clubdelarazon.org>

> 2009/7/26 Pablo Manuel Rizzo <info en pablorizzo.com>:
> >> Ni ahi que le veo como reemplazo de Google, pero si me
> >> parece interesante para buscadores tematicos.
> > Por qué pensas que no? Te referís a que no lo ves como reemplazo
> inmediato?
> > O que no podrá usarse nunca para lo mismo que hoy usamos Google?
>
> No puedo hablar de "nunca", es mucho, no se como está evolucionando
> este programa.
> Pero por ejemplo, busqué una palabra con una "s" de mas, y no me la
> encontró (le saque la "s" y si la encontró). Google te pone un cartel


Eso parece sencillo de solucionar, quizá simplemente no fue una prioridad
hasta ahora.


>
> tipo "ud quizo decir TAL_COSA". Como que G. es mas amigable. Este
> tiene un buen uso de AJAX y parece que tiende a ser amigable, no como
> otros buscadores amateurs que eran toscos. Tambien por temas de
> balances de cargas y cache, G. es muy rápido, casi instantaneo. ¿Como
> le ganas a eso?


No veo como una necesidad ganarle a eso, pero de todos modos no creo que sea
dificil de solucionar. Además ambos lo hemos probado en hardware lento, me
gustaría verlo en un quad xeon con 8 gb de ram, raid 5 y un par de
conexiones de 1Gbps (cosa que no se acerca siquiera a las granjas de google
pero sería varias veces más rápido que lo que hemos probado)

De todos modos no me resultó lento, solo resultó ineficaz, pero eso es lo de
menos... suena raro pero es razonable.


> G. tambien da el servicio de "poné nuestro buscador
> para buscar en tu sitio", lo que quita incentivo para usar Yacy.


Yacy existe, lo hemos instalado en nuestros servidores y estamos hablando de
él. Es evidente que no le quita incentivo, solo son diferentes los motivos
por los que usaríamos Yacy y aquellos por los que usaríamos Google.

Usé Wikia un tiempo, hasta que lo discontinuaron, y era un reemplazo
efectivo de Google, incluso tenía una función muy interesante y sobre todo
muy útil, me encantaba: si encontrabas un resultado muy abajo, lo marcabas
como interesante y eso hacía que rankee mejor, entonces la próxima vez que
buscabas lo mismo lo encontrabas en seguida. Google acaba de incluir esa
funcionalidad luego que discontinuaron wikia. Yacy tiene algo parecido.
Wikia no era tan efectivo como Google pero lo era bastante, más de la mitad
de las veces encontraba lo que necesitaba allí, las demás tenía que ir a
Google. Para mí era suficiente con eso para usarlo. Quizá con yacy logre lo
mismo.

Por el momento las tres cosas que me preocupan de yacy son:

1.- No prioriza los sitios de la mejor manera posible, pero eso se tunea
desde las opciones en la misma interfaz, quizá baste con tunearlo a gusto
del consumidor, quizá todavía estén puliendo ese algoritmo.
2.- No busca frases, solo palabras, aunque el algoritmo de posicionamiento
incluye algún parámetro para cercanía de palabras, quizá sea una
aproximación rudimentaria si se tunea mas o menos bien
3.- Parece que no siempre logra recuperar los resultados indexados por los
pares, aún teniendo una conexión mas o menos buena. Este es el punto que más
me preocupa, porque la distribución del indice es el fuerte del sistema, en
eso se basa el p2p, tiene que funcionar bien.


Yacy tiene otra cosa intersante, uno puede indicarle al servidor propio, en
el que uno hace las búsquedas "locales", las más directas, rápidas y
fiables, que indexe comenzando por los sitios que a uno le interesa y por N
niveles de sitios en enlazados. También uno pude utilizar yacy como proxy en
la navegación (yo estoy usando un squid que a su vez tiene configurado el
yacy como parent proxy, así tengo la funcionalidad de los dos sumada) y de
este modo yacy comienza a indexar localmente también partiendo de los sitios
por los cuales navego. Eso no me facilita especialmente encontrar sitios
nuevos, pero sí pone en mi índice local todos los sitios en los que
habitualmente busco información y también todos los sitios que están
enlazados por ellos, sin dejar de indexar también todos los demás sitios,
claro. Esto prioriza los sitios que utilizo.

En cuanto a la plataforma, no se si java es una mala opción, realmente no me
puedo quejar de la performance, estoy asombrado de lo que está haciendo, ĺo
tengo instalado en un servidor Celeron con 1 GB de ram, no es gran cosa, y
tiene instalado otros servicios, sin embargo indexó en pocos días casi 9
millones de enlaces y casi 4 millones de palabras asociadas.


-- 
Pablo Manuel Rizzo
-------------------------------
http://pablorizzo.com
-------------------------------
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: /pipermail/solar-general/attachments/20090727/9a2e3537/attachment.html


Más información sobre la lista de distribución Solar-general