Web Scraping y XPath (I)

Nuestro problema es simple de enunciar y no tan difícil de resolver ad-hoc, pero extremadamente complejo de solucionar con eficiencia y de forma genérica . Nuestro reto es extraer periodicamente los titulares o contenido específico de una serie de páginas web no colaborativas (no disponen de sistemas de sindicación de contenidos como RSS o similares). Y más en concreto, no sólo queremos poder extraer contenido específico, sino que el objetivo final es que cualquier usuario medio de Internet [1] pueda seleccionar a golpe de ratón la zona a «monitorizar» periódicamente.

Para empezar la discusión, pongamos como ejemplo la siguiente página web: http://www.web-caching.com . Podemos empezar descomponiendo nuestro problema en dos subproblemas: cómo descargar periódicamente el contenido de la web que queremos monitorizar y cómo realizar el scraping (el rascado de la zona exacta a poner en nuestro punto de mira) Sigue leyendo Web Scraping y XPath (I)

Lista de seleccionados del Google SoC’07

Hoy es la fecha clave, el día D. Hoy Google publicará la lista de candidatos seleccionados para participar en el Google Summer of Code 2007. En estos momentos, la lista de discusión está que arde, con muchos comentarios de gente impaciente por conocer los resultados (especialmente los indios, para los que el día 11 de Abril ya ha pasado 🙂 Al parecer hay todavía algunas organizaciones que están decidiendo aún a quién le dan el premio de ser seleccionado (otra cosa es que los seleccionados concluyan con éxito sus trabajos). Dos de mis alumnos participan en este concurso… esperamos impacientes. En caso de ganar, intentaré mantener este blog actualizado con todo lo que acontezca al respecto de los proyectos y en caso de no ganar, pues intentaremos que nuestros proyectos salgan igualmente adelante aunque no posteemos tan asiduamente 🙂 ¡Suerte a todos!

Update: aunque se han tomado ya las decisiones, hay algún conflicto por resolver aún debido a que se han asignado distintos proyectos a más de un alumno y Google sólo permite uno por alumno

10 consejos para optimizar las consultas en MySQL

Justin Silverton, en su blog When Penguins Attack nos muestra 10 puntos que podríamos seguir para optimizar el rendimiento de nuestras querys MySQL. En resumidas cuentas:

1. Usar el comando EXPLAIN

2. Usar estructuras de permisos menos complejas

3. Usar el comando benchmark para medir el rendimiento de algunas funciones mysql específicas

4. Optimizar las cláusulas where

5. Ejecutar el comando optimize para defragmentar las tablas

6. Evitar columnas con tipo de datos de longitud variable allá donde se pueda

7. Usar inserciones con retardo (insert delay, o escritura perezosa)

8. Usar sentencias de prioridad (ej: INSERT LOW_PRIORITY )

9. Usar inserts de múltiples filas en lugar de múltiples inserts individuales
INSERT INTO tbl_name (a,b,c) VALUES(1,2,3),(4,5,6),(7,8,9);
10. Seguir estudiando a través de vídeos como éste 🙂

Yum-presto: cómo instalar deltas de RPMs

Ahmed Kamal y Jonathan Dieter han desarrollado Presto, un plugin para yum (el gestor de paquetes por defecto en Fedora) que permite descargar deltarpms cuando estén disponibles. Es una versión beta, por lo que todavía contendrá algunas erratas.¿Y qué es un deltarpm? En resumidas cuentas, son ficheros que guardan la diferencia existente entre un paquete binario (en este caso un paquete RPM) y otro. Esto nos puede permitir ahorrr bastante tiempo (y ancho de banda) a la hora de descargar una gran actualización. Supongamos que estamos descargando un parche de seguridad para OpenOffice Writer. Supongamos también que el paquete RPM completo ocupa unos 20 MB, aunque lo que realmente ha cambiado sólo son 0.5 MB. La herramienta Presto ofrecerá la posibilidad de descargar e instalar únicamente esos 0.5 MB de diferencia, actualizando perfectamente a la última versión de Writer.

Por ahora, sólo hay disponibles deltarpms para FC6 i386 en los repositorios updates y extras, pero ya se está trabajando para añadir repositorio Rawhide y el soporte para 64 bits.

Separar nombre de extensión de fichero en Bash

Supongamos que queremos hacer un script en bash que recorra los nombres de todos los ficheros de un directorio (estos nombres siguen el patrón nombre.ext, por ejemplo imagen01.png, imagen02.png, grafico.png,…)

Si guardamos en foo la ruta a nuestro fichero:

foo=/tmp/mi.directorio/imagen.png

Podemos usar las siguientes intrucciones de manipulación de strings en Bash:

path = ${foo%/*}
Para obtener: /tmp/mi.directorio

file = ${foo##*/}
Para obtener: imagen.png

base = ${file%%.*}
Para obtener: imagen

ext = ${file#*.}
para obtener: png

Todos estos trucos y más, los podéis ver en detalle en este artículo ya muy viejito pero igual de útil que al principio de Linux Gazette