Ideas 05 Dic 2006 08:56 pm

Aprendizaje Automático y Menéame

En la anterior entrada ya mencionaba que quizás determinados elementos correlacionan en Menéame a la hora que una noticia pase a portada, pero me ha parecido que merecía la pena una entrada sólo para este tema.

Esto de que correlacionan (algunos dicen “correlan” pero me suena a patada a la RAE) quiere decir que el número de noticias que pasan a portada en función de - por ejemplo - quiénes la proponen o la aparición de la palabra “sexo” en su título o no, no se distribuye de manera completamente aleatoria. Existen variables que importan o influyen en el resultado que en este caso es “pasar a portada” y podemos aprender de situaciones para aplicar lo aprendido en otras nuevas.

Podríamos deducir si una noticia va a pasar o no a portada en función de lo aprendido analizando los datos de los miles de noticias que han pasado por allí. Esto no tiene nada de malo que sea así; es normal que esto ocurra como ocurre en muchos asuntos. Lo que me parece interesante es analizarlo.

La aplicación de Técnicas de Aprendizaje Automático tiene buenos resultados cuando se tienen datos y estoy seguro que en la base de datos de Menéame hay muchos registros y muchos campos o variables.

Ejemplos de aplicaciones de Aprendizaje Automático con éxito son:

  • Correlación de Eventos en monitores de red o sistemas: Son capaces de aprender y con el tiempo identificar los problemas reales detrás de los eventos recibidos. Por ejemplo un montón de eventos de “no puedo hacer ping a X” puede ser debido a que se ha ido la luz y se han caído todos tus servidores.
  • Sugerencias de Carrito de la Compra: Amazon aprende de lo que piden los usuarios y sugiere por gustos parecidos y aprende eso de “parecido”.
  • LastFM o Pandora. No sé si realmente utiliza aprendizaje automático pero tiene toda la pinta. Si no lo conocéis es una manera cojonuda de aprender música. En Pandora elijes un artista, Iron Maiden por ejemplo (guiño a Pau) y te busca canciones de artistas parecidos basándose en lo que pide y aprueba otra gente.
  • Spam en los Lectores de correo: Según marcas correo como spam el sistema aprende y es capaz de detectar nuevas formas.
  • Bioinformática, búsqueda de aplicaciones o genes en cadenas del genoma, diagnóstico de enfermedades,etc.

Tom Mitchell es uno de los padres de estas técnicas y hay un libro suyo al respecto muy recomendable y llamado Machine Learning.

Parece un buen trabajo de tesis (académica o “en plan a tu bola”) el analizar la base de datos de noticias de Menéame con datos como:

  • Hora en que entra la noticia.
  • Tiempo en pasar a portada.
  • Texto de Cabecera.
  • Texto de Sinopis.
  • Número de caracteres.
  • Idioma de Destino.
  • Primeros usuarios en votar.

Y sacar conclusiones mediante aprendizaje automático como por ejemplo:

  • Distribución de probabilidades de pasar a portada por Hora del Día, Día de la Semana, Idioma, Usuario de Envío, Número de palabras, etc..
  • Palabras más repetidas en los casos de éxito en pasar a portada.
  • Si mejoran o no tus posibilidades si en el destino hay una foto o un video.

Si alguien quiere le puedo poner en contacto con gente que domina la Inteligencia Artificial y podrían dirigirles. También habría que ver si les interesa a los que tienen esos datos en Menéame…

¿Alguien se anima por aquello del comienzo de año?

2 Responses to “Aprendizaje Automático y Menéame”

  1. on 05 Dic 2006 at 10:38 pm 1.Pau said …

    Guió recibido vía trackback :-P Me parece muy interesante lo que proponías en tu anterior artículo (y que ahora veo que se ha mudado misteriosamente a este :-P ), aunque no sólo pensando en menéame…

    ¿Alguien se imagina la cantidad de información que puede manejar Google o MSN? Con un uso apropiado de la misma, pueden hacerse milagros, aunque esto último es quizás más un asunto de minería de datos que de aprendizaje.

    Es un buen proyecto de fin de carrera para quienes no estén ya metidos hasta las cejas en el peor berengenal de su vida (lo que no es mi caso :-P )

    Muy interesante, un saludo :-D

  2. on 07 Dic 2006 at 10:30 am 2.Miguel said …

    Jose Luis,
    soy el primero que da patadas a la RAE, pues siempre digo “correlar”, a partir de ahora intentaré mejorar mi nivel de castellano y diremos correlacionar.