Hace un tiempo que en BNamericas estamos trabajando y desarrollando tecnologías semánticas para poder extraer entidades (empresas, personas, lugares, términos) de nuestros contenidos no estructurados, o sea las noticias.

Supone encontrar los términos más relevantes en un texto, entendiendo el contexto, la sintaxis de cada oración para diferenciar los sustantivos de los verbos y así localizar las entidades críticas en el documento. Eso requiere un poco más de explicación de cómo se logra, pero que lamentablemente se topa con el lado estratégico de la empresa donde estoy trabajando. De todos modos, cualquier persona con un poco de curiosidad pronto encontrará las pistas para seguir, como las que señalo a continuación.

Hoy por casualidad me enteré del proyecto lainformación.com. Aunque en una primera mirada pareciera ser más de lo mismo, lo que me parece más interesante es el acercamiento a la web semántica que están haciendo. En este caso, todos los sistemas de agregación de contenidos en los que se basan para construir el portal de noticias son sometidos a un proceso de extracción de entidades y minería de texto. El resultado es que lainformacion.com puede generar páginas tópicos o índices para cada entidad.

Lo que en la práctica significa que pueden armar 10 mil portadas, una para cada entidad. En una forma muy inteligente, lainformacion.com está poniendo en práctica a su favor la teoría de la cola larga (The Long Tail) para obtener tráfico desde los motores de búsqueda. Ya que en el corto plazo, va a ser uno de los pocos medios en español que tenga una página tipo portada que contenga decenas de notas, fotos, etc. sobre un tema ultra específico.

Estamos hablando de una especie de Wikipedia de noticias, cada persona, lugar, empresa o tópico, genera una entrada semi-enciclopédica, una suerte de portada de una categoría en forma automática. Es muy probable que Google comience inmediatamente a amar a este sitio, el trabajo viene hecho, está actualizado, etiquetado, optimizado.

semantic-fast
Resultados de una búsqueda usando Fast, al costado aparecen las entidades extraidas de los textos.

En nuestro país, y con un poco menos de conciencia de la web semántica, parte de la gracia del buscador de Emol es que al hacer una búsqueda, al costado izquierdo aparecen las entidades extraídas de las noticias como fuente, persona, empresa, lugares etc.

En este caso, lo que hace la tecnología desarrollada por los noruegos de Fast es crear navegadores que permiten refinar la búsqueda. Pero también están a un paso de crear estas mismas portadas temáticas, con el contenido que reside en las bases de datos de El Mercurio.

Esto significa que muchos medios online que tienen enormes bases de datos históricas pueden por fin ponerlas a disposición de la web en una forma semántica, es decir, ordenada, categorizada, comprensible y además, optimizada para que sean estas páginas tópicos las que primero salgan en los resultados de búsqueda. El resto es esperar.

Bienvenidos

Este blog nació en 2003 como un bloc de notas sobre periodismo digital. Con el tiempo se han acumulado notas de todo tipo de medios digitales y tecnologías afines. Se actualiza cuando me acuerdo… ;-).
Rodrigo Guaiquil C.

Categorías

Archivo

Let’s connect