Oportunidades de la web semántica en medios online

Hace un tiempo que en BNamericas estamos trabajando y desarrollando tecnologías semánticas para poder extraer entidades (empresas, personas, lugares, términos) de nuestros contenidos no estructurados, o sea las noticias.

Supone encontrar los términos más relevantes en un texto, entendiendo el contexto, la sintaxis de cada oración para diferenciar los sustantivos de los verbos y así localizar las entidades críticas en el documento. Eso requiere un poco más de explicación de cómo se logra, pero que lamentablemente se topa con el lado estratégico de la empresa donde estoy trabajando. De todos modos, cualquier persona con un poco de curiosidad pronto encontrará las pistas para seguir, como las que señalo a continuación.

Hoy por casualidad me enteré del proyecto lainformación.com. Aunque en una primera mirada pareciera ser más de lo mismo, lo que me parece más interesante es el acercamiento a la web semántica que están haciendo. En este caso, todos los sistemas de agregación de contenidos en los que se basan para construir el portal de noticias son sometidos a un proceso de extracción de entidades y minería de texto. El resultado es que lainformacion.com puede generar páginas tópicos o índices para cada entidad.

Lo que en la práctica significa que pueden armar 10 mil portadas, una para cada entidad. En una forma muy inteligente, lainformacion.com está poniendo en práctica a su favor la teoría de la cola larga (The Long Tail) para obtener tráfico desde los motores de búsqueda. Ya que en el corto plazo, va a ser uno de los pocos medios en español que tenga una página tipo portada que contenga decenas de notas, fotos, etc. sobre un tema ultra específico.

Estamos hablando de una especie de Wikipedia de noticias, cada persona, lugar, empresa o tópico, genera una entrada semi-enciclopédica, una suerte de portada de una categoría en forma automática. Es muy probable que Google comience inmediatamente a amar a este sitio, el trabajo viene hecho, está actualizado, etiquetado, optimizado.

semantic-fast

Resultados de una búsqueda usando Fast, al costado aparecen las entidades extraidas de los textos.

En nuestro país, y con un poco menos de conciencia de la web semántica, parte de la gracia del buscador de Emol es que al hacer una búsqueda, al costado izquierdo aparecen las entidades extraídas de las noticias como fuente, persona, empresa, lugares etc.

En este caso, lo que hace la tecnología desarrollada por los noruegos de Fast es crear navegadores que permiten refinar la búsqueda. Pero también están a un paso de crear estas mismas portadas temáticas, con el contenido que reside en las bases de datos de El Mercurio.

Esto significa que muchos medios online que tienen enormes bases de datos históricas pueden por fin ponerlas a disposición de la web en una forma semántica, es decir, ordenada, categorizada, comprensible y además, optimizada para que sean estas páginas tópicos las que primero salgan en los resultados de búsqueda. El resto es esperar.

Financial Times lanza Newssift, un buscador de noticias de negocios

Una subsidiaria dentro de The Financial Times Group presentó un nuevo motor de búsqueda semántica que rastrea noticias sobre grandes empresas y temas de negocios más o menos amplios. Newssift indexa más de 4000 fuentes de noticias de negocios, desde periódicos, blogs, portales informativos y centros de investigación.

El buscador incorpora 120.000 artículos al día y aplica etiquetas semánticas a cada uno de ellos. Puede clasificar cada artículo por tema de negocios, organización, lugar, persona, y tema. Al escribir un término de búsqueda, las columnas verticales en su interfaz, se llenan con palabras clave asociadas, lo que permite prever términos que pueden ayudar a delimitar la búsqueda. La tecnología empleada pertenece a Endeca.

Luego de un par de pruebas, está claro que está en marcha blanca, ya que su alcance es bastante limitado. Una búsqueda del término “Chile” solo me arrojó 2 resultados. Sin embargo, uno de las funcionalidades que más me llamó la atención, fueron los gráficos que señalan el componente de valoración positiva, neutra o negativa de un artículo.

Esto último conocido como “Sentiment Analysis” o análisis de reputación, es lo que ya varios reconocen que junto con los componentes semánticos, van a comenzar a generar una nueva generación de sitios, motores de búsqueda y funcionalidades que permitan profundizar, relacionar y extraer entendimiento y conocimiento desde la información dispersa y poco estructurada que existe hoy en Internet.

Google digitalizará la prensa escrita en los últimos 200 años

Aquí se puede ver parte del trabajo hecho con la edición del 21 de juñio de 1969 del Pittsburgh Post Gazette, el día que el homre llegó a la luna.

Google anunció una nueva iniciativa para digitalizar millones de páginas de archivos de periódicos según lo publicado hoy en su blog oficial.

Google pretende convencer a la mayor cantidad de medios impresos posible para que los usuarios puedan acceder a través de internet a los formatos originales de los diarios.

Señala el diario El País que el proyecto en sí comenzó en 2006, cuando Google selló acuerdos con The New York Times y The Washington Post para digitalizar e indexar los archivos de ambas publicaciones.

Simplemente Cuil


Seguro que alguien dirá que Google por fin tiene un verdadero rival como motor de búsquedas. La verdad es que después de probar el recién lanzado Cuil (que se pronuncia cul/cool, got it?), se nota que le falta rodaje en español. Pero hay varias razones que pueden pronosticar un buen futuro a este recién llegado

  • Un índice de 120 mil millones de páginas, la más grande existente.
  • Dos expertos en búsquedas y ex empleados de Google están detrás
  • Posee una nueva infraestructura mucho más costo efectiva que la de Google
  • Dicen que indexan mejor que Google, su enfoque es -omg!- semántico.
  • La interfaz de resultados es atractiva y genera categorías navegables.

<

Vía Techcrunch

Etiquetas de Blogalaxia : ,

Google también domina el mercado de búsquedas en móviles

Google superó ampliamente a sus competidores en búsqueda móvil durante el primer trimestre de 2008, según datos de Nielsen Mobile. La empresa logró el 61 por ciento del mercado de la búsqueda móvil en los primeros cuatro meses del año, con Yahoo! a un muy distante segundo lugar con el 18 por ciento. MSN quedó en el tercer lugar con un pobre 5 por ciento.

Hace un tiempo Google estaba perplejo con ciertos resultados que indicaban que el número de búsquedas móviles procedentes de iPhones fue 50 veces superior a cualquier otro teléfono. La discrepancia fue tan grande que la empresa mandó a sus ingenieros que verificaran los registros para asegurarse de que era un error, pero resultó que todo era cierto.

A pesar de que los teléfonos inteligentes han existido por mucho más tiempo que el iPhone, la gente no había utilizado Internet (y a su vez, los motores de búsqueda) en sus dispositivos móviles, como ha ocurrido con la aparición del cacareado iPhone.

Vía Arstechnica


Google pierde la virginidad en Bielorusia

google.png

La imagen superior es la portada de Google Bielorusia. Es el primer lugar donde Google ha decidido romper con su regla de una interfaz limpia y rápida de búsqueda, y además sin contexto alguno para las piezas publicitarias gráficas como textuales. Me pregunto el valor sideral que irá a tener aparecer en la portada de los Google locales, algo así como el minuto prime de la televisión actual. Vayámonos acostumbrando que luego vendrán los avisos en video en los resultados de búsqueda.
Via Bits20

Corrección: Por lo visto me apuré en mostrar la sabana manchada de Google porque ya hace tiempo que señalaron que no controlan esa dirección web, según el blog de John Battelle que recibió el siguiente mensaje de la empresa:

This site (http://google.by) is not owned, operated or controlled by Google.
We are aware of this site and our legal counsel is investigating the matter.

 

Yahoo sigue su vida como si nada

Hace un momento, el blog Techcrunch reporta la compra de FoxyTunes, un plug-in para Firefox desarrollado en Israel, que permite controlar cualquier programa de audio. Y hace una horas anunció que cerrará su servicio premium de música y direccionarlo a Rhapsody, el servicio on demand de música de RealNetworks.
Todo esto mientras pende sobre esta compañía, la oferta de compra por parte de Microsoft, y el contrataque de Google que señala que podría prestarle ropa. Lo cual no implica que Google compre a Yahoo, ya que las leyes antimonopolio probablemente se lo impedirían, pero la opción sería que Yahoo! use la tecnología de búsqueda de Google a costo reducido.
Mientras tanto, Yahoo sigue como si no escuchara la música de esta fiesta en la que todos quieren bailar con ella.