Word Sense Disambiguation (WSD) o desambigüación del significado de palabras que pueden hacer referencia a diversas entidades es otra tarea estándar en la industria NLP.

WSD es una tarea importante en nuestro sistemas de ontologías para Social Media Monitoring (SMM). El branding o uso de nombres propios para denominar productos y marcas a veces recurre a palabras que, si bien transmiten desde el punto de vista del marketing los atributos de la marca, pueden interferir con otros usos en el lenguaje cotidiano. Las publicidades de Claro o Personal a menudo hacen uso de esa ambivalencia (como nombre propio o como palabra del lenguaje natural) y los humanos nunca dudan cuando se trata del nombre propio de la compañía telefónica celular Claro, del adjetivo claro (“un día claro”) o del sustantivo (“un claro de luna“). Ésta parece ser una tarea sencilla para una máquina, pero no lo es. La convención mayúsculas/minúsculas no siempre es la solución ideal ya que hay nombres propios que interfieren con otros nombres propios (la cerveza Quilmes vs. la localidad Quilmes en el Gran Buenos Aires vs. el club de fútbol homónimo) y porque, además, la gente no suele observar un especial apego a las normas gramaticales en la Web.

Esta tabla muestra la incidencia de los textos en donde ocurre la palabra “Claro/claro” haciendo referencia a la empresa (texto opinionado 4,6%) vs. la palabra coloquial del español (texto no opinionado 95,4%) durante un mes en feeds en español (blogs, web sites, foros, etc.) relacionados con telefonía celular. Nótese cómo un 25% de las veces la gente hace mención a la empresa sin apelar a la convención mayúsculas/minúsculas.

 En Socialmetrix Labs desarrollamos Disambiguator: un algoritmo entrenado para detectar las palabras clave (golden features) que caracterizan a un texto cuando los hablantes quieren hacer referencia a una marca y no a otros sentidos que puedan generar ambigüedad. Luego estipulamos un umbral de ocurrencia de dichas palabras en el ámbito de la palabra a desambiguar (ámbito local a nivel de la oración y ámbito global a nivel del texto). Estos umbrales son variables en función de la extensión del texto y de otros parámetros. De ese modo logramos reducir la ambigüedad de ciertos pares Claro/claro, Personal/personal, etc. en hasta un 70% con un error de sólo el 0,5% en decenas de miles de comentarios por mes.

Pruébalo aquí

http://labs.socialmetrix.com:9001/disambiguation

Fernando Balbachan

Diego Dell’Era

Socialmetrix Labs