Blog

0
Miércoles 11 julio, 2012

El Cerebro Mágico – Knowledge Discovery and Representation

Por fbalbachan
Publicado en: Tecnología

El Cerebro Mágico es un dispositivo de inteligencia artificial que combina diversas tareas estándares como knowledge discovery & representation, parsing, named entity recognition and classification, question answering e information retrieval para responder preguntas respecto de personas o lugares, con conocimiento no almacenado previamente. Un enfoque como éste bien podría ser utilizado para generar un factbook como organización general de conocimiento de mundo.

Para usar el prototipo, simplemente ingrese en el textbox una pregunta en español del estilo ¿quién…?, ¿a quién…?, ¿con quién…?, ¿qué persona…?, ¿dónde…?, ¿hacia dónde…?, ¿cuál es el lugar…?, ¿en qué lugar…?, etc.

Tome en cuenta que la pregunta puede hacer referencia a información sobre una década específica, un año específico o un mes específico. Por ejemplo: ¿quién ganó las elecciones de 1983 en Argentina?

El Cerebro Mágico recopilará información de los sitios web más relevantes a la pregunta, según el ranking de Google a una consulta pre-procesada con la lógica de la lingüística computacional: (tokenización, lematización,
modelo de n-gramas).

Nota: Las respuestas siempre serán nombres propios de personas, lugares y organizaciones. Si bien el Cerebro Mágico reconoce preguntas con el encabezador ‘quiénes’ no procesará las respuestas esperables para este tipo de preguntas (sustantivos comunes en plural y no nombres propios). Es decir, el Cerebro Mágico no contestará preguntas cuyas plausibles respuestas sean términos como ‘los normandos‘, ‘el filósofo griego que nunca escribió una obra‘, etc., y sí en cambio preguntas cuyas respuestas podrían ser ‘Guillermo el Conquistador‘ o ‘Sócrates‘. En próximas versiones el Cerebro Mágico responderá éstas y muchas más (eventos históricos, causas y consecuencias, etc.).

Prueba el Cerebro Mágico aquí

http://labs.socialmetrix.com:2222/

 

Fernando Balbachan

Diego Dell’Era

Socialmetrix Labs

 

Tweet
0
Martes 26 junio, 2012

Candidatos a presidente en México: ¿quién tiene mejor reputación online?

Por socialmetrix

La carrera presidencial en México está cerca de culminar, la definición será el próximo domingo 1° de julio.

Cuatro candidatos pelean por el voto del pueblo: Enrique Peña Nieto, Josefina Vázquez Mota, Andrés Manuel López Obrador, Gabriel Quadri.

¿Cuál es la reputación online de cada uno de ellos? ¿Qué partido político está mejor posicionado?

 

 

Compartimos el siguiente reporte realizado con nuestra plataforma Echo, analizando las menciones recientes sobre el tema.

Reporte: Resultados de Partidos y candidatos en México Junio 2012

Tweet
0
Martes 12 junio, 2012

Named-Entity Recognition and Classification (NERC)

Por fbalbachan
Publicado en: Tecnología

Named-Entities son strings que hacen referencia a un único objeto reconocible en el discurso en todos los mundos posibles. Si bien, desde la filosofía analítica del lenguaje se estudió la forma en que el lenguaje puede hacer referencia a estos objetos o personas únicos con formas “comunes” (lo que se conoce como descripciones definidas “el mejor jugador del mundo en el mundial de fútbol de 1986“), en general, en la tarea estándar de la lingüística computacional, se entiende que las named-entities son nombres propios en sentido estricto. La dificulatd radica en que los usuarios del lenguaje no siempre respetan la convención de mayúsculas/minúsculas para referirse a ellos.

Este prototipo reconoce entidades de nombre propio, incluyendo aquéllas escritas en mayúsculas, minúsculas, con prefijos o sufijos de honoríficos, etc. También lleva a cabo una clasificación de dichas entidades, reconociendo nombres geográficos (Locations, LOC), personas (PER), organizaciones   (ORG), o entidades desconocidas (UNK).

Nuestro prototipo cuenta con un mecanismo de aprendizaje, de modo que si una entidad desconocida fue ingresada en letras mayúsculas, se guardará también su versión en letras minúsculas para futuros reconocimientos aprendidos.

Ud. puede ingresar un texto plano completo o subir un archivo de texto de grandes dimensiones para ser procesado.

Algunos ejemplos que pueden ser reconocidos como named entity son: Eduardo VI, Salón de Mujeres del Bicentenario, diego maradona, Dr. Frankenstein, etc.

Pruébalo aquí

http://labs.socialmetrix.com:3333

 

Fernando Balbachan

Diego Dell’Era

Socialmetrix Labs

 

Tweet
0
Domingo 3 junio, 2012

Análisis Automatizado de Sentimiento en Twitter

Por fbalbachan
Publicado en: Tecnología

En el área de la Lingüística Computacional o Procesamiento de Lenguaje Natural (PLN), una de las tareas estándares más desafiantes es el análisis de sentimiento (sentiment analysis) en texto opinionado. Aunque algunos enfoques de aprendizaje no supervisado (machine learning) hacen uso de técnicas estadísticas como clasificadores bayesianos, bigramas de orientación semántica, etc., los trabajos más exitosos en el campo recurren a recursos léxico-gramaticales bajo la forma de una ontología con valoración de sentimiento y diversas reglas de sintaxis básica.

Nuestra solución sigue tal enfoque simbólico de recursos léxico-gramaticales y reglas de sintaxis local y global. En forma temprana detectamos indicios como emoticones para dar veredictos de sentimiento. Luego, pasamos a la etapa de pre-procesamiento de texto: estandarización del texto y segmentación en unidades significativas menores a la oración, las cuales pasan a ser procesadas por un lematizador optimizado para el español (Freeling) con anotación morfosintáctica (POS-tagging). De esta manera, obtenemos lemas muy confiables por cada unidad de análisis, los cuales son valorados por nuestra propia ontología -similar a SentiWordNet- con más de 4.000 lemas anotados a mano. Finalmente, aplicamos reglas de cambios de modalidad para estructuras negadas y subjuntivo con modalidad irreal y reglas de polaridad para frases como sin respeto, imposible enojarse, etc.

Ver artículo completo a ser publicado en Revista Infosur nº6 de Junio 2012

http://socialmetrix.com/es/img/2012/06/INFOSUR_Balbachan_Dellera_2012.pdf

 

Fernando Balbachan

Diego Dell’Era

Socialmetrix Labs

Tweet
0
Jueves 24 mayo, 2012

Word Sense Disambiguation en la industria de Social Media Monitoring

Por ddellera
Publicado en: Tecnología

Word Sense Disambiguation (WSD) o desambigüación del significado de palabras que pueden hacer referencia a diversas entidades es otra tarea estándar en la industria NLP.

WSD es una tarea importante en nuestro sistemas de ontologías para Social Media Monitoring (SMM). El branding o uso de nombres propios para denominar productos y marcas a veces recurre a palabras que, si bien transmiten desde el punto de vista del marketing los atributos de la marca, pueden interferir con otros usos en el lenguaje cotidiano. Las publicidades de Claro o Personal a menudo hacen uso de esa ambivalencia (como nombre propio o como palabra del lenguaje natural) y los humanos nunca dudan cuando se trata del nombre propio de la compañía telefónica celular Claro, del adjetivo claro (“un día claro”) o del sustantivo (“un claro de luna“). Ésta parece ser una tarea sencilla para una máquina, pero no lo es. La convención mayúsculas/minúsculas no siempre es la solución ideal ya que hay nombres propios que interfieren con otros nombres propios (la cerveza Quilmes vs. la localidad Quilmes en el Gran Buenos Aires vs. el club de fútbol homónimo) y porque, además, la gente no suele observar un especial apego a las normas gramaticales en la Web.

Esta tabla muestra la incidencia de los textos en donde ocurre la palabra “Claro/claro” haciendo referencia a la empresa (texto opinionado 4,6%) vs. la palabra coloquial del español (texto no opinionado 95,4%) durante un mes en feeds en español (blogs, web sites, foros, etc.) relacionados con telefonía celular. Nótese cómo un 25% de las veces la gente hace mención a la empresa sin apelar a la convención mayúsculas/minúsculas.

 En Socialmetrix Labs desarrollamos Disambiguator: un algoritmo entrenado para detectar las palabras clave (golden features) que caracterizan a un texto cuando los hablantes quieren hacer referencia a una marca y no a otros sentidos que puedan generar ambigüedad. Luego estipulamos un umbral de ocurrencia de dichas palabras en el ámbito de la palabra a desambiguar (ámbito local a nivel de la oración y ámbito global a nivel del texto). Estos umbrales son variables en función de la extensión del texto y de otros parámetros. De ese modo logramos reducir la ambigüedad de ciertos pares Claro/claro, Personal/personal, etc. en hasta un 70% con un error de sólo el 0,5% en decenas de miles de comentarios por mes.

Pruébalo aquí

http://labs.socialmetrix.com:9001/disambiguation

Fernando Balbachan

Diego Dell’Era

Socialmetrix Labs

Tweet
0
Miércoles 23 mayo, 2012

Geolocalización como Information Retrieval

Por fbalbachan
Publicado en: Tecnología

En Socialmetrix Labs desarrollamos mecanismos automatizados de minería de datos para extracción de información o  Information Retrieval (IR).

IR representa todo un mundo de posibilidades. Por un lado, solemos dejar huellas de valiosa información demográfica en nuestro discurso: adjetivación que refiere al hablante en lenguas flexivas (como el español) cuando decimos “estoy enojado”, “me siento apesadumbrada”, “soy el último propietario del auto”. Pero mayormente, los datos aquí surgen de nuestra actividad no discursiva en redes sociales (meta data). Cuando nos registramos ante ciertas plataformas como Twitter o Facebook, cuando completamos los campos de un avatar de usuario dejamos indicios de nuestro sexo, ubicación geográfica, etc. Esta información resulta muy valiosa para las empresas, que así pueden aplicar técnicas de análisis por grupos etarios, sexuales, geográficos, etc. para perfiles de usuarios o clientes.

En Socialmetrix Labs desarrollamos un módulo de geolocalización que analiza strings de texto (incluso en inglés, español o cualquier otro idioma con caracteres latinos) en busca de información geográfica (países, ciudades, regiones o provincias, e incluso coordenadas de GPS) y devuelve un output estructurado con información completamente deducida a partir de simples nombres geográficos. Este proceso de deducción toma en cuenta la información explícita o implícita del string.

Pruébalo aquí

http://labs.socialmetrix.com:9001/geolocations

El módulo de geolocalización está integrado a Eventia, el producto de monitoreo de eventos en real time de Socialmetrix.

 

Fernando Balbachan

Socialmetrix Labs

Tweet
0
Martes 8 mayo, 2012

Conclusiones del debate entre candidatos presidenciales en México

Por socialmetrix

Socialmetrix realizó el monitoreo online en relación al debate de los candidatos presidenciales en México, comenzando el viernes 4 de mayo a las 4pm y culminando el lunes 7 de mayo a las 4pm. Se consideraron todas las menciones en Twitter referentes a los 4 candidatos: Enrique Peña Nieto, Josefina Vázquez Mota, Andrés Manuel López Obrador y Gabriel Quadri.

 

Highlights

Tweets

Hashtags principales

1,551889

#debate

#amlo

Usuarios únicos

#debate2012

327,357

#epn

#quadri

 

 

 

 

 

 

 

El candidato que logró la mayor popularidad online y obtuvo el mayor número de tweets a lo largo del día del debate fue Enrique Peña Nieto, quien alcanzó más de 328 mil tweets relacionados con su cuenta una vez finalizado el debate.

En segundo lugar se colocó Gabriel Quadri con 162,815 menciones y en tercer lugar Josefina Vázquez Mota con 105,821 menciones. Quien obtuvo el menor número de tweets fue Andrés Manuel López Obrador con 92,541 menciones.

En cuanto a porcentaje del volumen total de tweets relacionados a las cuentas de los candidatos, al inicio del día la participación era de:

 

 

 

 

 

 

 

 

 

Y al finalizar el debate el volumen había cambiado hacía:

 

 

 

 

 

 

 

 

 

Estos números dan la primera evidencia de que a lo largo del día del debate  la gente comenzó a hablar mucho más de Quadri y dejó de hablar del resto de los candidatos.

 

 

 

 

 

 

 

 

El candidato que sufrió el mayor desgaste porcentual fue Josefina Vázquez Mota que redujo su volumen de participación en casi un 30%. EPN lo redujo en 18% y AMLO descendió un 7%.

El candidato que logró el mayor crecimiento en volumen de tweets fue Gabriel Quadri, quien al finalizar el debate alcanzó un crecimiento del 2300% contra 610% de AMLO, 540% de EPN y 490% de Josefina.

En cuanto a hashtags, el que tuvo mayor difusión de la gente a lo largo del día fue #debate que alcanzó un total de 128,672 tweets.

El hashtag #elecciones 2012 pasó del tercer al séptimo lugar de los trending topics del debate, intercambiando posiciones con el hashtag #debate2012 que fue posicionándose a lo largo del día. Esto nos habla de como la conversación se enfocó en lo sucedido en el evento y fue dejando aparte el objetivo del mismo.

De los hashtags de los candidatos el más mencionado durante el día fue #amlo con 98,779 tweets, seguido de Enrique Peña Nieto con 68,335, Quadri con 43,741 y al final Josefina Vázquez Mota con 40,374.

Desde las 11 AM del 6 de mayo a las 6 AM del 7 de mayo, el hashtag que tuvo el mayor crecimiento porcentual fue #quadri el cual creció 2,651% rebasando a #jvm con 1092% en segundo lugar, siguieron #amlo con 876% y #epn con 770%.

 

 

 

 

 

 

 

 

Los seguidores de Peña Nieto se mantuvieron muy activos a lo largo del día del debate y cuentas como @AdelaSolares @Mujeres2012 @Quinto_Sector @psicgiio y @adrifadi se colocaron en los primeros cinco usuarios con más actividad desde el comienzo del monitoreo, alcanzando hasta 1,000 tweets en el caso de @AdelaSolares incluso previo al comienzo del debate.

Los tweets por hora durante el debate alcanzaron más de 50 mil relacionados a Peña Nieto, seguido por Gabriel Quadri con 37 mil, Josefina 18 mil y AMLO 16 mil.

De acuerdo a su geolocalización, los tweets se distribuyeron a lo largo de la República mostrando un mayor porcentaje acerca de Josefina Vázquez Mota  desde el centro al sureste y noreste del país, mientras que los que hablaban de Enrique Peña Nieto estaban principalmente en todo el oriente de la República bajando al centro hasta alcanzar la península de Yucatán.

 

 

 

 

 

 

 

Tweet
2
Viernes 30 marzo, 2012

Prueba el prototipo SentiTweet desde Socialmetrix Labs

Por socialmetrix

Ingresa en Socialmetrix Labs y haz una prueba en español para ver cómo funciona SentiTweet. Al tratarse de una demo verás un feedback de 15 tweets como muestra de la capacidad de analizar miles de tweets al instante.

El ‘análisis automático de sentimiento’ es una tarea que cobra cada vez más importancia a medida que las redes sociales crecen. Consiste en ciertas reglas y procesos para clasificar opiniones sin intervención manual. Por eso estamos presentando el prototipo de ‘SentiTweet’, una nueva herramienta que determina si una opinión emitida en Twitter es positiva, neutral o negativa. ¿Tienes que analizar muchísimas opiniones de manera instantánea para poder evaluar el progreso de tu campaña o producto? ¿Necesitas graficar una tendencia de apreciación de tu marca y compararla con la de otros productos? ¿Quieres identificar a los usuarios que vienen hablando bien de ti? ¿Estás preocupado por esos tweets que de repente empezaron a criticar a tu producto, y quieres enterarte enseguida? El análisis automático de sentimiento es una de las estrategias que te pueden ayudar para decidir.

Vamos a continuar compartiendo proyectos dentro de Socialmetrix Labs, si te interesa trabajar con este tipo de tecnologías envíanos tus datos a .

Tweet
0
Miércoles 7 marzo, 2012

Nueva funcionalidad en Socialmetrix Echo: ¡ahora puedes etiquetar!

Por Marisol_Castillo

Gracias al feedback que recibimos de nuestros clientes, constantemente podemos conocer qué necesidades van surgiendo en torno al monitoreo de social media y así seguir trabajando para ofrecer un mejor servicio día a día.

En la búsqueda de nuevas funcionalidades para facilitar aún más la realización de los reportes que se obtienen de Socialmetrix Echo, hoy estamos contentos de presentarles una novedad al respecto, se trata de “Tags”, veamos cómo funciona y para qué sirve.

 

¿De qué se trata?

Las etiquetas o tags son clasificaciones que pueden ser aplicadas a todas las opiniones capturadas que visualizas en la plataforma.

Para crear una etiqueta debes posicionarte en cualquier comentario capturado por la plataforma y seleccionar del menú desplegable, la opción “[+] Nuevo Tag”.

Puedes elegir el nombre que desees y etiquetarlo a la cantidad de opiniones que necesites.

        

 

¿Para qué sirve?

Esto te posibilitará identificar las etiquetas y organizarlas, agruparlas o asociarlas bajo un mismo nombre, generar una sub-clasificación y usar esta etiqueta para generar reportes o exportar datos.

Para visualizar las opiniones etiquetadas tienes dos opciones: desde el botón “Exportar Comentarios” podrás exportar una serie de información que ahora incluye la columna Tags (puede ser solo una etiqueta o varias). La otra opción es mediante un gráfico de barras desde el Dashboard>Tags.

 

Hay mucho más por venir, estén atentos….

 

¡Buen análisis!

Marisol Castillo

Product Manager

Tweet
0
Miércoles 8 febrero, 2012

Profesionales de marketing estarían abandonando técnicas que generan resultados positivos

Por socialmetrix
Publicado en: Informes & Reportes

Un artículo publicado por eMarketer basado en un estudio realizado por la Universidad de Massachusetts Dartmouth Center para Marketing Research reveló que las compañías Inc 500 de mayor crecimiento continúan  incrementando el uso de algunas  herramientas de social media,  mientras dejan atrás otras.

Cerca de tres cuartos de las compañías estudiadas utilizaban Linkedin en el 2011 y casi la mitad había adoptado  YouTube. Facebook, Twitter y Foursquare escalaron posiciones en el 2011.

En comparación con el período 2009-2010, en el 2011 se redujo el uso de blogs, videos online en redes sociales, tablón de anuncios/mensajes, poadcasts y Myspace. También se produjo una baja del 50% de las compañías  Inc 500 que habían declarado no utilizar herramientas  de social media para marketing.

Aunque el tablón de anuncios/mensajes, junto con los blogs son algunas de las herramientas que los profesionales de marketing están abandonando, suelen ser reportadas como altamente efectivas (al menos para las compañías que las siguen utilizando). Mientras una gran mayoría de encuestados ha indicado que está teniendo éxito con Twitter (86%) y Facebook (82%), lo números resultan más bajos que otros servicios menos populares.

Esto puede significar que los profesionales de marketing podrían estar abandonando técnicas que actualmente generan resultados positivos.
Sin embargo, también podría ser una señal que indique que los profesionales de marketing que hayan tenido éxito con estas técnicas se hayan aferrado a ellas, mientras que aquellos que no hayan tenido buenos resultados las hayan desestimado.
Aquellos profesionales de marketing que continúan blogueando seguramente sean quienes obtengan mejores resultados con esa herramienta, por ejemplo, mientras aquellos que hayan encontrado un bajo retorno de inversión en el blogging seguramente hayan optado por otras opciones.

Adicionalmente, la abrumadora popularidad de Facebook  entre los profesionales de marketing significa que aquellos con menos experiencia en social media marketing o sofisticación probablemente también utilicen esta herramienta, quizá empujando hacia abajo la taza de resultados positivos.

Tweet

Testimonios

“Socialmetrix Echo nos ha permitido entender las diferencias que se reflejan en las dinámicas de conversación entre diferentes categorías así como los temas, eventos y acciones de las marcas que impactan para generar conversación, lo cual ha servido como input para la planificación de las estrategias nuestros clientes”.

— María Florencia Pini, Research & Analytics Director en Starcom Media Vest

“Socialmetrix Echo nos ha permitido analizar los resultados de nuestras acciones y lanzamientos, entender las reacciones de nuestros usuarios y poder mejorar nuestros mensajes para comunicarnos con ellos de la manera mas adecuada”.

— Ignacio Sbampato, Chief Sales & Marketing Officer en ESET

Leer más