作者
Juan M Cotelo, Fermín Cruz, F Javier Ortega, José A Troyano
发表日期
2015
期刊
Procesamiento del Lenguaje Natural
期号
55
页码范围
75-82
出版商
Sociedad Española para el Procesamiento del Lenguaje Natural
简介
En este art culo mostramos c omo es posible sacar partido de la infor-maci on estructurada que proporciona la red social Twitter. Los textos escritos en Twitter son cortos y de baja calidad, lo que dificulta la aplicaci on de t ecnicas y herramientas que tradicionalmente se han venido usando para procesar textos en lenguaje natural. Sin embargo, Twitter ofrece mucho m as que los 140 caracteres de sus mensajes para trabajar. En el ecosistema Twitter hay muchos objetos (tweets, hashtags, usuarios, palabras,...) y relaciones entre ellos (co-ocurrencia, menciones, re-tuiteos,...) que ofrecen innumerables posiblidades de procesado alternativo a las t ecnicas cl asicas de PLN. En este trabajo hemos puesto nuestra atenci on en la tarea de clasificaci on de tweets. S olo usando la informaci on de la relaci on Follow hemos conseguido un clasificador que iguala los resultados de un clasificador basado en bolsas de palabras. Cuando usamos las features de los dos modelos, el resultado de la clasificaci on mejora en m as de 13 puntos porcentuales con respecto a los modelos originales lo que demuestra que ambos clasificadores aportan informaciones comple-mentarias. Tambi en hemos aplicado la misma filosofía a la tarea de recopilaci on del corpus con el que hemos trabajado, usando una técnica de recuperaci on din amica basada en relaciones entre entidades Twitter que nos ha permitido construir una colecci on de tweets más representativa.
引用总数
20162017201820192020202120222023202442411
学术搜索中的文章