Los estudios de cienciometría suelen sufrir de datos “sucios”, que se deben a resultados espurios, por ejemplo, una búsqueda sobre comportamiento territorial en mariposas, basado en butterfly+ territory, no solo dará las respuestas que buscamos sobre el comportamiento de estos insectos, sino otras que no son sobre el tema pero que incluyen las mismas palabras, como The butterflies of the Territory of Boznia. Además de eliminar esos casos espurios, hay que unificar los registros de personas e instituciones que aparecen con diferentes nombres, por ejemplo, una misma institución puede aparecer en los artículos como “INIECO”, pero también como “Inst. Inv. Ecól.”, o incluso como “Instituto de Investigaciones Ecológicas de Málaga”; y para la computadora, cada uno es un instituto diferente, lo que falsea las estadísticas. Por el contrario, hay que poder distinguir entre todas las personas que comparten un nombre, por ejemplo, es muy probable que estén activos varios ecólogos llamados Juan Pérez y antes de existir el número de identidad ORCID era necesario distinguirlos manualmente.