Con el continuo crecimiento de las redes sociales, la cantidad mundial de datos digitales se duplica cada año. Las instituciones y empresas capaces de extraer inteligencia de las fuentes abiertas (OSINT) cuentan con grandes ventajas estratégicas. No en vano, exprimir la montaña de datos no estructurados (desde emails a tweets) abre innumerables posibilidades para las organizaciones: conocer la percepción del público mediante el análisis automatizado de sentimientos, predecir circunstancias que podrían afectar a sus operaciones actuales y a su crecimiento futuro, investigar nuevos mercados o extraer inteligencia sobre sus competidores.
Desde el punto de vista policial, realizar minería de big data con destreza se ha convertido en una dimensión esencial del contraterrorismo, la ciberseguridad, la aplicación de políticas de drogas, la seguridad fronteriza y la recopilación de información para fines de inteligencia.
Además, las fuerzas del orden utilizan OSINT al objeto de obtener información predictiva que les permita proteger a los civiles durante manifestaciones y períodos de inestabilidad social. Para que el análisis sea operativo se requiere cruzar los límites tradicionales de geografía, idioma y cultura.
Pero, ¿tiene el organismo policial una manera fiable de confirmar la identidad en las fronteras? ¿Está investigando con precisión los antecedentes de personas de interés e instituciones financieras consultando todas las listas de vigilancia mundiales? ¿Es capaz de identificar una nueva amenaza potencial aunque el sujeto no aparezca en ninguna base de datos existente?
Para superar todos estos desafíos existe una solución fundamental: la analítica de texto multilingüe de alta calidad, utilizando capacidades avanzadas de procesamiento de lenguaje natural. A diferencia de tiempos pasados, cuando la minería web «global» significaba traducir al inglés y analizarlo, hoy en día la solución de vanguardia consiste en aplicar análisis lingüístico a los textos estructurados y no estructurados (noticias, reseñas, blogs, tweets y publicaciones), para estar seguro de que cada palabra se entienda en su contexto nativo. Es la única forma de asegurarse de que los resultados no estén distorsionados por errores sutiles debidos a la jerga, la sintaxis o la ortografía.
Las organizaciones capaces de extraer inteligencia de las fuentes abiertas cuentan con grandes ventajas estratégicas; exprimir los datos abre innumerables posibilidades.
Las herramientas necesarias para extraer inteligencia con éxito de cualquier fuente de datos ya existen. Para seguir de cerca las amenazas de seguridad, necesita un sistema OSINT que sea capaz de:
- Arrojar resultados de alta calidad en todos los idiomas críticos o de «zona de conflicto».
- Ofrecer escalabilidad, funcionalidad y características robustas.
- Integrarse fácilmente en su infraestructura existente.
Además, la solución debe satisfacer tanto los requisitos actuales como las necesidades futuras.
Diez preguntas
- ¿Maneja bien los textos cortos como tweets, SMS y estados de redes sociales?
Tradicionalmente, los tweets han sido más difíciles de analizar porque hay menos contexto para trabajar, y con frecuencia incluyen jerga, abreviaturas y emoticonos. Ahora, muchas soluciones son capaces de un excelente análisis de Twitter, identificando el idioma y encontrando menciones de personas, lugares y empresas.
2. ¿El sistema puede analizar con efectividad un texto que incluya jerga y vocabulario especializado?
Si su organización utiliza un vocabulario específico de su sector, su solución debe tener algoritmos que puedan ser entrenados con el tiempo para lograr una mayor precisión. Por lo tanto, busque una solución de analítica de texto que funcione de manera inmediata, pero que también pueda adaptarse para satisfacer las exigencias específicas y cambiantes de cualquier sector.
3. ¿Cómo garantizo resultados de alta calidad en todos los idiomas?
La bondad de cualquier solución de analítica de textos depende de su base de análisis lingüístico. La traducción automática confunde el significado. Se necesita una solución en la que cada idioma se entienda de forma nativa. Este enfoque lingüístico no relaciona las palabras basándose en su apariencia, sino en lo que significa cada palabra dentro de su contexto escrito. Es la mejor manera disponible hoy en día para garantizar que todos los datos se interpreten de forma correcta. Esta es también una razón por la que puede preferir un proveedor que tenga la analítica de texto como competencia principal, en comparación con otro que contemple el análisis de big data tan solo como uno de los aspectos de una gama más amplia de productos.
4. ¿A cuántos idiomas debería dar cabida mi solución OSINT?
El ámbito de su labor determinará los idiomas que necesita en cada momento dado. Pero en lugar de agregar idiomas poco a poco a lo largo del tiempo, estará mejor preparado para dar una respuesta rápida a las necesidades y minimizar los dolores de cabeza de la integración si utiliza un proveedor conocido por la calidad de su capacidad multilingüe, en muchos idiomas.
5. ¿Responde bien el sistema a las particularidades de la búsqueda en diferentes idiomas?
Obtener resultados de búsqueda completos y fiables depende de la comprensión nativa de cada idioma. Existen variaciones menores en la ortografía y los caracteres en todos los idiomas (por ejemplo, en inglés color y colour). Las complejidades del chino, el árabe y el japonés plantean mayores desafíos. Pregunte si su motor de búsqueda tiene en cuenta todas estas variaciones.
6. ¿Hasta qué punto rastrea bien los nombres en múltiples idiomas?
La seguridad nacional requiere que los nombres sean reconocidos y rastreados internacionalmente. Por eso, la capacidad multilingüe es tan crítica. Los nombres deben identificarse correctamente en todos los idiomas y alfabetos, independientemente de los apodos, el uso, el espaciado o las faltas de ortografía. La solución debe identificar de manera confiable «Abdul Rashid», «Abdal Ar-Rasheed», «» y también «» como la misma persona.
7. Si se requieren varios productos, ¿funcionan bien juntos?
Una gama de productos de analítica de texto diseñados para integrarse a la perfección ofrece mayor sinergia, consistencia y análisis de mayor calidad que si se combinan productos independientes.
8. ¿Su solución me ayudará a identificar nuevas amenazas potenciales?
La analítica avanzada de texto tiene la capacidad de descubrir relaciones entre personas de interés y otras, lo cual es una forma de descubrir amenazas nuevas y futuras. Cada vez que se identifica un nuevo ente o sujeto, la solución debe poder marcarlo y vigilarlo en el futuro.
9. ¿Cuál es la mejor solución para analítica de sentimientos?
El análisis de sentimientos –un aspecto relativamente nuevo de la analítica de texto y actual favorito de la analítica de redes sociales– mejora continuamente a medida que el software interpreta con más finura las sutilezas del contexto, el sarcasmo y el error humano. La mejor solución ha de contar con algoritmos que puedan mejorarse con el tiempo para satisfacer sus necesidades.
10. ¿Qué es lo mejor: pedir a mis desarrolladores que creen una solución, localizar una alternativa de código abierto o comprar un producto comercial?
Su mejor solución depende de lo que quiera y de cuán pronto la necesite. Investigue a fondo todas las opciones porque los pros y los contras varían dependiendo de su situación. Considere los costes de ingeniería que conlleva la integración. ¿Necesitará recursos y apoyo para solucionar problemas? ¿Hay en su empresa suficiente experiencia en el procesamiento del lenguaje natural? ¿Hasta qué punto es crítica la analítica de texto para sus objetivos?
Si necesita capacidad multilingüe, esto agrega una complejidad significativa, ya que requiere conocimientos expertos o analítica de cada idioma.
En última instancia, la elección dependerá de la cantidad y la calidad de los recursos internos disponibles y de los requisitos de tiempo específicos.