De igual forma, tampoco se ha tratado la conexión con la analítica web, o con el periodismo ciudadano, y otro tema clave que son los propios riesgos que supone el fenómeno del big data. La aceleración de los cambios informativo-computacionales que se producen no ya sólo en la sociedad, sino en la práctica periodística, hace difícil el análisis de la respuesta desde la documentación a los retos, incertidumbres y problemas que surgen. De hecho, a veces resulta curso de ciencia de datos una tarea ardua la distinción y clasificación entre los procedimientos, técnicas e instrumentos del dominio periodístico, informático y documental. Lecuona y Villalobos (2018, p. 2) afirman que, al asignar a una persona o grupo características particulares, un individuo se convierte en un componente de un colectivo que genera preocupaciones sobre la discriminación consciente e inconsciente como resultado del uso de grandes datos en la toma de decisiones.
Como se puede observar, es una propuesta de marco de trabajo automatizado en el entorno periodístico, pero que se puede tomar como punto de partida interesante en la intersección entre web semántica y big data, también desde una perspectiva manual. En este sentido, la clave se sitúa en los procedimientos de representación-descripción de la información y el conocimiento, así como de las relaciones entre ellas, fundamentalmente con capacidad para que sean comprensibles desde un punto de vista informático. Esto nos retrotrae no sólo a los formalismos para la descripción de entidades, sino también a instrumentos como las ontologías.
Otro tipo de investigación de IA utilizando aprendizaje profundo es mediante el uso del lenguaje natural, que permite crear nuevos medicamentos a partir de la búsqueda de compuestos existentes (Freedman, 2019). Para ello se analiza cómo el virus entrega su material genético a una célula infectada, con el fin de crear un modelo predictivo acerca de la estructura proteínica que permita a posteriori buscar aquellas que puedan inhibir este proceso (Réda, Kaufmann & Delahaye, 2020). Un aspecto a mencionar acerca de la IA, es que abarca diversos campos como el reconocimiento de voz, procesamiento de lenguaje natural, visión por computador, robótica avanzada, captura de conocimiento, planificación y optimización, entre otros, en la que se busca que un sistema tenga la capacidad para sentir, razonar, participar y aprender. El aprendizaje de reglas de asociación (Association rule learning), es un método para encontrar las relaciones entre variables en grandes bases de datos, su objetivo es identificar reglas usando algunas medidas de relación de intereses, por ejemplo, en el caso de las redes sociales, se trataría de revisar las personas que posiblemente le interesarían seguir a otras dependiendo de sus amistades o seguidores.
Utilizando los datos de ASIM, los investigadores realizaron las primeras observaciones detalladas del desarrollo de un líder negativo, o el inicio de un destello, a partir de un relámpago en una nube. Comprender de qué modo las tormentas eléctricas perturban la atmósfera a gran altitud podría mejorar los modelos atmosféricos y las predicciones climáticas y meteorológicas. La diferencia entre Google y la CDC es que la primera “puede observar la intensidad de búsquedas relacionadas con la gripe A en cualquier parte, en tiempo real y con un nivel de precisión tan fino como sea necesario” (p. 27); mientras la segunda solo ve datos semanales y por región, con cierta demora que está lejos de ser a https://aquinoticias.mx/conviertete-en-un-cientifico-de-datos-exitoso-con-el-bootcamp-de-ciencia-de-datos-de-tripleten/ tiempo real. Es imprescindible que sepan que tienen derecho a que sus datos sean confidenciales y a decidir si se utilizan para análisis o publicación en otros entornos”, alerta la investigadora. El autor conserva los derechos patrimoniales sin restricciones y garantiza a la revista el derecho de ser la primera publicación del trabajo. Es importante notar que la manera en que se da la protección a la transferencia de datos y, si es posible, muchas veces al tratamiento que se hace de los mismos, difiere entre un Estado y otro como en el caso de la Unión Europea y los Estados Unidos, que, sin embargo, han accedido a tener un marco regulatorio común para el manejo de los datos (2017, p. 852).
Posteriormente se trabaja en la construcción del modelo con un conjunto de datos distribuidos en capas que deben “entrenarse y compararse” para, finalmente, establecer una solución. La localización, el análisis de datos y el ‘machine learning’ han dado lugar a un nuevo perfil profesional impensable hace unos años. Empresas e instituciones necesitan completar sus organigramas con expertos en estas disciplinas para predecir situaciones aplicables a cualquier ámbito de actuación. El odontólogo José Luis Calvo Guirado, catedrático de la Universidad Católica de Murcia hasta 2021, ha entrado en el top 20 de científicos del mundo con más estudios retirados por irregularidades, según el recuento de la organización estadounidense Retraction Watch. Una decena de revistas ha retractado ya 34 de sus trabajos, plagados de anomalías como reutilizar una y otra vez las mismas imágenes en experimentos diferentes con perros o conejos. Calvo Guirado, uno de los científicos más citados del mundo según la clasificación de la Universidad de Stanford (EE UU), sostiene que no ha hecho “ninguna trampa” en su vida.
A pesar de su amplia difusión y aceptación, el uso de técnicas basadas en la ciencia de datos en el campo de los estudios globales está en ciernes. En este contexto, este artículo tiene como objetivo discutir las contribuciones y desafíos metodológicos que la ciencia de datos puede aportar a la disciplina de los estudios globales. Dentro de los documentos más relevantes para hacer frente a esta situación de vulneración de los derechos humanos por el uso de técnicas de big data más recientes, se encuentran las Directrices éticas para una inteligencia artificial (IA) fiable, estudio de los expertos que señala que la IA debe ser lícita, ética y robusta. Estas directrices apenas se discutieron el año 2019 y es este año 2020 cuando se podrán tener datos derivados de esta experiencia. Los retos que surgen de esta herramienta de análisis incluyen las responsabilidades tanto de las empresas privadas, como lo ha puesto de manifiesto la Organización de Naciones Unidas a través de los Principios rectores sobre las empresas y los derechos humanos.
El modelo estadounidense de autorregulación empresarial está siendo cada vez más cuestionado, tanto desde el ámbito político como desde el académico y el ciudadano, por los grandes márgenes de discreción que se otorgan a las empresas en perjuicio de los individuos en aspectos tan medulares como los relativos a qué información personal se recolecta y cómo se usa esta ENT#091;…ENT#093;. En Europa, la situación es diametralmente diferente, pues desde el 25 de mayo de 2018 está en vigor el Reglamento General de Datos Personales ENT#091;…ENT#093; que establece medidas en favor de los usuarios, como son los derechos al consentimiento expreso, a retractarse, al olvido, a la rectificación, a conocer qué datos tienen las empresas y cómo los usan, entre otros ENT#091;…ENT#093; (Calcaneo, 2019, p. 40). Ahora bien, el análisis de grandes volúmenes de datos es un tema que hoy por hoy interesa a la comunidad internacional.