Big Data y Data Science: ¿Cuál es la diferencia?

Los autores reconocen que los datos de prueba “no muestran un rango completo de lesiones”4 y que existe una “carencia de lesiones melanocíticas de otros tipos de piel y origen genético”5 ¿Es posible que los resultados estén influenciados por la exposición de los dermatólogos a una mayor variedad de lesiones? Por otra parte, los dermatólogos pertenecen a 17 bootcamp de programación países distintos, y su entrenamiento clínico puede generar una exposición dispar a distintos tipos de lesiones; el grupo es además heterogéneo respecto a la experiencia profesional de sus integrantes. Sin mayores detalles acerca de las características de los datos de entrenamiento utilizados, es difícil determinar que otros efectos pueden jugar un rol.

La rapidez exigida por los lectores se ve favorecida por lenguajes informáticos y por las páginas de datos en bruto, que permiten nuevas vías de distribución de los contenidos. Así, el agregador de información ciudadana y noticias EveryBlock 13 se organiza geográficamente y explota el concepto de mashup, esto es, una aplicación que utiliza contenidos digitales. Tomando el big data como eje fundamental del texto, debemos recordar que está presente en múltiples acciones de la vida cotidiana, como las vinculadas a la búsqueda de información, a la personalización de información y de la publicidad, al reconocimiento de patrones de información, al teclado predictivo, o al desarrollo de la investigación de dominios como el de las smart cities. Enmarcados en los cambios culturales y tecnocomunicativos a los que asistimos, este trabajo pretende detectar las consecuencias teóricas y prácticas para la bibliotecología y la documentación, en el marco de las prácticas periodísticas, de la expansión de técnicas, programas y procedimientos al amparo de los desarrollos derivados del big data y las redes sociales, ámbitos diferenciados pero claramente unidos. Otros tipos de desarrollo de aprendizaje profundo, basado en los sistemas de reconocimiento de rostro empleados comúnmente en seguridad física, han sido modificados para detectar si la comunidad está cumpliendo la distancia social reglamentaria. Este software emplea cámaras de video estándar o aquellas dispuestas en una ciudad para videovigilancia, permitiendo monitorear el flujo peatonal en zonas críticas, realizando un reconocimiento sobre la distancia mínima, indicando una alerta a las autoridades si alguien no cumple con la norma.

Nº4 de Big Data Magazine en papel ¡ya está en la calle!

En segundo lugar, con la expresión Big Data se alude también al conjunto de tecnologías cuyo objetivo es tratar grandes cantidades de información, de datos, empleando complejos algoritmos y estadística con la finalidad de hacer predicciones, extraer información oculta o correlaciones imprevistas y, en último término, favorecer la toma de decisiones. Como resultado, se encontró que la mayoría de las investigaciones bajo estos parámetros centran el análisis en las distintas normas jurídicas en materia de privacidad y protección de datos, tendientes a regular la manera en que se realiza la minería de datos. Sin embargo, se debe considerar que no solo el derecho a la privacidad se pone en riesgo, sino que existen otros derechos humanos que pueden ser vulnerados al hacer un mal uso de estas tecnologías; por ejemplo, al generar discriminación a partir de la elaboración de listas negras que segreguen a las personas o promuevan el racismo, o al constituir un obstáculo a la libertad de expresión, por mencionar solo algunos casos. En este contexto, las redes sociales, al mismo tiempo que alimentan los algoritmos del big data, nutren al periodismo en tanto que potencial fuente de información. De hecho, las posibilidades que entrañan Internet y las redes sociales aportan, en opinión de Rubio-Lacoba (2005), una función verificadora o rectificadora en escasos minutos de la cual los periodistas, en su función de autodocumentalistas, han sabido aprovecharse de ello y cada vez con mayor profusión.

Por ejemplo, existen patrones de comportamiento de consumidores imposibles de detectar con pocos datos, los cuales se hacen evidentes a gran escala; del mismo modo, los parámetros de ciertos modelos predictivos, que en ausencia de datos suficientes son escogidos gracias a la pericia de profesionales del área, pueden ser estimados de manera precisa cuando la cantidad de datos es masiva. Por lo tanto, es la combinación actual entre la capacidad de almacenar y procesar datos a escala masiva la que ha comenzado a revelar estructuras latentes en las actividades humanas que éstos reflejan. De las diferencias anteriores se puede observar que el concepto data science se engloba dentro del concepto de big data. El modelo estadounidense de autorregulación empresarial está siendo cada vez más cuestionado, tanto desde el ámbito político como desde el académico y el ciudadano, por los grandes márgenes de discreción que se otorgan a las empresas en perjuicio de los individuos en aspectos tan medulares como los relativos a qué información personal se recolecta y cómo se usa esta ENT#091;…ENT#093;. En Europa, la situación es diametralmente diferente, pues desde el 25 de mayo de 2018 está en vigor el Reglamento General de Datos Personales ENT#091;…ENT#093; que establece medidas en favor de los usuarios, como son los derechos al consentimiento expreso, a retractarse, al olvido, a la rectificación, a conocer qué datos tienen las empresas y cómo los usan, entre otros ENT#091;…ENT#093; (Calcaneo, 2019, p. 40). Un Estado, sea creador o mero importador de tecnologías, está inmerso en un mundo globalizado en el que las repercusiones en positivo o negativo del uso de estas tecnologías es generalizado.

Publique en esta revista

Lecuona y Villalobos (2018, p. 2) afirman que, al asignar a una persona o grupo características particulares, un individuo se convierte en un componente de un colectivo que genera preocupaciones sobre la discriminación consciente e inconsciente como resultado del uso de grandes datos en la toma de decisiones. La discriminación bajo este enfoque de las tecnologías disruptivas es un riesgo a tomar en cuenta, máxime cuando la toma de decisiones es cada vez más automatizada. Con base en la dinámica comportamental del COVID-19, se requieren soluciones prontas para el monitoreo, detección y diagnóstico de las enfermedades generadas por su causa (Law, Leung & Xu, 2020), la IA plantea diversas opciones de hardware y software https://laverdad.com.mx/2023/12/unico-en-mexico-y-el-mundo-el-bootcamp-de-programacion-de-tripleten/ encaminadas para tal fin (Mei et al., 2020). Bajo este panorama, ha venido tomando fuerza el desarrollo de software de código abierto, donde la inteligencia colectiva es el engranaje principal para obtener un programa de altas prestaciones, multipropósito en la mayoría de los casos. Otro aspecto importante para tener en cuenta es que estos datos corresponden a una muestra de sujetos u objetos de estudios que no han sido seleccionados aleatoriamente, por lo cual es susceptible que tengan sesgos de selección39. Por otro lado, en el aprendizaje no supervisado, el algoritmo del equipo no posee la respuesta correc ta, por lo que debe generar los perfiles o predicciones solo con la información histórica que se le entrega.

En primer término, es importante tener en cuenta que el registro médico surge de la práctica clínica, por tanto, el dato que se registra corresponde a un conjun to de acciones realizadas por profesionales de salud, en pos de atender o dar respuesta a una necesidad de salud de quien la requiera.
Sin embargo, es preciso que estas discusiones se alimenten tanto de los insumos técnicos, como también de las consideraciones éticas que presentan estas nuevas formas de sintetizar y analizar la conducta humana al interior de la sociedad.
David Ríos es AXA-ICMAT Chair en Análisis de Riesgos Adversarios en el ICMAT-CSIC y numerario de la Real Academia de Ciencias Exactas, Físicas y Naturales.

La meta de la búsqueda de fuentes documentales para dar cuenta de la literatura que existe sobre el tema se completó al identificar el criterio del análisis de grandes cúmulos de datos, también conocido como big data analytics, y el concepto de los derechos humanos relacionado al big data. Metcalf y Crawford, por su parte, resaltan los riesgos en el uso del big data al mencionar que la serie de datos que se presentan en los resultados de investigaciones científicas, sean estos parciales o finales, parecería tener un mínimo de riesgo al ser compartidos. Por este tipo de situaciones es que hoy las discusiones, estudios y reflexiones invitan al desarrollo de estudios éticos utilizando el big data (2016, p. 1). Sin embargo, las estadísticas que se obtienen con la técnica de análisis de los grandes cúmulos de datos también permiten dar cuenta de las violaciones a los derechos humanos, por lo que pueden considerarse como herramientas útiles para que tanto los agentes gubernamentales como la comunidad internacional puedan hacer uso de ellos, observar tendencias y emitir alarmas.

Diferencias entre big data y data science

En consecuencia, los datos que se generan no necesariamente son con fines de investi gación científica, por lo cual pueden contener errores, estar incompletos o pueden haberse registrado bajo di ferentes reglas de clasificación o unidades de medida, entre otros. Por lo cual, un desafío importante cuando se emprende el análisis de estos datos es la limpieza y validación de éstos20. La mínima cantidad de información que puede ser procesada por un aparato tecnológico es el bit, el cual sólo puede ser expresado en ceros o unos, mientras que un byte es un conjunto de 8 bits. Así entonces, un Gi gabyte (Gb) corresponde a 109 byte, un Terabyte (Tb) a 1012, un Petabyte (Pb) a 1015 y un Exabyte (Eb) a 1018 bytes.

A continuación, se describirán algunas ex periencias de aplicación en pediatría de datos masivos y las estrategias de procesamiento y análisis descritas anteriormente en el acápite anterior. Sin embargo, se acepta que se trata del “estudio científico de la creación, validación y transformación de datos para crear significado”, es decir, la ciencia que permite extraer valor y conocimiento de los datos. Por tanto, los Big Data están intrínsicamente relacionados con la “ciencia de datos” debido a que son su materia prima17,18.

Cuestiones éticas en los proyectos de Big Data

Aparte de los cambios rutinarios de los profesionales, se observa una serie de contradicciones entre la web semántica y el big data conforme a los objetivos de transparencia y comprensión de la información. Finalmente es necesario plantear el valor real que la difusión de datos aporta frente al filtrado de éstos desde el plano puramente documental. El crecimiento de los datos, como la explosión de las redes móviles, la computación en la nube y las nuevas tecnologías son descritas en [12]. Este informe captura los puntos de vista recogidos durante un evento de exploración de temas de Big Data e inferencia de software. Las compañías que han sido pioneras en el uso de analíticas profundas sobre grandes bases de datos han sido las que operan sobre internet, como son los motores de búsqueda, los sitios de redes sociales y los sitios de comercio en línea. Sin embargo, el desarrollo de nuevos tipos de sensores remotos como telescopios, videocámaras, monitores de tráfico, máquinas de resonancia magnética, sensores químicos y biológicos y sensores de monitoreo ambiental, se han generado nuevos flujos de datos digitales.

articulos cientificos de big data