Herramientas computacionales para el análisis de la conflictividad social
Año lectivo: 2022
Régimen de cursada: Cuatrimestral (segundo cuatrimestre)
Profesor a cargo: Agustín Nieto
Carga horaria: 36
Período: 5 de agosto – 30 de septiembre
Número de encuentros: 9
Horario: viernes 14-18 hs. [modalidad: virtual]
El giro digital y su boom de datos forzó diálogos insospechados entre las ciencias comunicacionales y las ciencias sociales y humanas. Las nuevas tecnologías y la proliferación de datos masivos en formato digital trajeron más desorden a los ya desordenados escritorios de científicxs sociales y humanistas (historiadorxs, sociólogxs, politólogxs, antropólogxs, filósofxs, etc., etc., etc.), que el contexto pandémico no hizo más que amplificar con su hipertrofiada virtualidad. ¿Cómo hacer archivo de forma remota? ¿Se puede hacer etnografía en la virtualidad? ¿Las encuestas online son confiables? ¿Son viables las entrevistas por telegram o whatsapp? ¿Cómo ir a la hemeroteca sin salir de casa? ¿Cómo leer cientos de periódicos sin hojearlos?
Las relaciones entre programación y ciencias sociales no son nuevas, pero sí más visibles y necesarias que hace unos años. No parece ser conveniente encerrarse en una postura contraria. Estamos cada vez más cerca de la incorporación de técnicas y métodos computacionales en los planes de estudios de las carreras universitarias de grado. Ciencias Sociales Computacionales, Humanidades Digitales, Historia Digital, lectura distante, métodos cualitativos digitales, son nombres cada vez más escuchados en nuestros ámbitos de trabajo. Y lo serán aún más en poco tiempo.
Dentro de la maraña de epistemologías, problemáticas, metodologías, técnicas, enfoques y lenguajes de programación disponibles para adentrarse en el mundo de las ciencias sociales computacionales y las humanidades digitales, elegimos el camino utilitarista de les autodidactas de tutoriales de youtube. A partir de un set pequeño de problemas concretos a resolver (cómo bajar de internet grandes cantidades de texto, de qué modo darle formato tabular, cómo limpiarlos, procesarlos, explorarlos y visualizarlos sin hacer una lectura cercana de lo recolectado, y no morir en el intento) nos relacionaremos con el lenguaje de programación R Project para desarrollar ejercicios de web scraping, minería de texto y lectura distante.
Este seminario se mete en todo esto con el horizonte de que quienes lo cursen puedan realizar análisis y mediciones de la conflictividad social, hechos de rebelión, eventos de protesta, o como quieran llamarlos. En este sentido, los lenguajes de programación como R, Python, Julia y otros nos brindan herramientas muy potentes tanto para desarrollar los tradicionales análisis estadísticos como para utilizar y desarrollar algoritmos útiles para procesar y analizar un gran volumen de información no estructurada como son las notas periodísticas publicadas diariamente por los portales noticiosos como La Nación, La Capital, Los Andes, El Día, Hoy, por nombrar solo algunos.
¿Por qué analizar la conflictividad social con técnicas computacionales?
Desde hace unos pocos años, las humanidades digitales y las ciencias sociales computacionales se propusieron avanzar en la investigación social utilizando el creciente poder de procesamiento informático de las computadoras de escritorio, las innovaciones metodológicas y el incesante crecimiento de la masa de datos para lograr un mejor conocimiento sobre los fenómenos sociales. El conflicto es un fenómeno social fundamental y, por ende, debería ser un tema central en la agenda de investigación de las ciencias sociales y humanas. El giro digital en curso torna a los enfoques computacionales en un elemento central en el campo de estudios de la conflictología. La confluencia de la creciente masa de datos masivos con las cada vez más evolucionadas técnicas procesamiento informático de corpus textuales permiten el modelado de dinámicas de conflicto. En este sentido, el objetivo del seminario es introducir a quienes lo cursen al uso de algunos de estos enfoques computacionales como vía para mejorar la comprensión de los procesos conflictivos.
El enfoque computacional en las investigaciones sobre procesos conflictivos, puede hacer avanzar al campo de estudios por tres ejes de relevancia: 1) la identificación de los conflictos como procesos espacio-temporales que permite rastrear la interacción de los actores en escenarios de conflicto y sus consecuencias, 2) la disponibilidad de nuevos conjuntos de datos detallados de eventos de conflicto en todas las escalas (local - global) gracias a la digitalización y a las técnicas computacionales para recolectar, almacenar y analizar estos datos, 3) la articulación de distintos enfoques y técnicas computacionales para el análisis de los nuevos datos disponibles.
Objetivos
• Conocer los aspectos básicos de la programación en R (como humanistas no como programadorxs).
• Dar los primeros pasos en el manejo del IDE RStudio (entorno de desarrollo integrado para R).
• Aprender los rudimentos elementales del manejo de cadena de caracteres y corpus de textos.
• Saber transformar las palabras en números para realizar mediciones de frecuencias, proporciones y relaciones (veremos que las palabras y los números no se llevan tan mal y que la frontera entre lo cuali y lo cuanti no es tan nítida como creíamos).
• Lograr familiarizarse con algunos de los paquetes de visualización más populares en R. ‘Si no lo veo no lo creo’: las visualizaciones son una forma muy conveniente de detectar patrones y correlaciones (ni palabras ni números, gráficos).
Unidad I
Introducción a las ciencias sociales computacionales y a las humanidades digitales. Instalación del lenguaje R y exploración de su sintaxis básica. Introducción a la sintaxis básica. Distintos objetos R: vectores, arrays, matrices, listas, base de datos, etc. Distintos tipos de objetos: cadena de caracteres, numéricos, factores, etc. Funciones básicas, sum(), paste(), mean(), table(), summary(), etc. Instalación de RStudio y reconocimiento de sus ventanas (consola, script, visualización, objetos en memoria, etc.). Creación de scripts. Organización del directorio de trabajo. Creación de proyectos. Vinculación con github.
Bibliografía
• Gualda, E. (2022) Social big data, sociología y ciencias sociales computacionales. Empiria: Revista de metodología de ciencias sociales, (53), 147-177.
• Milligan, Ian (2020) La historia en la era de la abundancia: archivos web e investigación histórica. Historia y Memoria, número especial.
• Pons, Anaclet (2013) ¿Dónde está el archivo? Documentos que no se ven ni se tocan. El desorden digital, Madrid.
Bibliografía complementaria
• Putnam, Lara (2016) The Transnational and the Text-searchable: Digitized Sources and the Shadows they Cast. American Historical Review, 121, 2.
• Winters, Jane y Prescott, Andrew (2019) Negotiating the born-digital: a problem of search. Archives and Manuscripts, 47, 3.
• Winters, Jane (2018) Web archives and (digital) history: a troubled past and a promising future? Brügger, Niels (eds), Sage Handbook of Web History, Londres.
Unidad II
De palabras a números y viceversa. Alcance y límites de la minería de textos para la medición de la conflictividad social: experiencias de investigación en el marco del Observatorio de Conflictividad Social de la UNMdP.
Bibliografía
• Albrieu, R., & Palazzo, G. (2020) Categorización de conflictos sociales en el ámbito de los recursos naturales: Un estudio de las actividades extractivas mediante la minería de textos. Revista CEPAL, 131, 29–59.
• Franzosi, R. (2020) What’s in a text? Bridging the gap between quality and quantity in the digital era. Quality & Quantity, 1–28.
• Nieto, Agustín, Silvana Ferreyra y Emiliano Calomarde (2022) La pandemia en el pago chico. Agenda mediática y comentarios de lectorxs en Mar del Plata, 2020-2021. Ferrari, M. Memorias del COVID. Partido de General Pueyrredon, 2020 - 2021, Rosario, Prohistoria.
Bibliografía complementaria
• Liang, H., & Zhu, J. J. (2017) Big data, collection of (social media, harvesting). The International Encyclopedia of Communication Research Methods, 1–18.
• Palazzo, G. (2017) Minerı́a de datos, conflictos sociales y explotación de recursos naturales: Un aporte metodológico. Compendium: Cuadernos de Economía y Administración, 4, 7.
Unidad III
Web Scraping con rvest y RSelenium. HTML, CSS y coso: las etiquetas para la recuperación de la información que necesitamos. Web Scraping con rvest y RSelenium. Inspección de estructuras html. Recuperación de información publicada en la web, tanto en páginas estáticas como en páginas dinámicas. Transformación de la información semi-estructurada en datos estructurados.
Bibliografía
• Bradley, Alex, y Richard J. E. James (2019) Web Scraping Using R. Advances in Methods and Practices in Psychological Science, 2, 3, 264-70.
• Laitano, Guillermina y Nieto, Agustín (2021) Activismo barrial en perspectiva histórica: un acercamiento computacional. Informe técnico, PI3CET.
• Müller, K., & Wickham, H. (2021). Tibble: Simple data frames.
Bibliografía complementaria
• Ulbricht, Lena (2020) Scraping the demos. Digitalization, web scraping and the democratic project. Democratization, 27, 3, 426-42.
• Wickham, H. (2021) Rvest: Easily harvest (scrape) web pages.
• Wickham, H. & Cia. (2019) Welcome to the tidyverse. Journal of Open Source Software, 4, 43.
Unidad IV
Limpieza y normalización del corpus que logramos scrapear. Palabras vacías (stopwords), lemas, raíces, entidades, etiquetas POS (Parts Of Speech), etc. Tokenizado de textos. Primeras mediciones: palabras más frecuentes y relaciones más fuertes. Uso de diccionarios para la detección de eventos (de protesta) y otras entidades (provincias, barrios, organizaciones, etc.).
Bibliografía
• Laitano, Guillermina y Nieto, Agustín (2022) La conflictividad social en los barrios de Mar del Plata (2016-2020): un acercamiento computacional. Laitano y Nieto La conflictividad social en la historia reciente: estudios sociohistóricos entre lo local y lo regional, Buenos Aires, TeseoPress.
• Melo, Jairo (2017) Lectura distante, fragmentada y colaborativa en el archivo infinito. Relaciones: Estudios de historia y sociedad, 38, 149, 169-89.
• Moretti, Franco (2015) El matadero de la literatura. Lectura distante, FCE, Argentina.
Bibliografía complementaria
• Mueller, Martin (2012) Scalable Reading. Scalablereading.
• Silge, J., & Robinson, D. (2017) Text mining with r: A tidy approach. O’Reilly Media, Inc.
Unidad V
Análisis profundo del corpus: filtros y sub-corpus (sobre notas referidas a eventos de protesta). Ajuste de las palabras vacías con un diccionario personalizado. Eliminación de notas repetidas. Elaboración de resúmenes con palabras clave, etc. Análisis exploratorio de los datos normalizados con paquetes de visualización: ggplot2 y sf. Armado de índices de conflictividad.
Bibliografía
• Cairo, Alberto (2017) Visualización de datos: una imagen puede valer más que mil números, pero no siempre más que mil palabras. Profesional de la información, 26, 6, 1025-28.
• Nieto, A. (2021) Intersecciones entre historia digital e historia social: un ejercicio de lectura distante sobre la conflictividad marítima en la historia argentina reciente. Drassana, (28), 122–142.
• Rosati, German (2020) La Visualización de Datos Es Trabajo Esencial. Factor~data (blog), Medium.
Bibliografía complementaria
• Schwandt, Silke (2020) Métodos digitales para la semántica histórica. Conceptos históricos, 8, 5.
• Wickham, H. (2016) ggplot2: Elegant graphics for data analysis. Springer-Verlag New York.
Modalidad de trabajo
El seminario es inicial en cuanto a las competencias técnicas en R Project. Los encuentros requieren mínimos conocimientos de usos de servicios de Internet y sistemas operativos. Desarrollaremos ejercicios computacionales en R para abordar distintos problemas metodológicos. Los textos de corte más teórico permitirán reflexionar sobre los alcances de las técnicas computacionales para el análisis da la conflictividad social.
Evaluación
Quienes realicen el seminario deberán cumplir con un 75% de asistencia y luego entregar un condigo (en desarrollo) que permita ejecutar alguna acción de procesamiento de corpus de texto, necesario para su investigación de tesis, y un ensayo breve de tipo expositivo en el cual se reflexiones sobre la experiencia de trabajo con R y se refiera a la utilidad de las técnicas de las ciencias sociales computacionales y humanidades digitales. El ensayo no puede superar las 10 páginas. Se establecerá un plazo de tres meses para la entrega del trabajo final.