Minando 1.87 millones de tesis legales de la Suprema Corte de México
La Suprema Corte de México (SCJN) publica tesis legales en una interfaz web para lectura individual. Construimos un sistema para extraer, estructurar y archivar 1.87 millones de registros.

1.87M registros estructurados
Conocimiento legal encerrado detrás de un buscador
La Suprema Corte de México (SCJN) publica miles de tesis legales — interpretaciones vinculantes que abogados, jueces e investigadores consultan diariamente. Están disponibles en una interfaz web, pero diseñada para búsquedas individuales, no para análisis del corpus completo.
Los investigadores legales necesitaban identificar patrones y rastrear cómo evolucionaron las interpretaciones. La única opción era búsquedas manuales, una tesis a la vez.
Extracción y estructuración sistemática
Construimos un pipeline de datos que extrae tesis legales de la interfaz pública de la SCJN, parsea el contenido semi-estructurado en campos limpios, y los almacena en una base de datos PostgreSQL estructurada.
El pipeline maneja paginación, limitación de tasa y actualizaciones incrementales. El dataset resultante permite búsqueda de texto completo, cruce por materia, y análisis temporal de tendencias.
Extracción y estructuración sistemática
Construimos un pipeline de datos que extrae tesis legales de la interfaz pública de la SCJN, parsea el contenido semi-estructurado en campos limpios, y los almacena en una base de datos PostgreSQL estructurada.
El pipeline maneja paginación, limitación de tasa y actualizaciones incrementales. El dataset resultante permite búsqueda de texto completo, cruce por materia, y análisis temporal de tendencias.
“1.87 millones de tesis legales estructuradas abarcando décadas de jurisprudencia mexicana.”
1.87 millones de registros, completamente buscables
El archivo contiene 1.87 millones de tesis legales estructuradas. Los investigadores legales ahora pueden consultar todo el corpus en segundos e identificar patrones de citación.