Datos e InteligenciaLegal

Minando 1.87 millones de tesis legales de la Suprema Corte de México

La Suprema Corte de México (SCJN) publica tesis legales en una interfaz web para lectura individual. Construimos un sistema para extraer, estructurar y archivar 1.87 millones de registros.

Li X

3 de abril de 2026

Abstract translucent glass ribbons weaving together into an elegant structure representing solutions emerging from complexity

1.87M registros estructurados

El Problema

Conocimiento legal encerrado detrás de un buscador

La Suprema Corte de México (SCJN) publica miles de tesis legales — interpretaciones vinculantes que abogados, jueces e investigadores consultan diariamente. Están disponibles en una interfaz web, pero diseñada para búsquedas individuales, no para análisis del corpus completo.

Los investigadores legales necesitaban identificar patrones y rastrear cómo evolucionaron las interpretaciones. La única opción era búsquedas manuales, una tesis a la vez.

Nuestro Enfoque

Extracción y estructuración sistemática

Construimos un pipeline de datos que extrae tesis legales de la interfaz pública de la SCJN, parsea el contenido semi-estructurado en campos limpios, y los almacena en una base de datos PostgreSQL estructurada.

El pipeline maneja paginación, limitación de tasa y actualizaciones incrementales. El dataset resultante permite búsqueda de texto completo, cruce por materia, y análisis temporal de tendencias.

Nuestro Enfoque

Extracción y estructuración sistemática

El pipeline maneja paginación, limitación de tasa y actualizaciones incrementales. El dataset resultante permite búsqueda de texto completo, cruce por materia, y análisis temporal de tendencias.

“1.87 millones de tesis legales estructuradas abarcando décadas de jurisprudencia mexicana.”

El Resultado

1.87 millones de registros, completamente buscables

El archivo contiene 1.87 millones de tesis legales estructuradas. Los investigadores legales ahora pueden consultar todo el corpus en segundos e identificar patrones de citación.

PythonPostgreSQL

Pipelines de Datos IA