Ricerca Genealogica – Esplorazione Grafica del Database

Non esistono metodi analitici per misurare il grado di parentela tra soggetti, o perlomeno, i loro risultati non riescono ad essere immeditamente esplicativi  della proprietà che si vuole analizzare. A questo scopo, sono stati affinati metodi grafici, che pur utilizzando complesse logiche matematiche e statistiche, restituiscono un risultato in un modo grafico immeditamente comprensibile.

Si basano su file scritti in linguaggio XML e più propriamente nello sviluppo GRAPHML per cui si trovano in rete ottimi editor gratuiti (gephi, yed, ecc…) per i quali molti sviluppatori volenterosi hanno preparato filtri (layouter) per rappresentare in modo opportuno (anche dal punto di vista squisitamente estetico) ogni relazione possibile tra i vari elementi di uno o più gruppi.

layout_gephiSono disegni che spesso girano per il web fuori dal loro contesto in funzione esclusivamente decorativa.

Il rapporto tra una ricerca genealogica e un grafo di questo tipo è scontata trattandosi l’insieme degli elementi del database composto da elementi legati tra loro da un rapporto (padre-madre-figlio-matrimonio) per cui nelle ultime versioni di questi editor troviamo già implementata l’opzione di importare direttamente un file .gedcom (standard dei database geenalogici) senza bisogno di passare da una scrittura xml o graphml.

Arrivati alla soglia dei 10.000 soggetti la curiosità di analizzare per via grafica il database è molto forte, per cui si è dato inizio ad una pulitura del database per renderlo più compatibile possibile con le successive applicazioni e per marcare un po di soggetti per opportune considerazioni.

L’editor scelto per iniziare è YED (http://yed.yworks.com) che presenta dei layouter già idonei al nostro scopo, ma anche gephi è da tenere in considerazione in quanto in molti sviluppano plugin per layout su questo software. I due software nati in ambienti java, perl, python, ecc.. lavorano anche su Linux anche se non sono presenti nelle distribuzioni più note.

Il database utilizzato è quello dello stato di fatto della ricerca, quasi completo per Castro, dai viventi fino all’inizio del settecento (data di popolamento della città) per circa 6.500 soggetti, presenti piccoli gruppi di Vignacastrisi per lo più legati a soggetti di Castro. Per Ortelle, oltre ai soggetti legati a Castro, sono presenti i viventi ed i nati nel ‘900, oltre gli abitanti del Catasto Onciario del settecento. L’esplorazione grafica metterà in evidenza quest’ultimo blocco come isolato, così come altri blocchi familiari che non hanno rapporti con altri soggetti del database (famiglie migranti, ospiti, ecc..).

L’importazione e la generazione di un primo grafico è piuttosto lunga e ogni elaborazione della rappresentazione è altrettanto lunga. Serve un Personal Computer molto performante se si vuole operare in tempi quasi reali.

Il layouter utilizzato con Yed è layouter integrato di Organic, che genera uno stile di layout multi-purpose per grafi non orientati. Produce rappresentazioni chiare di reti complesse ed è adatto soprattutto per i settori di applicazione come  bioinformatica,  reti aziendali, rappresentazione della conoscenza, gestione dei sistemi, visualizzazione www. Il layout Organic si basa sulla forza diretta dei collegamenti. I nodi sono considerati come oggetti fisici con le forze repulsive tra loro , come per i protoni o gli elettroni. Le connessioni tra i nodi seguono anche l’analogia fisica. Queste sorgenti producono forze repulsive o attraente tra i loro punti finali , se sono troppo corti o troppo lunghi . Il Layout simula queste forze fisiche e riordina le posizioni dei nodi in modo tale che la somma delle forze emessi dai nodi ei bordi raggiunge un minimo ( locale ) .

Il layout opera con delle opzioni che si possono impostare prima del rendering, come la forma dello spazio da utilizzare per il disegno (confinato o libero) se parziale o totale, oltre alcune informazioni sulle etichettature e il posizionamento (sovrapposizione o meno).  Il parametro per noi più importante è quello della Compattezza. Regolare questo valore può portare ad una varietà di layout finali abbastanza differenti. Per piccoli valori di layout si otterrà un sacco di spazio e i nodi tendono ad essere molto distanti . Valori intorno a 0.5 portano a nodi uniformemente distribuiti, mentre valori vicini 1.0 producono layout estremamente compatti. Il valore di default (0.5) ha dato una buona grafica.

layout_gruppi.png

E’ possibile aggregare i soggetti per gruppi (età, paese, ecc) e tenerli con layout finali grafici distinti (non sovrapposti graficamente), ma questa opzione non l’ho provata. La prima schermata creata dal layouter è quanto in fondo ci si aspettava.

yed_segnato

Un grosso ammasso di legami endogeni tra i cittadini di Castro, discendenti da poche famiglie, in pratica una sola famiglia per cognome (Fersini, Rizzo, Capraro, Ciriolo, Carrozzo, ecc..), i soggetti isolati senza legami esterni noti o da ambiti esterni con legami quasi unici da pesare pochissimo.

Nettamente separato il polo di Ortelle (in basso) con una trentina di soggetti ponte, che presenta maglie ancora molto aperte per via della mancata chiusura dei probabili legami tra i soggetti ancestrali (antenati fratelli) sia per la maggiore consuetudine dei matrimoni esogamici. In alto e in basso il layouter posiziona i gruppi scollegati dalla maggioranza.

Cosa può dirci un layout di questo tipo? Nudo e crudo misura soltanto il grado di apparentamento civico del soggetto. Essere nel centro dell’ammasso più scuro in alto può voler dire che nessun legame parentale tira fuori quel soggetto da un grado di castriosità assoluto.

Cosa potrebbe dirci di più una volta terminato il database completo della contea di Castro? L’esplorazione grafica di un database ha possibilità infinite. Per esempio raggruppati i soggetti per sesso, paese di nascita, o altro e individuato un portatore di una determinata caratteristica ci può far vedere in pochi minuti come questa caaratteristica si disperde tra i soggetti.

school

Il grafo superiore potrebbe essere il risultato di una esplorazione tra due gruppi di soggetti (verdi e gialli), nati in quattro posti diversi, portatori di una caratteristica identitaria (pallino rosso).

Il grafo della Contea alla soglia del 10.000 soggetti è per ora solo una sovrapposizione pesata di legami parentali che prevedibilmente distingue una massa ben compatta (Castro) e una piuttosto aperta.

yed

Uno zoom sui margini del blocco di Castro permette di intuire i soggetti e i legami in una zona a margine tra il diradamento e l’aumento della “castriosità”. L’intero grafo è composto da 12.580 nodi e zoomabile fino al singolo soggetto. Per ora è attiva solo la distinzione tra maschi (etichetta azzurra) e femmine (etichetta rosa).

ConteadiCastro

 

Lascia un commento