I primi passi di una rivoluzione silenziosa

Esattamente 22 anni fa entrava in funzione un servizio destinato a rivoluzionare il mondo della ricerca. Sto parlando dell’arXiv, un archivio di articoli scientifici (pubblicati o in versione preliminare) caratterizzato dal fatto di essere ad accesso totalmente libero per chiunque. Per avere un’idea delle sue dimensioni attuali non c’è modo migliore di dare un’occhiata all’incredibile mappa interattiva che è stata prodotta dal progetto paperscape:

Mappa dell'arXiv
La galassia degli articoli su arXiv

Ma come è nato questo deposito di articoli (o e-prints) che, soprattutto in alcuni campi della fisica e della matematica, è ormai diventato un punto di riferimento imprescindibile? La storia ce la racconta nientemeno che il suo ideatore, il fisico teorico americano Paul Ginsparg, in questo articolo (reperibile indovinate un po’ dove?) di due anni fa.

Tutto comincia nella primavera del 1991, quando Ginsparg si trasferisce da Harvard ai laboratori di Los Alamos, nel New Mexico, celebri per essere stati il luogo dove Fermi, Oppenheimer e gli altri membri del progetto Manhattan costruirono nel 1945 le prime bombe nucleari. Arrivato nel suo nuovo ufficio, Ginsparg scopre con piacere di avere a disposizione, per la prima volta in carriera, un computer tutto per lui (una NeXTstation a 25 MHz con hard disk da 105 Mb e 16 Mb di RAM) e ne approfitta per mettere in pratica un’idea che gli girava in testa da un po’ di tempo.

Dobbiamo anzitutto precisare che all’epoca Internet non c’era ancora, o meglio stava nascendo proprio in quegli anni. La principale infrastruttura di rete, il cosiddetto backbone, era fornita dalla NSFNet, una rete creata nel 1985 per iniziativa della National Science Foundation che aveva raccolto il testimone dalla precedente ARPANET. Nel 1991 la NSFNet collegava tra loro 13 nodi sparsi per gli Stati Uniti alla straordinaria (per i tempi) velocità di 1.5 Mbit/s:

Rete NSFNet nel 1991

Le più piccole reti regionali potevano poi mettersi in comunicazione tra di loro collegandosi al nodo NSFNet più vicino.

Questo primo abbozzo di rete globale fu fondamentale per facilitare i contatti tra gli accademici statunitensi e l’uso delle e-mail, prima limitato alle reti locali nelle singole università, divenne presto un’abitudine anche per le comunicazioni a lunga distanza. Tra l’altro, se diamo retta a Ginsparg, pare che sia stato proprio lui il primo ad avere l’idea di inserire tra i dati presenti nella testata dei propri articoli anche l’indirizzo e-mail, per la prima volta in questo lavoro del dicembre 1987:

Prima pagina del lavoro di Dixon, Ginsparg e Harvey
…anche se relegato nelle note a pié di pagina

Un’altra cruciale innovazione di quegli anni fu la diffusione capillare del programma di typesetting TeX, la cui versione “definitiva” era uscita due anni prima (1989). Molti ricercatori, soprattutto tra i più giovani, si erano convertiti rapidamente all’uso del nuovo sistema, soprattutto per via della notevole semplificazione che garantiva nella composizione delle formule matematiche.

Con la diffusione dei documenti elettronici i tempi erano maturi per pensare a una infrastruttura che facilitasse la diffusione rapida e su larga scala dei nuovi articoli non ancora arrivati alla pubblicazione su rivista (tipicamente perché in attesa di peer review), i cosiddetti preprint. I primi tentativi in tal senso furono compiuti affidandosi a delle mailing list gestite manualmente, ma iscriversi a una mailing list di questo tipo significava correre costantemente il rischio di vedere la propria casella e-mail intasata dagli articoli in arrivo. Fu così che Ginsparg ebbe l’idea di creare un sistema completamente automatizzato che fosse in grado di ricevere ed archiviare i preprint, divulgare periodicamente una lista contenente i titoli e gli abstract dei preprint ricevuti, e infine distribuire gli articoli veri e propri su richiesta.

Nasce così la prima incarnazione del’arXiv, un rudimentale server e-mail (e, qualche mese dopo, anche FTP) gestito da un insieme di script csh, reperibile allo storico indirizzo xxx.lanl.gov (il curioso nome “xxx”, che ovviamente non ha nulla a che fare con la pornografia, deriva dalla sigla che Ginsparg era solito inserire nei suoi sorgenti TeX dove c’era qualcosa da correggere.) Il successo fu immediato: Ginsparg si aspettava un centinaio di preprint all’anno, ne arrivarono 400 nei primi sei mesi. L’onore della prima submission, ricevuta il 14 Agosto 1991, spettò al noto stringhista Gary Horowicz assieme a J. H. Horne, mentre in quarta posizione (16 Agosto) troviamo nientemeno che Ed Witten, peraltro non con uno dei suoi lavori più famosi, e appena fuori dalla top ten (21 Agosto) c’è il primo contributo di un altro grosso calibro, Ashoke Sen.

Curiosamente, l’idea iniziale era di cancellare i preprint archiviati dopo tre mesi dalla loro ricezione, quando in teoria essi sarebbero stati resi obsoleti dalla pubblicazione su rivista dell’articolo corrispondente; ma Andrew Strominger fece giustamente notare a Ginsparg che poter ottenere istantaneamente la copia di un articolo via e-mail è molto più comodo rispetto al perdere delle ore a cercare la relativa stampa nel proprio ufficio, e così nulla venne mai cancellato.

Ben presto cominciarono a spuntare “cloni” dell’archivio originale (ufficialmente denominato hep-th, che sta per high energy physics – theory) relativi ad altre aree della fisica e della matematica: così il 5 Febbraio 1992 nasce l’archivio alg-geom (geometria algebrica) all’indirizzo eprints.math.duke.edu (oggi non più in uso), mentre l’8 Marzo arriva, a grande richiesta, l’archivio hep-ph (fenomenologia). Un poco più tardi, il 7 Aprile, nasce hep-lat (teorie su reticolo) e tre giorni più tardi arrivano astro-ph (astrofisica), cond-mat (fisica dello stato solido) e funct-an (analisi funzionale), questi ultimi ospitati in Italia, su un server della SISSA (oggi, purtroppo, anch’esso defunto).

Nell’autunno del 1992 Ginsparg viene a conoscenza di una nuova e interessante tecnologia da poco sviluppata al CERN, e decide di dare una mano alla libreria dello SLAC per mettere online un server web (il primo su suolo americano!) che consentisse, tra le altre cose, di accedere a un’altra storica risorsa che ogni fisico conosce ed ama, il database SPIRES (recentemente ribattezzato inspire). Un sito web per il “physics e-print archive”, com’era chiamato all’epoca, arriverà solo nell’Aprile del 1993.

Molti anni più tardi, e precisamente il 28 Dicembre del 1998, il sito acquisterà finalmente il nome arXiv, trasferendosi nel contempo al suo attuale indirizzo. L’idea che sta dietro a tale criptica sigla è che la X maiuscola va pensata come la lettera greca χ, da cui la pronuncia simile a quella della parola inglese «archive». Per la cronaca, il nome più ovvio di “archive” dovette essere scartato perché nel frattempo all’indirizzo archive.org si era già stabilmente insediato l’Internet Archive: ecco un caso in cui persino l’essere nati prima ancora del web non è stato sufficiente ad assicurarsi il nome di dominio che si desidera!

«The arXiv could well end up as string theorists’ greatest contribution to science.» (David Mermin)