
Il World Wide Web (sigla www – «ragnatela intorno al mondo» – diminutivo Web) è tra i servizi più usati dagli utenti della Rete[1] poiché è il sistema che ha permesso e permette tutt’ora la consultazione e condivisione di documenti ipertestuali, multimediali, costituiti cioè da un insieme di contenuti testuali, visuali e audio/video, sfruttando l’infrastruttura di Internet.
Lo scopo di questo approfondimento è esplicare l’intricata struttura del Web in base ai contenuti presenti e alla relativa difficoltà di individuazione, rendendo così comprensibile cosa si intende per surface, deep e dark web.
Argomenti che sono stati analizzati più approfonditamente in specifici articoli.
SOMMARIO
1. Cenni sull’origine e sul funzionamento del World Wide Web
2. Navigare in rete con i browser
3. La ricerca nel surface web
3.1 Limiti di indicizzazione dei motori di ricerca generalisti
4. Dalla superficie alla parte oscura del web
4.1 Surface web, deep web, dark web
CONCLUSIONE
NOTE
1. Cenni sull’origine e sul funzionamento del World Wide Web
Ideato nel 1991 da Tim Berners-Lee, ricercatore presso il CERN di Ginevra, il sistema di comunicazione denominato World Wide Web permette una lettura ipertestuale dei documenti, saltando da un punto all’altro mediante l’utilizzo di rimandi (cc. dd. “link” o, più propriamente, “hyperlinks”).
Tale sistema ha profondamente rivoluzionato il modo di effettuare le ricerche e di comunicare in rete, sostituendosi rapidamente al modello di accesso e consultazione sequenziale dei documenti informatici, caratteristico delle prime versioni di Internet (tanto da aver ingenerato il diffuso convincimento che Rete e web siano sinonimi)[2].
2. Navigare in rete con i browser
Affinché l’elaboratore di un utente (client) possa interagire con i contenuti (cc. dd. “pagine web”) presenti nella memoria di un dispositivo (server), connesso in una rete locale o su Internet, si utilizza un opportuno software, detto browser (o navigatore) (es. Internet Explorer, Safari, Google Chrome ecc.), dotato di interfaccia grafica (GUI, Graphical User Interface).
Le pagine web sono tipicamente raggruppate in insiemi, più o meno uniformi per aspetto e contenuti, organizzati secondo una qualche struttura, detti siti.
Per essere accessibili, le pagine web vengono costruite mediante opportuni linguaggi descrittori, il più diffuso dei quali è l’HTML (hypertext markup language), che permette di specificare sia il contenuto delle pagine sia il loro formato di visualizzazione sul browser dell’utente.
A esso è possibile affiancare una serie di altri formati come JPEG o GIF per la gestione delle immagini, con possibili estensioni grazie all’uso di funzionalità aggiuntive (c. d. “plugin”)[3].
Il protocollo che regola le comunicazioni tra client e server e il trasferimento delle pagine web è l’HTTP (hypertext transfer protocol).
Oltre ad esso, un browser può tipicamente supportare altre tipologie, come:
- i protocolli ftp (File transfer protocol);
- i protocolli https (versione sicura di http che si avvale del TLS (Transport layer Security);
- i protocolli rtsp (real-time streaming protocol);
- i protocolli gopher.
Componenti ulteriori possono essere inoltre supportate e installate per le applicazioni più interattive come la online chat o la posta elettronica.
Tuttavia, un server http, generalmente si avvale del protocollo TCP a livello di trasporto delle risorse al client che le ha richieste.
La posizione di queste nella rete è individuata univocamente da una serie di caratteri, denominata URI (universal resource identifier).
L’URI può essere del tipo URL (uniform resource locator) oppure del tipo URN (uniform resource name).
La differenza tra i due consiste nel fatto che nella modalità URL viene specificata la posizione del documento, mentre la modalità URN consente di specificarne semplicemente il nome (un programma si incarica poi di tradurlo in una locazione fisica).
La c. d. “barra degli indirizzi” è rinvenibile nella parte superiore della schermata del browser, in forma rettangolare, orizzontale.
3. La ricerca nel surface web
Considerata la complessità dell’URI, per agevolare la ricerca dei contenuti (pagine web) ci si avvale di appositi programmi, i cc. dd. “motori di ricerca”, in grado di individuare informazioni di particolare interesse per l’utente[4] fra una pletora preselezionata dal software stesso (non già quindi fra tutte le informazioni presenti in Rete).
L’attività di ogni motore di ricerca si compone delle fasi di:
- preselezione dei siti (detta “crawling”);
- creazione di un indice (detta fase di indicizzazione o “indexing”);
- ordinamento delle pagine in base alla loro rilevanza rispetto alla richiesta fatta dall’utente (detta fase di ordinamento o “ranking”). Per la selezione, il motore di ricerca parte da un insieme di siti ed esplora tutti i collegamenti che si diramano da essi attraverso gli hyperlink.
Questa esplorazione viene detta crawling poiché effettuata mediante opportuni programmi, detti “crawlers” (o “spiders” o “robots” o “softbots”), i quali estraggono porzioni di testo da ogni pagina e le rimandano a un altro programma affinché le passi in scansione e formi un indice, ponendo ognuna di esse in corrispondenza della pagina che la contiene.
Parallelamente, altri programmi esplorano i siti precedentemente visitati dal crawler per verificare che siano ancora attivi, provvedendo a eliminarli dall’indice in caso contrario.
Un motore di ricerca di grosse dimensioni può visitare decine di milioni di pagine al giorno.
Questo processo di ricerca è agevolato dal fatto che il proprietario di un sito può indicarlo al motore di ricerca e farlo così inserire nella lista dei siti da visitare.
3.1 Limiti di indicizzazione dei motori di ricerca generalisti
Non tutti i siti entrano però a far parte dell’indice, e ciò per diversi motivi:
- le pagine che richiedono username, password o registrazione in genere, non possono essere visitate dal crawler, il quale quindi si blocca e non le include nell’indice (cc. dd. “pagine ad accesso ristretto”);
- i link che rimandano alle pagine, essendo scritti in linguaggi particolari (come javascript o Flash), richiedono procedure complesse per essere aperti, non effettuabili dal crawler (cc. dd. “scriptpages”);
- in genere vengono preferiti i contenuti statici, pagine web testuali o comunque strutturate, che contengono un elevato numero di collegamenti ad altri siti o che appartengono a categorie poco numerose (in contrapposizione ai cc. dd. “contenuti dinamici”, ossia pagine web il cui contenuto viene generato al momento della richiesta al server). Queste pagine, infatti, possono essere richiamate solo compilando un form o rispondendo a una particolare richiesta (es. i contenuti presenti in un database con un motore di ricerca interno come pagine bianche, Registroimprese, ecc.)[5];
- il contenuto di singole pagine o interi siti non è compatibile con i termini del servizio offerto dal motore di ricerca;
- il programmatore di una pagina web potrebbe averla esclusa dal crawling includendola nel file “robot.txt” o attraverso l’uso del “meta robot”, un’istruzione che può essere presente come codice nella sezione “head” di ogni pagina web;
- i file potrebbero non essere compatibili con il motore di ricerca (testo) utilizzato, essendo multimediali e quindi privi di tag (es. fotografie, filmati, file audio ecc.).
Quanto esposto, infatti, riguarda i principali motori, cc. dd. “generalisti”, (es. Google, Yahoo! ecc.[6]) che effettuano ricerche basate solo sui testi delle pagine ma esistono una molteplicità di tecniche e strumenti in grado di ovviare ai suddetti limiti.
In seguito all’indicizzazione avviene il ranking, come detto la fase di ordinamento delle pagine in base alla loro rilevanza rispetto alla richiesta fatta dall’utente.
Poiché ogni ricerca restituisce in genere un gran numero di pagine, queste vengono visualizzate in gruppi di 10 o 15, secondo l’ordinamento effettuato dal motore di ricerca.
Il criterio di ordinamento varia da browser a browser e a volte non è reso noto mentre altre volte è definibile dall’utente.
Uno molto diffuso è il TFIDF (term frequency inverse document frequency): compaiono ai primi posti quelle pagine che contengono la parola chiave con maggior frequenza e nel caso di espressioni contenenti più parole chiave vengono preferite quelle pagine che contengono le parole chiave meno frequenti; in altri termini, meno frequente è una parola chiave, più selettiva è la ricerca[7].
4. Dalla superficie alla parte oscura del web
Sulla base di quanto esposto, prendendo a riferimento i principali motori di ricerca esistenti e la suddivisione di Internet in clear net e dark net, il World Wide Web non risulta uno spazio omogeneo, accessibile interamente alla generalità degli utenti.
Numerose informazioni, infatti, sono contenute all’interno di reti con accessi regolamentati da diversi livelli di sicurezza successivi, le quali, peraltro, possono richiedere l’uso di particolari protocolli di comunicazione e software.
A ciascun livello o strato, dal più esterno (quello visibile a chiunque) a quelli più interni, corrisponde un differente grado di difficoltà nell’accesso.
Utilizzando un paragone ormai consolidato, la struttura del web potrebbe essere assimilata a quella di un iceberg.
Il surface web (web di superficie) costituisce la parte più piccola, emersa e visibile del web.
E’ composto dai contenuti indicizzati dai motori di ricerca classici e liberamente accessibili dagli utenti.
Trattasi per lo più di contenuti statici, pagine web testuali o comunque strutturate, alcune delle quali possono anche connettersi a contenuti presenti nel deep web (come accade per l’accesso alla pagina privata del proprio profilo Facebook, o quando si accede a quella di Registroimprese o dell’albo professionale)[8].
Il deep web (web sommerso) rappresenta, invece, la parte più grande del web[9], costituita dall’insieme delle risorse informative non indicizzate, dunque individuabili solo conoscendone lo specifico URI, o effettuando ricerche mirate con motori particolari, o accessibili solo in seguito a riconoscimento/autorizzazione, ma visualizzabili con ordinari browser.
Al “confine” con il dark web possiamo poi collocare i contenuti non indicizzati e che richiedono uno specifico programma per essere visualizzati (trattasi di contenuti non testuali).
Il dark web (web oscuro), la parte più “profonda” del deep web, è costituito dai contenuti non indicizzati, che richiedono uno specifico programma per interagirvi e altresì collocati in server la cui posizione in rete è stata nascosta dai rispettivi programmatori attraverso strumenti di anonimizzazione come TOR o I2P.
Per accedere alle reti, le dark net, nelle quali sono allocati i suddetti contenuti e visualizzarli, infatti, sono necessari appositi programmi in grado di sfruttare la struttura e le regole di Internet ma un proprio protocollo di connessione, in modo da garantire una navigazione non tracciabile[10].
CONCLUSIONE
Questa è solo una delle categorizzazioni possibili[12] e, in ogni caso, è evidentemente sommaria.
La sua utilità, infatti, è meramente quella di rendere comprensibile una intricata struttura, quella del web, nella quale è di fatto quasi impossibile effettuare categorizzazioni nette.
Si consideri in proposito che spesso i mercati illegali presenti nel dark web (cc. dd. “black markets”) necessitano di collegamenti sulla superficie per consentire alla clientela di individuarli.
Al di là dell’uso di motori appositi per il dark web, dunque, spesso l’attività degli investigatori inizia nel web di superficie, per addentrarsi poi, step by step, nell’”oscurità”.
Da ciò deriva l’indispensabilità della conoscenza dei complessi meccanismi di funzionamento delle varie porzioni del web, in particolare deep e dark, e delle tecniche di ricerca migliori ivi da adoperare.
Se necessiti di assistenza o vuoi far parte del network
Contattaci
NOTE
[1] Altri sono: streaming, remote access, VoIP e file sharing che sono stati approfonditi in altri articoli.
Per un’analisi d’insieme maggiormente dettagliata si rimanda a ISTITUTO DELL’ENCICLOPEDIA ITALIANA TRECCANI, “Internet”, Treccani on line
[2] CENSORI C. (2007), “WEB”, Enciclopedia Italiana Treccani – VII Appendice on line
[3] CAPPELLI M. (2008), “Browser”, Enciclopedia della Scienza e della Tecnica, Treccani on line
[4] Il metodo più comune consiste nell’interrogare il motore di ricerca fornendo una o più parole chiave che definiscono l’argomento di interesse. Queste parole chiave possono essere collegate con operatori booleani, i più diffusi dei quali sono AND (intersezione logica), OR (unione logica) e AND NOT (esclusione logica). Esistono inoltre tecniche avanzate di ricerca che utilizzano operazioni logiche a più livelli e operatori di prossimità (come NEAR). Cfr. in ISTITUTO DELL’ENCICLOPEDIA ITALIANA TRECCANI, “Motore di ricerca”, Treccani on line
[5] FLORINDI E. (2016), “Deep Web e bitcoin, vizi privati e pubbliche virtù della navigazione in rete”, Imprimatur srl, p. 11
[6] Altri esempi sono rinvenibili qui
[7] È assodato che l’utente difficilmente va oltre il primo gruppo, per cui ai fini commerciali è preferibile che il sito sia incluso tra i primi, affinché sia visitato dal maggior numero di utenti.
I progettisti di siti web tengono quindi in notevole considerazione i criteri di ordinamento dei motori di ricerca, operando a volte con mezzi poco leciti (pratiche dette di spamming).
Per es. le tecniche di spamming possono incrementare artificialmente la frequenza di alcune parole chiave (per ovviare a questo stratagemma alcuni motori di ricerca contano una parola chiave non più di due volte) oppure introdurre parole chiave che non hanno nulla a che vedere con l’effettivo contenuto del sito, ma sono spesso presenti nelle ricerche effettuate dagli utenti. Cfr. in ISTITUO DELL’ENCICLOPEDIA ITALIANA TRECCANI, “Motore di ricerca”, Treccani on line
[8] FLORINDI E., op. cit., p. 10.
[9] Per approfondimenti relativi alle dimensioni della Rete si rimanda a PAPPAS S. (2016), “How big is Internet, really?”, riv. Live Science
[10] Cfr. inter alia FLORINDI E., op.cit. p. 13;
GREENBERG A. (2014), “Hacker Lexicon: What Is the dark web?”, Wired;
[11] Tratta da DEEP WEB TECHNOLOGIES, “The “Deep Web” is Not All Dark”, deepwebtech.com
[12] Si rimanda, in proposito, a due interessanti articoli che forniscono differenti classificazioni del web e in cui viene altresì valutata l’esistenza del c. d. “Mariana’s web” (riferimento alla Fossa delle Marianne):
DARK SPACE BLOGPOT (2015), “Il Mariana’s web esiste? La verità”;
GNIUS TECH, “Bergie web – come entrare?”
Qui, infine, è presente un’utile e dettagliata immagine dei possibili vari livelli del web e relativi contenuti.