VisiData è uno strumento open-source che ci permette di esplorare e manipolare dataset complessi utilizzando le tecniche tipiche di un foglio di calcolo unite all’efficienza di Python. 

VisiData permette di aprire, rapidamente, file di qualsiasi dimensione e di qualsiasi formato di testo strutturato Utilizzando la riga di comando, è possibile accedere a diverse funzionalità quali il filtraggio, l’ordinamento e la ricerca.

Una peculiarità del tool è che tutte le operazioni si svolgono da tastiera in quanto tutte le operazioni si svolgono attraverso l’interfaccia nel terminale.

VisiData è scritto in Python 3, per cui ci basterà utilizzare l’installer di Python pip con la seguente sintassi:

pip3 install visidata

Per aprire un file, è necessario digitare nella shell il seguente comando:

vd nome_file

I dati in formato tabulare sul terminale verranno visualizzati quasi istantaneamente.

Prendiamo un dataset di esempio.

Scarichiamo il file sui dati audience della FIFA al seguente link: github.com/fivethirtyeight/data/blob/master/fifa/fifa_countries_audience.csv

Apriamo il file sulla shell digitando il comando

vd fifa_countries_audience.csv

VisiData_tabella1

Una volta aperto il file, possiamo vedere in basso a destra da quante righe è composto il nostro dataset, nel nostro caso 191 righe.

Come possiamo notare, VisiData ci aprirà il file quasi immediatamente, questo perché, in background, apre il file in maniera asincrona, caricando subito una piccola porzione in modo da renderla immediatamente disponibile all’utente.

Per chiudere il file aperto, ci basterà digitare “q” nella tastiera.

VisiData mette a disposizione tra tipologie di fogli:

  • i fogli sorgente, che corrispondono ai dataset che l’utente ha aperto su VisiData;
  • i fogli derivati, che contengono i dati provenienti dalle operazioni di filtraggio;
  • i metafogli, che forniscono una descrizione dei dataset caricati (attributi della tabella, elenco delle colonne).

VisiData_tabella2

VisiData rappresenta un ottimo tool per analizzare e filtrare dataset.

Ricordiamoci però, che non sostituisce i classici tool utilizzati per l’analisi dei dati, come Pandas e il linguaggio R, ma, senza ombra di dubbio, affianca gli strumenti classici durante il workflow di analisi minimizzando i tempi di lavoro.