Introduzione
Ogni giorno milioni di record e di dati vengono memorizzati: le nostre transazioni bancarie, il biglietto autostradale, l’accesso al server di posta elettronica e tanto altro ancora. Gran parte di loro finiscono in database aziendali per essere conservati e forse, ripresi ed analizzati quando un giorno un manager deciderà che sulla base di quei dati potranno essere prese decisioni importanti, che se ne potranno ricavare informazioni interessanti e indispensabili per l’azienda, per anticipare il mercato ed essere competitivi.
Questo continuo registrare tende a generare un overload informativo. Esplorare ed analizzare il vasto volume di dati diventa sempre più complesso e difficile.
A questo proposito ci viene in aiuto il data mining con tutte le sue tecniche, i modelli di regressione e tanti altri modelli matematico/statistici che ci spiegano la dipendenza tra le variabili. Ci spiegano che se domani abbasseremo dell’ 1 % il prezzo del nostro prodotto allora con buona probabilità la domanda aumenterà del TOT %.
L’analisi dei dati rappresenta l’unica via per la creazione di conoscenza e per la presa di decisioni importanti sulla base di essi, che fino a quando resteranno rinchiusi nei loro contenitori, fino al momento che non verranno mostrate le relazioni e le regole che li governano in maniera “leggibile” e comprensibile, non potranno essere utilizzati.
Un fattore da non sottovalutare è sicuramente il tempo in cui le decisioni vengono prese, non è infatti solo la qualità dell’informazione a fare la differenza, ma anche il tempo in cui se ne viene in possesso e quindi rapidi tempi di analisi del dato diventano sicuramente un fattore di successo. Spesso complicati modelli matematico/statistici vengono abbandonati proprio alla ricerca di una lettura dell’informazione più rapida. Si cerca di considerare la totalità dei dati e di evitare lo sforzo ed il tempo necessari allo studio, al calcolo ed all’analisi di indicatori statistici di sintesi. Questo porta a volte ad una analisi meno attenta e di peggiore qualità, che può sicuramente migliorare con una preventiva selezione dei dati e mediante l’utilizzo delle tecniche adatte.

1- Dati e informazioni – Alla ricerca del vantaggio competitivo
In ogni attività di produzione il valore viene di solito misurato confrontando quello dei prodotti in entrata ed uscita sul mercato. Nel caso della produzione delle informazioni risulta molto più difficile dare un valore di mercato agli input ed agli
output.
Bill Inmon (2004), colui che è considerato il padre del datawarehousing1 sostiene che i primi costi da considerare sono sicuramente i costi per megabyte di dati potenzialmente registrabili. Tuttavia dietro ogni megabyte di dati accumulati esiste una vera e propria catena di linee di comunicazione, controllers, macchine e persone che rendono i costi molto più alti e difficile da valutare. Egli suggerisce di valutare l’ influenza che questi potrebbero avere sul processo decisionale ed evitare di stoccare quelli che non servono. Quando questo non è possibile sarebbe almeno opportuno classificarli in attivamente usati o meno in modo tale da rendere migliori e più accessibili le unità dove sono stoccati quelli più utilizzati e preservare risorse a favore di questi.
Bisogna considerare che i costi di storage comportano delle economie di scala, sicuramente dotare un impianto della struttura per registrarli costa molto di più rispetto al farla crescere in termini di megabyte, e quindi di dati accumulabili, nel tempo. In altre parole se si dispone già di un buon impianto, aumentare la capacità di storage comporta solo l’acquisto di ulteriori supporti per immagazinare gli stessi.
Tali costi inoltre hanno visto un forte calo negli ultimi anni. Questa situazione porta ad accumulare i dati per un ipotetico utilizzo futuro senza fare alcuna considerazione, nella scelta tra i dati da conservare o meno si tende sempre più al “let’s just save everything”.
Molte organizzazioni tendono a voler calcorare i ritorni dei loro investimenti “informatici”, tuttavia non si tratta di un calcolo così immediato, non si tratta infatti di abbassare costi e/o aumentare ricavi, ma di ritorni in termini di conoscenza aziendale, che può portare a benefici indiretti e quindi più difficili da considerare.
ll vantaggio competitivo è quindi sicuramente da andare a ricercare non nell’accumulo di dati, ma negli strumenti che da questi sono in grado di estrapolare informazioni che migliorano la performance decisionale (Kass 2009).

2 – I compiti del data mining
Il data mining può essere visto come il processo di esplorazione ed analisi di un’ampia mole di dati al fine di scoprire modelli e regole significativi. In altre parole un insieme di tecniche adottate per estrarre informazioni da una ampia mole di dati grezzi.
I suoi compiti principali sono:
• Classificazione
• Stima
• Previsione
• Raggruppamento per affinità o regole di associazione
• Clustering
• Descrizione e visualizzazione
Mentre i primi tre compiti possono essere considerati attività di data mining diretto, atti a spiegare una specifica variabile sulla base dei dati disponibili, gli altri tre sono esempi di data mining indiretto, volti a stabilire delle relazioni tra tutte le variabili in gioco nel modello.

2.1 – Il data mining in sintesi
Con la classificazione si assegna a degli oggetti (nel nostro caso i record del database) una determinata “classe”, un esempio potrebbe essere l’assegnazione ad ogni record cliente di un codice che ci identifica quelli a basso, medio ed alto reddito. Si tratta quindi di classificare gli oggetti sulla base di valori di variabili conosciute.
Quando si parla di stima invece si cerca di assegnare dei valori a variabili non conosciute sulla base di un modello con in input informazioni recuperate dalla base dati. Ad esempio una banca decide o meno se concedere un mutuo a tasso agevolato ad un cliente in base ad una stima, all’assegnazione di un punteggio calcolato in modo probabilistico. Questo approccio consente di ordinare i record in base al valore assegnato. Si ricorre infatti a questa tecnica quando si vuole individuare dei valori di soglia, al di sotto o al di sopra dei quali dar luogo a determinate azioni.
A differenza delle due precedenti tecniche la previsione non esamina i record solamente per spiegare fatti già avvenuti, anche se può essere assimilata alle due precedenti, essa mira a spiegare comportamenti futuri. I dati storici servono quindi in questo caso a costruire un modello che spieghi il comportamento osservato e così formulare ipotesi per quello futuro.
Il raggruppamento per affinità o regole di associazione viene utilizzato per stabilire quali oggetti o voci possono abbinarsi, l’esempio classico è stabilire quali prodotti si trovano insieme in un carrello al supermercato. La grande distribuzione utilizza queste tecniche per stabilire la distribuzione dei prodotti sugli scaffali o nei cataloghi per far sì che gli articoli che di solito vengono acquistati insieme si trovino il più vicino possibile.
Il clustering rappresenta la segmentazione di un gruppo eterogeneo di osservazioni, ad esempio di clienti, in sottogruppi omogenei al loro interno (cluster). Esso differisce dalla classificazione in quanto in questo caso non si fa riferimento a classi predefinite, inoltre l’appartenenza ad un gruppo non equivale ad una classificazione, ma sta al data miner stabilire il significato dell’appartenenza o meno ad un gruppo. E’ il gruppo che viene esaminato ed è di questo che si cerca di comprendere il significato. Un insieme di acquirenti di particolari prodotti possono ad esempio rivelare l’appartenenza a differenti sottoculture, ci si potrebbe chiedere verso quale tipo di promozione i clienti potrebbero rivelarsi più ricettivi, in tal modo invece di cercare una risposta valida per tutti ci si propone di stabilire quale promozione potrebbe interessare in modo maggiore ciascun gruppo.
Infine la descrizione e visualizzazione rappresentano delle tecniche “alternative” di data mining. Anche se a volte non è facile ottenere una visualizzazione significativa per descrivere un database complesso, un quadro chiaro della situazione può essere molto più efficace di numerose regole di associazione, a volte risulta molto più immediato ricavare informazioni da dati visivi (Berry e Linoff 2002).
Il data miner in alcuni casi è alla ricerca di qualcosa che non è intuitivo ma, al contrario è controintuitivo (più l’informazione si discosta dall’ovvio più è grande il suo valore potenziale). Il segreto è cercare di leggere un quadro di insieme, seguire un percorso di analisi non preconfigurato e combinare le conoscenze e la creatività umana con la grande capacità di memoria e visualizzazione del computer.

2.2 – Benefici del visual data mining
Le tecniche di visual data mining sono efficaci in quanto includono l’ essere umano nel processo di esplorazione e combinano la sua conoscenza, creatività e flessibilità con l’ enorme capacità computazionale e di storage degli attuali computer.
La sua idea di base è quella di mostrare i dati in forma visuale (o grafica) permettendo al data miner di “entrare” nei dati, trarre delle conclusioni e direttamente interagirci. I suoi principali vantaggi sono i seguenti:
1. Permette più facilmente di trattare dati sporchi e disomogenei;
2. E’ intuitivo e non richiede la comprensione di complessi algoritmi e modelli
matematici o statistici;
3. Permette di ottenere direttamente dei feedback sull’analisi che si sta
affrontando.
Di solito l’ esplorazione dei dati prevede tre step: “overview”, “zoom e filtraggio” e “drill-down” (inteso come la richiesta di maggiori dettagli). In primis si cerca quindi di ottenere una overview dei dati per poi focalizzarsi su una porzione interessante, filtrandoli e zoomandoli, cercando così di visualizzare solo quelle caratteristiche che più interessano. Infine ottenere maggiori dettagli.
Quando si gestiscono enormi quantità di dati è fondamentale ottenere prima di tutto una visione del quadro di insieme, una presentazione dei dati altamente compressa, che permette all’utente di ottenere una visione “dall’alto” del fenomeno considerato, dopo questo passaggio si analizza il particolare.
Una tecnica molto utilizzata è quella di dare la possibilità all’utente di ottenere visualizzazioni multiple, ovvero dopo una visione dell’insieme si offre la possibilità di conservare visualizzazioni di differenti porzioni di dati o con differenti livelli di dettaglio, così da permettergli di effettuare confronti diretti senza dover sforzare eccessivamente la memoria (Keim 2002). Sicuramente di questi ed altri fattori si dorebbe avere grande considerazione in riguardo al possibile design di una reportistica efficace dal punto di vista decisionale.

3 – Alla ricerca del giusto design
Il datawarehousing ed il data mining hanno dato ai decisori aziendali la possibilità di usufruire di una serie di strumenti per immagazzinare, ritrovare ed analizzare i dati contenuti in enormi database, questo grazie allo sviluppo di query che gli permettono di visualizzare enormi quantità di dati. Tuttavia massimizzare le performance dell’utente in questo scenario resta ancora un campo tutto da scoprire.
Nel disegnare queste query, il seguire un approccio più o meno “visuale” di reporting può infatti migliorare le performance decisionali in alcuni casi.
Storicamente sono esistite due principali alternative per quanto riguarda il design delle query, quello tradizionale, basato sul testo, e quello più moderno che tende ad un approccio non solo testuale ma anche visuale. Elemento centrale di questo secondo è che permette più facilmente all’utente di limitare la mole e ampiezza dei dati visualizzati. Le tecniche moderne infatti hanno la peculiarità di essere interattive ed includere rappresentazioni grafiche e non solo testuali. In questo modo danno la possibilità di applicare filtri ai dati e riaggiustare i criteri della query durante l’esplorazione, permettendo all’utente di seguire dei sentieri mentali ed applicare direttamente le loro percezioni, ricevendo così direttamente dei feedback.
Le due variabili fondamentali nella presa di decisione sono l’accuratezza della decisione ed il tempo impiegato per prenderla.
E’ stato dimostrato che quando ci si confronta con un compito decisionale di bassa complessità (sia in termini di dati da analizzare che di possibili alternative decisionali) le query testuali permettono all’ utente di ottenere una performance migliore sia in termini di qualità della decisione che di tempo impiegato, viceversa nel caso di fenomeni più complessi da indagare.
Quando infatti le informazioni sono poche e l’ attività di decisione è meno complessa, allora un numero di soluzioni fattibili può essere rappresentato simultaneamente, permettendo una comparazione diretta tra di queste ed evitando
di dover effettuare invece dei confronti mentali che aumentano la difficoltà cognitiva. L’ interfaccia visuale infatti non sempre rende possibile la visualizzazione simultanea di dati con alto dettaglio, offre invece i dettagli solo a richiesta dell’utente. Per tale motivo ogni possibile soluzione deve essere necessariamente visualizzata indipendentemente e processata mentalmente. Per tali motivi quando il task decisionale è poco complesso è preferibile adottare un approccio testuale e non i più moderni approcci “interattivi” di analisi. Quando invece il task decisionale è complesso ed i dati da analizzare simultaneamente sono troppi, ci sarebbe da effettuare uno sforzo cognitivo troppo grande per confrontare tutte le situazioni, con un approccio testuale si tenderebbe ad adottare delle strategie di semplificazioni cognitive, che farebbero non solo incrementare il tempo di analisi, ma anche peggiorare l’ accuratezza e quindi portare a decisioni di peggiore qualità.
Per evitare questo problema si può far sì che l’utente possa focalizzarsi sugli attributi più salienti e filtrare via i dettagli non rilevanti per l’analisi, dandogli inoltre la possibilità di costruire, navigando, dei sentieri mentali che meglio lo aiutano non solo ad analizzare le possibili soluzioni, ma anche a meglio ricordarle per un successivo confronto mentale o visivo. In questo modo egli può ottenere direttamente dei feedback, visualizzare il mutare del sistema al variare dei singoli paramentri e così comprendere le regole che lo governano (Speier e Morris 2003).

Conclusioni
L’informazione rappresenta oggi una delle risorse fondamentali ed indispensabile per un’azienda che vuole mantenere il proprio vantaggio competitivo. Spesso esse devono essere ricavate da enormi database di dati grezzi, che trasformano il manager aziendale in un vero e proprio data miner alla ricerca di informazioni preziose per il business. Cercare, scegliere ed analizzare i dati giusti per trarne informazioni è un compito di notevole difficoltà. Il data mining, insieme alle moderne tecniche di querying possono dare un eccellente contributo in questa direzione.
Lo scenario cui si fa riferimento, la mole di dati, la complessità del task decisionale, giocano un ruolo cruciale nel disegno di una query, particolarmente quando le potenziali soluzioni ed i dati da analizzare rischiano di portare l’utente a navigare in un mare di dati a volte ingannevoli e che potrebbe portare a decisioni errate.
NOTE
1 Per datawarehousing si intende un particolare database di grandi dimensioni impiegato nel processo decisionale, che considera l’azienda nella sua unità ed acquisisce dati dai vari sistemi informatici utilizzati.
BIBLIOGRAFIA
BERRY M. J. A. E LINOFF G. S., 2002. Data Mining, Apogeo Editore, pp. 27-47.
INMON, B. 2004. The cost of storage Inmon. DM Review, 14: 50-51.
KASS, S. 2009. Information Lifecycle Management. Infonomics, AIIM Guide to ECM,
pp. 66-69.
KEIM, D. A., 2002. Information Visualization and Visual Data Mining, IEEE transaction on Visualization and Computer Graphics, Volume 8, Issue 1, pp. 1 – 8.
SPEIER, C. E MORRIS M. G. 2003. The influence of Query Interface Design on Decision Making Performance, MIS Quarterly, Vol. 27, No. 3 (Sep., 2003), pp. 397-423

Nota: questo articolo è pubblicato su www.ticonzero.info