Quando nominiamo il data mining, facciamo riferimento a tutte quelle tecnologie che hanno come obiettivo il recupero di dati utili da grandi quantità di informazioni. Per dati utili si intendono tutti gli elementi che possono essere utilizzati in modi diversi e in vari settori.
Dalla semplice ricerca online, al settore medico, dal campo finanziario ad ogni tipo di azienda. I dati sono presenti in tutti i campi e per questo è importante estrarli e saperli analizzare al meglio.
Essi vengono estrapolati da database e banche dati, venendo poi analizzati con metodi automatici o in alcuni casi semi-automatici. Infatti, questa tecnologia utilizza spesso diversi strumenti di Intelligenza Artificiale e si basa su algoritmi di machine learning.
Cerchiamo però di capire nel dettaglio come è possibile estrarre questo genere di informazioni, come sono analizzate e come vengono poi utilizzate.
Come detto, l’obiettivo del data mining è quello di cercare di recuperare da un ingente numero di dati le informazioni utili per un ente, che sia un’azienda, un e-commerce o una banca.
Queste tecnologie cercano di trovare relazioni e legami tra più variabili e tra diversi dati, così da poter prendere decisioni oculate e ponderate.
Se ad esempio, un’azienda riesce ad estrapolare da una miriade di dati, le informazioni riguardo le preferenze dei clienti, potrà prendere delle decisioni ben precise e indirizzarsi verso determinate scelte. Sia per quanto riguarda il marketing che la produzione.
Nessuno potrebbe mai recuperare manualmente le informazioni ricercate all’interno dei Big Data, per questo risulta necessario una tecnologia di data mining. Essa riesce a trovare relazioni, legami e schemi, i cosiddetti pattern, all’interno di moltitudini di dati eterogenei. Questa tecnologia, oltre ad avere tempistiche ridotte rispetto a una ricerca effettuata da un essere umano, ha livelli di efficienza molto elevati.
Il data mining è quindi l’estrapolazione di informazioni utili da un cospicuo numero di dati. Oltre a ciò, questa tecnologia analizza tali dati e cerca di trovare relazioni e legami in modo da indirizzare e migliorare le scelte, che esse siano aziendali o meno. Ha quindi un doppio lavoro: estrazione e analisi.
Per estrazione si intende chiaramente il recupero di dati utili da grandi quantità di informazioni. Questo recupero viene normalmente fatto con tecniche all’avanguardia, in modo da trovare le informazioni richieste in poco tempo e in maniera efficace. In base alle ricerche dell’utente e alle sue preferenze, gli algoritmi riescono a estrapolare le informazioni utili per l’azienda.
Ogni attività online lascia delle tracce che possono essere utilizzate in seguito dalle tecnologie di data mining.
Per analisi si intende il processo di identificazione e comprensione di queste informazioni. Gli algoritmi, in maniera automatica o semi-automatica, cercano di creare delle connessioni e legami tra i dati raccolti. L’obiettivo dell’analisi è quello di ricostruire degli schemi e delle abitudini. La conoscenza di queste permette poi alle aziende di prendere determinate decisioni in una direzione o in un’altra. In questo passaggio entrano in gioco l’Intelligenza Artificiale e le tecnologie di machine learning.
Abbiamo visto come il data mining sia di grande importanza per le decisioni e le strategie aziendali. Ma è importante sottolineare come esso non sia utile solamente per le aziende, ma per chiunque utilizzi internet.
Questa tecnologia infatti, permette di raggiungere delle conoscenze strutturate e sfruttabili partendo da informazioni più dubbie e cifrate all’interno di un database.
Nel processo di KDD, ovvero Knowledge Discovery in Databases, sono presenti i vari passaggi da seguire per raggiungere le informazioni finali.
Innanzitutto, si dovrà identificare ciò che si vuole raggiungere e capire quali informazioni si stanno ricercando. Poi ci saranno vari passaggi di preselezione dei dati e di pulizia, in modo da separare le informazioni utili da quelle inutili per raggiungere l’obiettivo prefissato. In alcuni casi, i dati dovranno essere convertiti se il formato non è sostenibile.
Poi è chiaramente presente il passaggio di data mining, quello più importante per il raggiungimento del risultato finale. Vengono quindi cercati e analizzati i dati all’interno del database in modo da trovare la risposta alla domanda iniziale.
I risultati di questa ricerca verranno nuovamente controllati per capire se le informazioni richieste sono state trovate o meno. Nel caso in cui non si fosse raggiunto il risultato sperato, vengono modificati e fatti nuovamente alcuni dei passaggi precedenti.
Alla fine, si potranno visualizzare i risultati finali, quelli ricercati fin dal primo passaggio.