intopic.it
L’evoluzione di un aggregatore semantico

Durante gli ultimi  mesi mi sono impegnato molto per migliorare l’algoritmo di categorizzazione delle notizie. Questo algoritmo ha un compito particolarmente complicato se ad essere analizzato è soltanto l’estratto di un articolo (come succede spesso con le notizie in formato RSS) e non l’articolo intero. Nel primo caso la precisione raggiunge il 94% mentre nel secondo tocca il 98%. Ciò vuol dire che circa un articolo su 20 è “offtopic” e il lavoro da fare è ancora tanto visto che risulta molto più semplice arrivare dal 60% di precisione al 90% che dal 94% al 95-96%.

L’algoritmo che individua automaticamente nuovi topic adesso funziona meglio e risulta più facile creare nuove categorie . In questo momento inTopic.it presenta le notizie di 424 topic che fino alla fine dell’anno saranno più di 1000. Uno strumento molto importante di questo algoritmo è la parte del codice che individua picchi nel flusso di notizie per un argomento, utilissimo per la creazione di topic “caldi” come ad esempio il topic sulle pensioni.

Il motore di ricerca adesso non si limita solamente a dover cercare nel database i risultati corrispondenti a una query ma diventa intelligente indovinando i topic che possono interessare l’utente che ha effettuato la ricerca.

Ecco alcuni esempi di query con suggerimenti:
http://www.intopic.it/find.php?lookingfor=ipod

http://www.intopic.it/find.php?lookingfor=anticancro

http://www.intopic.it/find.php?lookingfor=computer+portatili

http://www.intopic.it/find.php?lookingfor=beirut

Le ricerche effettuate e gli articoli letti sono dati che vengono registrati e costituiscono il primo passo per la creazione di un sistema di personalizzazione delle notizie che sarà basato sulcollaborative filtering.

La strada per portare inTopic.it dove ho immaginato un anno fa è ancora lunga, le idee ci sono e nuove idee ci saranno per mantenere il progetto vivo e in continua evoluzione. Elemento essenziale di questo percorso è il vostro feedback perciò invito tutti a inviarmi i vostri commenti sul progetto.

I commenti alimentati da Disqus