CiteSeer X

CiteSeer x (originariamente chiamato CiteSeer ) è un motore di ricerca pubblico e una biblioteca digitale per articoli scientifici e accademici, principalmente nel campo dell’informaticae della scienza dell’informazione . Molti chi? ] lo considerano il primo motore di ricerca accademico su carta e il primo sistema di indicizzazione automatica delle citazioni. CiteSeer detiene un brevetto quale? ] su questo argomento, ed è considerato un predecessore di strumenti di ricerca accademici come Google Scholar e Microsoft Academic Search . citazione necessaria ]I motori e gli archivi di tipo CiteSeer di solito raccolgono solo documenti da siti web pubblicamente disponibili e non eseguono la scansione dei siti Web dei publisher. Per questo motivo, gli autori i cui documenti sono liberamente disponibili hanno maggiori probabilità di essere rappresentati nell’indice.

L’obiettivo di CiteSeer è migliorare la diffusione e l’accesso alla letteratura accademica e scientifica. Come servizio non-profit che può essere liberamente utilizzato da chiunque, è stato considerato come parte del movimento di accesso aperto che sta tentando di cambiare la pubblicazione accademica e scientifica per consentire un maggiore accesso alla letteratura scientifica. CiteSeer ha fornito gratuitamente i metadati di Open Archives Initiative di tutti i documenti indicizzati e collega i documenti indicizzati quando possibile ad altre fonti di metadati come DBLP e il Portale ACM . Per promuovere i dati aperti, CiteSeer x condivide i propri dati per scopi non commerciali con una licenza Creative Commons. [1]

Il nome può essere interpretato in modo da avere almeno due spiegazioni. Come un gioco di parole, un “turista” è un turista che guarda le attrazioni, quindi un “veggente di citazione” sarebbe un ricercatore che esamina i giornali citati. Un altro è un “veggente” è un profeta e un “veggente” è un profeta di citazioni. CiteSeer ha cambiato il suo nome in ResearchIndex a un certo punto e poi lo ha cambiato.

Storia

CiteSeer e CiteSeer.IST

CiteSeer è stato creato dai ricercatori Lee Giles , Kurt Bollacker e Steve Lawrence nel 1997 mentre erano al NEC Research Institute (ora NEC Labs ), Princeton, New Jersey , USA. L’obiettivo di CiteSeer era quello di sottoporre attivamente a scansione e raccolta documenti accademici e scientifici sul web e utilizzare l’ indicizzazione delle citazioni autonoma per consentire l’interrogazione per citazione o per documento, classificandoli per impatto di citazione . Ad un certo punto si chiamava ResearchIndex.

CiteSeer divenne pubblico nel 1998 e in quel momento molte nuove funzionalità non erano disponibili nei motori di ricerca accademici. Questi inclusi:

  • L’Indicazione di Citazione autonoma ha creato automaticamente un indice di citazione che può essere utilizzato per la ricerca e la valutazione della letteratura.
  • Statistiche sulle citazioni e documenti correlati sono stati calcolati per tutti gli articoli citati nel database, non solo per gli articoli indicizzati.
  • Collegamento di riferimento che consente la navigazione del database utilizzando i link di citazione.
  • Il contesto delle citazioni mostrava il contesto delle citazioni su un determinato documento, consentendo a un ricercatore di vedere rapidamente e facilmente ciò che altri ricercatori hanno da dire su un articolo di interesse.
  • I documenti correlati sono stati mostrati usando la citazione e le misure basate sulla parola e una bibliografia attiva e continuamente aggiornata è mostrata per ogni documento.

Dopo NEC, nel 2004 è stato ospitato come CiteSeer.IST sul World Wide Web presso il College of Information Sciences and Technology, la Pennsylvania State University , e ha avuto oltre 700.000 documenti. Per migliorare l’accesso, le prestazioni e la ricerca, versioni simili di CiteSeer sono state supportate in università come il Massachusetts Institute of Technology , l’ Università di Zurigo e l’ Università Nazionale di Singapore . Tuttavia, queste versioni di CiteSeer si sono dimostrate difficili da mantenere e non sono più disponibili. Poiché CiteSeer esegue l’indicizzazione solo di documenti disponibili gratuitamente sul Web e non ha accesso ai metadati del publisher, restituisce un numero minore di conteggi rispetto ai siti, ad esempio Google Scholar, che hanno metadati dell’editore.

CiteSeer non era stato completamente aggiornato dal 2005 a causa di limitazioni nella sua architettura. Aveva un campionamento rappresentativo di documenti di ricerca in informatica e scienza delle informazioni, ma era limitato nella copertura perché era limitato a documenti che sono pubblicamente disponibili, di solito nella homepage di un autore, o quelli presentati da un autore. Per superare alcuni di questi limiti, è stata progettata un’architettura modulare e open source per CiteSeer – CiteSeer x .

CiteSeer 

CiteSeer x ha sostituito CiteSeer e tutte le query su CiteSeer sono state reindirizzate. CiteSeer [2] è un motore di ricerca pubblico e una biblioteca e un repository digitali per articoli scientifici e accademici, principalmente con un focus su informatica e scienza dell’informazione . [2] Tuttavia, recentemente CiteSeer x si sta espandendo in altri ambiti accademici come economia, fisica e altri. Rilasciato nel 2008, è stato liberamente basato sul precedente motore di ricerca e libreria digitale CiteSeer ed è stato realizzato con un nuovo open sourceinfrastruttura, SeerSuite e nuovi algoritmi e relative implementazioni. È stato sviluppato dai ricercatori Dr. Isaac Councill e Dr. C. Lee Giles presso il College of Information Sciences and Technology , Pennsylvania State University. Continua a supportare gli obiettivi delineati da CiteSeer di sottoporre attivamente a scansione e raccolta documenti accademici e scientifici sulla rete pubblica e di utilizzare un’inchiesta di citazioni per citazioni e classificazione di documenti in base all’impatto delle citazioni. Attualmente, Lee Giles, Prasenjit Mitra, Susan Gauch, Min-Yen Kan, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Pucktada Treeratpituk, Jian Wu, Douglas Jordan, Steve Carman, Jack Carroll, Jim Jansen e Shuyi Zheng sono o sono stati attivamente coinvolto nel suo sviluppo. Recentemente, è stata introdotta una funzionalità di ricerca nella tabella. [3] È stato finanziato dalla National Science Foundation , dalla NASA e dalla Microsoft Research .

CiteSeer x continua a essere valutato come uno dei principali repository al mondo ed è stato valutato come numero 1 nel luglio 2010. [4] Attualmente ha oltre 6 milioni di documenti con quasi 6 milioni di autori unici e 120 milioni di citazioni.

CiteSeer x condivide anche i suoi software, dati, database e metadati con altri ricercatori, attualmente da Amazon S3 e da rsync . [5] La sua nuova architettura e software open source modulare (disponibile in precedenza su SourceForge ma ora su GitHub ) è basato su Apache Solr e altri strumenti Apache e open source che gli permettono di essere un banco di prova per nuovi algoritmi nella raccolta, classificazione, indicizzazione dei documenti e estrazione di informazioni.

Funzionalità attuali

Estrazione automatica delle informazioni

CiteSeer x utilizza strumenti automatizzati di estrazione delle informazioni, generalmente basati su metodi di apprendimento automatico come ParsCit, per estrarre metadati di documenti accademici come titolo, autori, abstract, citazioni, ecc. In quanto tali, ci sono errori talvolta negli autori e nei titoli. Altri motori di ricerca accademici hanno errori simili.

Focused Crawling

CiteSeer x esegue la scansione di documenti accademici pubblicamente disponibili principalmente dalle pagine Web degli autori e da altre risorse aperte e non ha accesso ai metadati del publisher. Come tale citazione conta in CiteSeer x sono di solito meno di quelli in Google Scholar e Microsoft Search Academic che hanno accesso ai metadati editore.

Utilizzo

CiteSeer x ha circa 1 milione di utenti in tutto il mondo sulla base di indirizzi IP unici e ha milioni di visite giornaliere. Il download annuale di documenti PDF è stato di circa 200 milioni per il 2015.

Dati

I dati di CiteSeer x sono regolarmente condivisi con una licenza Creative Commons BY-NC-SA con ricercatori in tutto il mondo ed è stato utilizzato in molti esperimenti e competizioni.

Altri motori di ricerca basati su SeerSuite

Il modello CiteSeer è stato esteso per coprire i documenti accademici in affari con SmealSearch e in e-business con eBizSearch . Tuttavia, questi non sono stati mantenuti dai loro sponsor. Una versione precedente di entrambi potrebbe essere trovata una sola volta su BizSeer.IST ma non è più in servizio.

Altri sistemi di ricerca e deposito di tipo Seer sono stati creati per la chimica, Chem X Seer e per l’archeologia, ArchSeer. Un altro era stato costruito per la ricerca di file robots.txt, BotSeer . Tutti questi sono basati sullo strumento open source SeerSuite , che utilizza l’indice di open source Lucene .

Vedi anche

  • arXiv
  • Google Scholar
  • Microsoft ricerca accademica
  • La collezione di bibliografie informatiche
  • DBLP (Digital Bibliography & Library Project)
  • Elenco di database accademici e motori di ricerca
  • Arnetminer
  • Repository disciplinare
  • RePEc

Riferimenti

  1. Salta su^ “Politica dei dati CiteSeerX” . Retrieved 2015-11-10 .
  2. ^ Vai a:b “Informazioni su CiteSeerX” . Estratto il 2010-05-07 .
  3. Salta su^ “The CiteSeerX Team” . Università statale della Pennsylvania . Estratto il 2010-07-24 .
  4. Salta su^ “Ranking Web of World Repositories: Top 800 Repositories” . Laboratorio di Cybermetrics. Luglio 2010 . Estratto il 2010-07-24 .
  5. Salta su^ “Informazioni su CiteSeerX Data” . Università statale della Pennsylvania . Estratto il 25/01/2012 .