Indicizzare full-text i file PDF su SharePoint 2010

Così come accadeva su SharePoint 2007, anche su SharePoint 2010 il motore di ricerca out-of-the-box non è in grado di indicizzare contenuti PDF. La ragione è ovviamente nota: il formato Adobe PDF è proprietario e non indicizzabile se non attraverso l'aggiunta di uno specifico iFilter che consente al motore di indicizzazione di "aprire" e "leggere" il contenuto dei file PDF, rendendo quindi possibile l'indicizzazione e le successive ricerche sul contenuto.

Va ricordato che ora SharePoint 2010 è solo a 64 bit, e quindi eventuali vecchi iFilter utilizzati su MOSS 2007 32 bit non vanno più bene. Diverso invece se in passato si usavano iFilter a 64 bit.

Attualmente sul mercato esistono tre iFilter PDF a 64 bit:

Recentemente Jie Li ha condotto degli interessanti test comparativi, attraverso i quali sono emerse differenze sostanziali tra i tre iFilter:

Vendor

Crawl Time(h:m:s) Crawl Time(s) File Per Second Success(including warning) Error
Foxit 0:13:00 780 29.02 22637 0
TET 1:17:44 4664 5.07 22637 0
Adobe 8:29:43 30583 0.74 22637 0

Oltre alla differenza nella velocità di indicizzazione (dai 13' di Foxit alle 8,5 ore di Adobe c'è una bella differenza!), segnalo anche le differenze di impatto sull'infrastruttura, dove:

  • Foxit sfrutta le CPU multicore, senza metterle eccessivamente in difficoltà (utilizzo spinto al 90%):
  • Anche TET sfrutta il multi-Core, ma schiantando le CPU al 100%
  • Adobe non è invece in grado di struttare a dovere il multi-thread, lavorando con un singolo core