Così come accadeva su SharePoint 2007, anche su SharePoint 2010 il motore di ricerca out-of-the-box non è in grado di indicizzare contenuti PDF. La ragione è ovviamente nota: il formato Adobe PDF è proprietario e non indicizzabile se non attraverso l'aggiunta di uno specifico iFilter che consente al motore di indicizzazione di "aprire" e "leggere" il contenuto dei file PDF, rendendo quindi possibile l'indicizzazione e le successive ricerche sul contenuto.
Va ricordato che ora SharePoint 2010 è solo a 64 bit, e quindi eventuali vecchi iFilter utilizzati su MOSS 2007 32 bit non vanno più bene. Diverso invece se in passato si usavano iFilter a 64 bit.
Attualmente sul mercato esistono tre iFilter PDF a 64 bit:
- Foxit PDF iFilter 2.0 x64 (699$ per server)
- TET PDF iFIlter 3.0 x64 (595$ per server)
- Adobe PDF iFilter 9.0 x64 (gratis)
Recentemente Jie Li ha condotto degli interessanti test comparativi, attraverso i quali sono emerse differenze sostanziali tra i tre iFilter:
Vendor |
Crawl Time(h:m:s) | Crawl Time(s) | File Per Second | Success(including warning) | Error |
Foxit | 0:13:00 | 780 | 29.02 | 22637 | 0 |
TET | 1:17:44 | 4664 | 5.07 | 22637 | 0 |
Adobe | 8:29:43 | 30583 | 0.74 | 22637 | 0 |
Oltre alla differenza nella velocità di indicizzazione (dai 13' di Foxit alle 8,5 ore di Adobe c'è una bella differenza!), segnalo anche le differenze di impatto sull'infrastruttura, dove:
-
Foxit sfrutta le CPU multicore, senza metterle eccessivamente in difficoltà (utilizzo spinto al 90%):
-
Anche TET sfrutta il multi-Core, ma schiantando le CPU al 100%
-
Adobe non è invece in grado di struttare a dovere il multi-thread, lavorando con un singolo core