Ormai si parla da tempo di ridurre la carta, introducendo in azienda soluzioni di archiviazione ottica in grado di digitalizzare anche i documenti cartacei, al fine della loro archiviazione digitale. In parte, soprattutto per la Pubblica Amministrazione, le direttive che spingono in questa direzione sono chiare ed esplicite.
SharePoint, con le sue Document Library, può senza dubbio candidarsi come possibile soluzione a basso costo (parlo anche dei semplici WSS) per costruire una soluzione di questo genere. E soluzione basso costo non significa certo soluzione limitata…
Le ragioni per cui dico questo sono diverse:
- SharePoint offre un supporto per l’archiviazione dei file in grado di offrire -a costo zero- funzionalità di versioning, approvazione, check-in/check-out e integrazione Office.
- Il solido storage, basato su SQL Server, offre garanzie di scalabilità e affidabilità (quelle di SQL Server).
- L’ambiente SharePoint, grazie alle Web Parts, offre uno spazio web-based, facilmente personalizzabile e rapidamente implementabile, dove esporre i contenuti informativi.
- Le Raccolte documenti offrono una struttura dati (campi) velocemente espandibile, con la possibilità di arricchire il tutto con metadati finalizzati alla ricerca o alla categorizzazione dei documenti.
- Le visualizzazioni delle Raccolte documenti offrono spazio alla rapida personalizzazione dei layout, fornendo risposte a chi necessita di filtrare, riordinare o raggruppare i contenuti delle Raccolte documenti.
- I contenuti archiviati (documenti) sono ricercabili, sia nella versione SharePoint Portal Server (SPS) che in Windows SharePoint Services (WSS); nel primo caso grazie agli specifici e potenti servizi di indicizzazione e ricerca, nel secondo caso grazie alle funzionalità full-text serach di SQL Server.
- I contenuti sono raggiungibili via browser ma anche via HTTP Webdav, offrendo spazi di integrazione anche con applicazioni non recentissime o comunque nate per l’integrazione con SharePoint (come Office 2003 o FrontPage 2003 e le sue FP2003 RPC).
Chi oggi si occupa di archiviazione ottica tende ad archiviare i documenti digitalizzati in formato Adobe PDF o TIFF.
In entrambi i casi SharePoint può indicizzare e rendere ricercabili i contenuti di questi file.
L’architeturra di ricerca di SharePoint infatti si basa sul sistema degli IFilters, così come ci ha abituati in generale il mondo dei servizi MS Search.
Per abilitare SharePoint all’indicizzazione dei file Adobe PDF è sufficiente installare l’IFilter per i PDF. Recentemente è stato rilasciata la versione 6 dell’IFilter di Adobe, versione compatibile con le attuali versioni di SharePoint (mentre in precedenza la versione 5 richiedeva una serie di operazioni manuali post-setup).
Mentre per abilitare l’indicizzazione dei documenti TIFF (disabilitata di default) è necessario modificare opportunamente una chiave di registro. SharePoint sfrutterà così un potente OCR in grado di eseguire il riconoscimento dei caratteri, rendendo ricercabili full-text anche le immagini TIFF (il sistema è anche in grado di riconoscere l’orientamento dell’immagine, ed eventualmente di ruotare il TIFF al fine di una sua corretta lettura).
Per abilitare l’indicizzazione/ricerca dei file .TIFF:
- Aprire il Registro attraverso Regedit
- Ricercare la chiave HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\MSPaper
- Inserire una nuova voce di tipo DWORD Value
- Chiamare la nuova voce PerformOCR
- Per abilitare il riconoscimento dei caratteri attribuire il valore 1 alla chiave (il valore 0 disabilita le funzionalità OCR).
- Accedere ai Servizi della macchina e riavviare il servizio Microsoft Search.
In aternativa a tutte queste operazioni, se disponi del CD di SharePoint Portal Server 2003, puoi semplicemente fare un doppio clic sul file Tiff_ocr_on.reg contenuto nella cartella \Support\Tools (se ti fidi…).
Per maggiori dettagli leggi l’articolo della KB.