FireStats error : FireStats: Unknown commit strategy

scaryBITS

Ein Hauch von Sicherheit und Datenschutz im digitalen Alltag

Adobe Reader 10 bricht Suchfunktion

Posted by Urs Meile on 21.02.2011

Wer auf einer Windows 7 32Bit Maschine Adobe Reader 10 installiert, erlebt eine böse Überraschung. Im Gegensatz zu Reader 9 sind nun PDF-Dokumente nicht mehr mit der Windows Search Funktion durchsuchbar. Ein eleganter Ausweg ist momentan nicht in Sicht.

Aus Sicherheitsgründen ist ein Reader Update auf Version 10 dringend erwünscht.  Warum Adobe nun keine Lösung für das Durchsuchen von Dokumenten anbietet, bleibt nebulös.

Filter nötig

Windows 7 kommt mit einer gegenüber XP massiv verbesserten Indiexier- und Suchfunktion daher. Eine Indexierung ist für schnelle Suche unabdingbar und findet üblicherweise im Hintergrund statt. Genau wie bei den Servern ist auch bei Windows 7 Indexierung modular implementiert. Auf den Basismechanismu setzen sogenannte iFilter auf. Diese Filter enthalten Mechanismen, die für das Entziffern bestimmter Codierungen nötig sind. An Bord hat Windows plus Office eine Reihe von Filtern etwa für normalen Text, für HTML oder Office Dokumente.

Drittanbieter mit proprietären Codierungen sind eingeladen, den Kunden iFilter anzubieten, damit die entsprechenden Objekte unter Windows durchsucht werden können. Bestimmte PDF sind in Ausnahmefällen mit dem Windows Textfilter durchsuchbar, nämlich dann, wenn sie Klartext enthalten. Das ist normalerweise nur bei gescannten Dokumenten der Fall. Da fügt manchmal eine OCR-Komponente den Text als Klartext mit  ins Dokument ein. Normale PDF Files sind aber proprietär codiert und erfordern einen iFilter, um auf Ebene Windows durchsuchbar zu sein.

In Rohform können die codierten PDF schon auch ohne iFilter indexiert werden, wenn das Durchsuchen des Inhalts eingestellt wird (auf „Index Properties an File Contents“). Nun können diese PDFs in Suchen erscheinen, wenn nur ein einzelner Buchstabe eingegeben wird. Aber bereits bei Eingabe eines weit verbreiteten Artikels wie „the“ oder „das“ bringt kein einziges normales PDF-Dokument als Suchergebnis.

Noch beim Adobe Reader 9 hat Adobe auf 32Bit Systemen einen iFilter mitgeliefert und im Hintergrund gleich installiert. Mit Version zehn liefert Adobe keinen Filter mit, ohne dem User den Funktionsverlust bei Suchen klar zu machen. Einzig in einem FAQ findet sich ein wenig klärender Beleg: „The iFilter shell extension has a limitation with Microsoft Desktop Search and is not installed with Reader X“.

Adobe Ausweg nur für 64Bit Windows

Für 64Bit Systeme kann auf den entsprechenden Filter zurückgegriffen werden, den Adobe in Version 9 anbietet. Eine Installation auf zwei Testystemen verlief reibungslos. Der Installer setzt auch gleich die Option des Filetyps PDF auf das Indexieren auch von Content („Index Properties and File Contents“). Nach dem erforderlichen Neuaufbau des Indexes zeigt die Windows 7 Suche perfekt auch die Ergebnisse nach Stichworten aus dem Innern on PDF Dokumenten an (Indexing Options / Advanced / Rebuild). Der Indexierservice schafft pro Stunde einige zehntausend Dokumente und Mails, sofern er ungestört werkeln kann. Bei Userinteraktion schaltet er auf ressourcenschonenden Minimalbetrieb, da kann sich der Neuaufbau des Indexes über Stunden hinziehen. Am besten vor der Mittagspause starten.

Für 32Bit System bietet Adobe weder eine Lösung noch eine Erklärung an. Das wirkt einigermassen befremdlich angesichts des Bedeutung, welche das Suchen nicht nur im Internet, sondern auch im eigenen Dokumentenbestand hat. Eine Testinstallation des veralteten iFilter Version 6 von Adobe hat das Problem nicht gelöst – andere haben die gleiche Erfahrung gemacht. Microsoft zeigt in einem W7 Artikel zwar auf diese alte Version 6 von Adobe. Wie das auf W7 zum Laufen gebracht werden kann, ist offen. Adobe selbst nennt in der entsprechenden Doku weder Vista noch W7 als untersützte OS. Eine allfällige Lösung bietet die Firma PDFlib mit PDFlib TET PDF IFilter auf die in einem Geschwindigkeitstest von einem MSDN Blog verwiesen wird. Eine Komponente von kaum einschätzbarer Qualität ins Betriebssystem einzupflanzen, ist aber nicht jedermanns Sache.

Es ist der Münchner Firma hoch aber anzurechnen, dass sie eine kostenlose Lösung anbietet, die funktioniert. Beim Test auf einem virtuellen Windows 7 32 Bit zeigt die Suche nach Installation des  PDFlib TET PDF IFilter umgehend indexierte PDFs an, auch wenn kein PDF-Viewer installiert ist. In der geeigneten Preview wird auch gleich Text aus dem Inhalt angezeigt, welchen der iFilter ja ohnehin dekodieren muss, um ihn dem Indexing Service von Windows darzubieten:

Wenn nun Adobe Reader 10 installiert wird, lässt er immerhin den installierten iFilter der Konkurrenz unbehelligt. Adobe legt voerst den Indexing Service lahm, sodass das unbeschwerte Suchen und Anschauen erst nach einem Neulogin (oder Reboot) möglich ist. Natürlich muss immer der Aufbau des Indexes abgewartet werden.

ANHANG: Technische Details zu Index, Suche, iFilters

Out oft the Box (und nach Installation von Office) läuft Indexieren und Suchen in einer robusten Default Konfiguration.

Unter Windows 7 können mit „Indexing Options“ verschiedene Einstellungen vogenommen werden: welche Folderst sollen indexitert werden; nur Attribute oder auch Inhalt; Neuaufbau des Indexes.

Ein Blick auf Windows 7 64 Bit nach erfolgreicher Installation von iFilter Version 9:

1) Wie werden PDF Files bei der Indexierung gehandhabt?
HKEY_LOCAL_MACHINE\SOFTWARE\Classes\.pdf\PersistentHandler
darin der default
{F6594A6D-D57F-4EFD-B2C3-DCD9779E382E}

2) Jetzt suchen wir nach ID F6594A6D-D57F-4EFD-B2C3-DCD9779E382E und finden
HKEY_CLASSES_ROOT\CLSID\{F6594A6D-D57F-4EFD-B2C3-DCD9779E382E}
darin registriert als Persistent Addin
\PersistentAddinsRegistered\{89BCB740-6119-101A-BCB7-00DD010655AF}
mit dem Wert default
{E8978DA6-047F-4E3D-9C78-CDBE46041603}

3) HKEY_CLASSES_ROOT\CLSID\{E8978DA6-047F-4E3D-9C78-CDBE46041603}\InprocServer32
darin der default, zeigt auf die iFilter DLL:
C:\Program Files\Adobe\Adobe PDF iFilter 9 for 64-bit platforms\bin\PDFFilter.dll

Wenn unter Punkt 1) der Persistent Handler auf {5e941d80-bf96-11cd-b579-08002b30bfeb}
zeigt, ist das der default Handler für .txt und andere Klartextfiles. PDF Dateien werden dann nur nach Klartextteilen indexiert: gescannte PDFs mit OCR Klartexteinschüben werden erschlossen, normale PDF nicht.

ANHANG Links

Leave a Reply



XHTML: You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>