Hjælpen udnytter mulighederne i Lucene-søgeprogrammet, som gør det muligt at indeksere token-strømme (ordstrømme). Analyseprogrammer opretter tokens ud fra tegnstrømme. De undersøger tekstindholdet og leverer tokens, der skal bruges sammen med indekset. Tokens kan oprettes i tekststrømmen på mange forskellige måder. Visse analyseprogrammer opretter tokens i strømme ved blanktegn, andre filtrerer tokens på basis af programmets behov. Da dokumentationen oftest består af tekst, der kan læses af mennesker, er det bedst, at det analyseprogram, som hjælpen benytter sig af, opretter tokens på basis af sprog og grammatik og normaliserer indekseret tekst. I visse sprog stiger kvaliteten af en søgning betydeligt, hvis stopord fjernes, og ord opdeles i ordstammer i den indekserede tekst.
Det analyseprogram, der leveres til dette udvidelsespunkt, tilsidesætter det, der leveres af Eclipse-hjælpen for en given sprogkonvention.
<!ELEMENT extension (analyzer*)>
<!ATTLIST-udvidelse
point CDATA #REQUIRED
id CDATA #IMPLIED
navn CDATA #IMPLIED>
<!ELEMENT analyzer EMPTY>
<!ATTLIST analyzer
locale CDATA #REQUIRED
class CDATA #REQUIRED>
<extension id=
"com.xyx.XYZ"
point=
"org.eclipse.help.base.luceneAnalyzer"
>
<analyzer locale=
"ll_CC"
class=
"com.xyz.ll_CCAnalyzer"
/>
</extension>
Værdien for attributten class skal repræsentere en klasse, der udvider org.apache.lucene.analysis.Analyzer. Det anbefales, at analyseprogrammet filtrerer små bogstaver i sprog, hvor det er muligt at øge antallet af søgeforekomster ved at lade søgningen skelne mellem store og små bogstaver.
Copyright (c) 2000, 2005 IBM Corporation and others.
All rights reserved. This program and the accompanying materials are made
available under the terms of the Eclipse Public License v1.0 which accompanies
this distribution, and is available at http://www.eclipse.org/legal/epl-v10.html