I Hjälpen beskrivs funktionerna i Lucene-sökmotorn som möjliggör indexering av tokenströmmar (strömmar av ord). Med analyserare skapas tokenar från teckenströmmen. Med dem undersöks textinnehållet och tillhandahålls tokenar för användning med indexet. Textströmmen kan tokeniseras på många unika sätt. Med en trivial analyserare kan strömmar tokeniseras vid blanktecken, med en annan kan filtrering av tokenar utföras, baserat på programmets behov. Eftersom dokumentationen till största delen består av läsbar text är det önskvärt att analyserare som används i hjälpsystemet utför språk- och grammatikmedveten tokenisering och normalisering av indexerad text. För vissa språk ökar sökningen kvalitet avsevärt om stoppordsborttagning och stavelseindelning utförs för den indexerade texten.
Analyseraren för den här utökningspunkten ersätter den som tillhandahålls i Eclipse hjälpsystem för en viss språkmiljö.
<!ELEMENT extension (analyzer*)>
<!ATTLIST extension
point CDATA #REQUIRED
id CDATA #IMPLIED
name CDATA #IMPLIED>
<!ELEMENT analyzer EMPTY>
<!ATTLIST analyzer
locale CDATA #REQUIRED
class CDATA #REQUIRED>
<extension id=
"com.xyx.XYZ"
point=
"org.eclipse.help.base.luceneAnalyzer"
>
<analyzer locale=
"ll_CC"
class=
"com.xyz.ll_CCAnalyzer"
/>
</extension>
Värdet för attributet class måste beteckna en klass som utökar org.apache.lucene.analysis.Analyzer. Det rekommenderas att den här analyseraren används för att utföra gemenfiltrering för språk där det är möjligt att öka antalet sökträffar genom att göra sökningen skiftlägeskänslig.
Copyright (c) 2000, 2005 IBM Corporation and others.
All Rights Reserved. Detta program och medföljande material tillhandahålls under villkoren för Eclipse Public License v1.0 som medföljer denna distribution och finns tillgänglig på
http://www.eclipse.org/legal/epl-v10.html