Lucene-analyseprogramma

org.eclipse.help.base.luceneAnalyzer

3.0 (oorspronkelijk toegevoegd in versie 2.0 als org.eclipse.help.luceneAnalyzer)

Met dit extensiepunt kunt u tekstanalyseprogramma's registreren, die door het Help-systeem kunnen worden gebruikt voor het indexeren en doorzoeken van gegevens.

De Help benut de voorzieningen van het Lucene-zoeksysteem, waarmee reeksen woorden kunnen worden geïndexeerd. Op basis van de tekstreeks worden tokens gemaakt door de analyseprogramma's. De tekst wordt gecontroleerd en tokens worden gemaakt die met de index kunnen worden gebruikt. Tokens kunnen op verschillende manieren worden gemaakt op basis van de tekstreeks. Een gewoon analyseprogramma kan tekenreeksen splitsen op basis van witruimten, terwijl andere programma's tokens kunnen filteren afhankelijk van de vereisten van de toepassing. Documentatie omvat voornamelijk normale tekst en daarom is het wenselijk dat de tokenisatie en normalisatie van geïndexeerde tekst aan een spelling- en grammaticacontrole wordt onderworpen door de analyseprogramma's van het Help-systeem. Voor bepaalde talen wordt de kwaliteit van zoekopdrachten aanzienlijk verbeterd als stopwoorden worden verwijderd uit de geïndexeerde tekst.

Het analyseprogramma dat door dit extensiepunt wordt geleverd, overschrijft het programma dat door het Help-systeem van Eclipse wordt verstrekt voor een bepaalde locale.

<!ELEMENT extension (analyzer*)>

<!ATTLIST extension

point CDATA #REQUIRED

id    CDATA #IMPLIED

name  CDATA #IMPLIED>


<!ELEMENT analyzer EMPTY>

<!ATTLIST analyzer

locale CDATA #REQUIRED

class  CDATA #REQUIRED>


Dit is een voorbeeld van de extensie luceneAnalyzer:

 

<extension id=

"com.xyx.XYZ"

point=

"org.eclipse.help.base.luceneAnalyzer"

>

<analyzer locale=

"ll_CC"

class=

"com.xyz.ll_CCAnalyzer"

/>

</extension>

De waarde van het kenmerk locale moet een tekenreeks van twee of vijf tekens zijn. Als een waarde van twee letters is opgegeven, geldt deze als taal en wordt het analyseprogramma gebruikt voor alle locales die bij deze taal horen. Anders wordt het analyseprogramma gebruikt dat overeenkomt met een locale van vijf letters, mits van toepassing.

De waarde van het kenmerk class is de klasse waarmee org.apache.lucene.analysis.Analyzer wordt uitgebreid. Het wordt aanbevolen talen in de onderkast te filteren. Het aantal treffers kan worden vergroot door de zoekopdracht hoofdlettergevoelig te maken.

Bij het Help-systeem van Eclipse worden analyseprogramma's geleverd voor alle talen. In Engelse en Duitse tekst worden stopwoorden gefilterd, wordt in de onderkast gefilterd en wordt de tekst opgeschoond. Teksten in alle andere talen worden alleen in de onderkast gefilterd door het analyseprogramma.