Analysatoren Lucene

org.eclipse.help.base.luceneAnalyzer

3.0 (opprinnelig lagt til i utgave 2.0 som org.eclipse.help.luceneAnalyzer)

Dette utvidelsespunktet brukes til å registrere tekstanalysatorer til bruk av hjelpen ved indeksering av og søking i dokumentasjon.

Hjelpen utnytter funksjonaliteten i søkemotoren i Lucene. Den tillater indeksering av symbolstrømmer (ordstrømmer). Analysatorene oppretter symboler fra tegnstrømmen. De undersøker tekstinnholdet og skaffer symboler til bruk med indeksen. Tekststrømmene kan symboliseres på mange unike måter. En enkel analysator kan symbolisere strømmer av blanktegn, en annen kan utføre filtrering av symboler, basert på applikasjonens behov. Siden dokumentasjonen for det meste består av lesbar tekst, er det ønskelig at analysatorer som brukes av hjelpefunksjonen, utfører språk- og grammatikkfølsom symbolisering og normalisering av indeksert tekst. For noen språk øker kvaliteten av søk betydelig hvis det utføres fjerning av stoppord og bruk av ordstammer i den indekserte teksten.

Analysatoren for dette utvidelsespunktet vil overstyre den som er oppgitt av hjelpefunksjonen for Eclipse for et gitt språkmiljø.

<!ELEMENT extension (analyzer*)>

<!ATTLIST extension

point CDATA #REQUIRED

id    CDATA #IMPLIED

name  CDATA #IMPLIED>


<!ELEMENT analyzer EMPTY>

<!ATTLIST analyzer

locale CDATA #REQUIRED

class  CDATA #REQUIRED>


Nedenfor finner du et eksempel på konfigurasjonen av analysatoren Lucene:

 

<extension id=

"com.xyx.XYZ"

point=

"org.eclipse.help.base.luceneAnalyzer"

>

<analyzer locale=

"ll_CC"

class=

"com.xyz.ll_CCAnalyzer"

/>

</extension>

Verdien av locale-attributtet må representere en språkmiljøstreng på fem eller to tegn. Hvis analysatoren konfigureres for et språk ved å oppgi en språkbetegnelse på to tegn, blir analysatoren brukt til alle språkmiljøene i dette språket. Hvis analysatoren er konfigurert slik at den samsvarer med et språkmiljø på fem tegn, blir den brukt i stedet.

Verdien av class-attributtet må representere en klasse som utvider org.apache.lucene.analysis.Analyzer. Det anbefales at denne analysatoren utfører filtrering av små bokstaver for språk der det er mulig å øke antall søketreff ved å skille mellom små og store bokstaver.

Hjelpefunksjonen i Eclipse har analysatorer for alle språk. For engelsk og tysk utfører analysatorene filtrering av stoppord, filtrering av små bokstaver og bruk av ordstammer. For alle andre språk utfører den oppgitte analysatoren bare filtrering av små bokstaver.