Lucene-tekstanalyseprogram

org.eclipse.help.base.luceneAnalyzer

3.0 (oprindeligt tilføjet i release 2.0 som org.eclipse.help.luceneAnalyzer)

Dette udvidelsespunkt bruges til at registrere tekstanalyseprogrammer, som skal bruges i hjælpen i forbindelse med indeksering af og søgning i dokumenter.

Hjælpen udnytter mulighederne i Lucene-søgeprogrammet, som gør det muligt at indeksere token-strømme (ordstrømme). Analyseprogrammer opretter tokens ud fra tegnstrømme. De undersøger tekstindholdet og leverer tokens, der skal bruges sammen med indekset. Tokens kan oprettes i tekststrømmen på mange forskellige måder. Visse analyseprogrammer opretter tokens i strømme ved blanktegn, andre filtrerer tokens på basis af programmets behov. Da dokumentationen oftest består af tekst, der kan læses af mennesker, er det bedst, at det analyseprogram, som hjælpen benytter sig af, opretter tokens på basis af sprog og grammatik og normaliserer indekseret tekst. I visse sprog stiger kvaliteten af en søgning betydeligt, hvis stopord fjernes, og ord opdeles i ordstammer i den indekserede tekst.

Det analyseprogram, der leveres til dette udvidelsespunkt, tilsidesætter det, der leveres af Eclipse-hjælpen for en given sprogkonvention.

<!ELEMENT extension (analyzer*)>

<!ATTLIST-udvidelse

point CDATA #REQUIRED

id    CDATA #IMPLIED

navn  CDATA #IMPLIED>


<!ELEMENT analyzer EMPTY>

<!ATTLIST analyzer

locale CDATA #REQUIRED

class  CDATA #REQUIRED>


Det følgende er et eksempel på en konfiguration af et Lucene-tekstanalyseprogram:

 

<extension id=

"com.xyx.XYZ"

point=

"org.eclipse.help.base.luceneAnalyzer"

>

<analyzer locale=

"ll_CC"

class=

"com.xyz.ll_CCAnalyzer"

/>

</extension>

Værdien for attributten locale skal være en streng på enten fem eller to tegn. Hvis analyseprogrammet er konfigureret til et sprog vha. en streng på to tegn, vil analyseprogrammet blive anvendt til alle sprogkonventioner inden for det pågældende sprog. Hvis analyseprogrammet er konfigureret til en sprogkonvention på fem tegn, vil den blive anvendt i stedet for.

Værdien for attributten class skal repræsentere en klasse, der udvider org.apache.lucene.analysis.Analyzer. Det anbefales, at analyseprogrammet filtrerer små bogstaver i sprog, hvor det er muligt at øge antallet af søgeforekomster ved at lade søgningen skelne mellem store og små bogstaver.

Eclipse-hjælpen har analyseprogrammer til alle sprog. På engelsk og tysk har analyseprogrammerne filtrering af stopord, filtrering af små bogstaver og opdeling i ordstammer. På alle andre sprog har analyseprogrammet kun filtrering af små bogstaver.