Lucene-analysointitoiminto

org.eclipse.help.base.luceneAnalyzer

3.0 (lisättiin alun perin versioon 2.0 tunnisteella org.eclipse.help.luceneAnalyzer)

Tämän laajennuspisteen avulla voidaan rekisteröidä tekstin analysointitoimintoja ohjejärjestelmän asiakirjojen indeksointia ja hakua varten.

Ohjejärjestelmä käyttää Lucene-hakukoneen toimintoja, joiden avulla voidaan indeksoida sanaketietovirta (sanoja sisältävät tiedot). Analysointitoiminnot luovat sanakkeita merkkijonomuotoisesta tietovirrasta. Ne analysoivat tekstisisällön ja jakavat sen indeksissä käytettäviksi sanakkeiksi. Tekstitietovirran voi jakaa sanakkeiksi useilla erilaisilla tavoilla. Perusanalysointitoiminto voi jakaa tietovirran sanakkeiksi tyhjämerkkien perusteella ja toiset analysointitoiminnot voivat suodattaa sanakkeita sovelluksen tarpeiden mukaan. Koska ohjeet ovat suurimmaksi osaksi luettavaa tekstiä, ohjejärjestelmän käyttämien analysointitoimintojen tulisi kyetä tekemään sanakejako kieli- ja kielioppisääntöjen mukaan sekä normalisoimaan indeksoitu teksti. Joissakin kielissä hakutarkkuus paranee merkittävästi, jos indeksoidusta tekstistä poistetaan hukkasanat ja sanavartalot analysoidaan.

Tähän laajennuspisteeseen lisätty analysointitoiminto korvaa Eclipse-ohjejärjestelmän oman analysointitoiminnon paikallistunnuskohtaisesti.

<!ELEMENT extension (analyzer*)>

<!ATTLIST extension

point CDATA #REQUIRED

id    CDATA #IMPLIED

name  CDATA #IMPLIED>


<!ELEMENT analyzer EMPTY>

<!ATTLIST analyzer

locale CDATA #REQUIRED

class  CDATA #REQUIRED>


Seuraavassa on Lucene-analysointitoiminnon merkintäesimerkki:

 

<extension id=

"com.xyx.XYZ"

point=

"org.eclipse.help.base.luceneAnalyzer"

>

<analyzer locale=

"ll_CC"

class=

"com.xyz.ll_CCAnalyzer"

/>

</extension>

Locale-määritteen arvon on oltava joko kahden tai viiden merkin pituinen paikallistunnusmerkkijono. Jos analysointitoiminnon paikallistunnusmääritys on kahden merkin pituinen (kielimääritys), analysointitoimintoa käytetään kaikissa kyseistä kieltä tukevissa paikallistunnuksissa. Jos paikallistunnusmääritys on viiden merkin pituinen, analysointitoimintoa käytetään määritetyssä paikallistunnuksessa.

Class-määritteen arvon on oltava se luokka, joka toteuttaa org.apache.lucene.analysis.Analyzer-laajennuksen. On suositeltavaa, että tämä analysointitoiminto tukisi isojen ja pienten kirjainten suoritusta, sillä se parantaa hakujen tarkkuutta käytettäessä kirjainkoon vastaavuusehtoa.

Eclipse-ohjejärjestelmässä on analysointitoiminnot kaikkia kieliä varten. Englannin ja saksan analysointitoiminnot suodattavat hukkasanat ja pienet kirjaimet sekä analysoivat sanavartalot. Muiden kielten analysointitoiminnot tukevat vain pienten kirjainten suodatusta.