Ohjejärjestelmä käyttää Lucene-hakukoneen toimintoja, joiden avulla voidaan indeksoida sanaketietovirta (sanoja sisältävät tiedot). Analysointitoiminnot luovat sanakkeita merkkijonomuotoisesta tietovirrasta. Ne analysoivat tekstisisällön ja jakavat sen indeksissä käytettäviksi sanakkeiksi. Tekstitietovirran voi jakaa sanakkeiksi useilla erilaisilla tavoilla. Perusanalysointitoiminto voi jakaa tietovirran sanakkeiksi tyhjämerkkien perusteella ja toiset analysointitoiminnot voivat suodattaa sanakkeita sovelluksen tarpeiden mukaan. Koska ohjeet ovat suurimmaksi osaksi luettavaa tekstiä, ohjejärjestelmän käyttämien analysointitoimintojen tulisi kyetä tekemään sanakejako kieli- ja kielioppisääntöjen mukaan sekä normalisoimaan indeksoitu teksti. Joissakin kielissä hakutarkkuus paranee merkittävästi, jos indeksoidusta tekstistä poistetaan hukkasanat ja sanavartalot analysoidaan.
Tähän laajennuspisteeseen lisätty analysointitoiminto korvaa Eclipse-ohjejärjestelmän oman analysointitoiminnon paikallistunnuskohtaisesti.
<!ELEMENT extension (analyzer*)>
<!ATTLIST extension
point CDATA #REQUIRED
id CDATA #IMPLIED
name CDATA #IMPLIED>
<!ELEMENT analyzer EMPTY>
<!ATTLIST analyzer
locale CDATA #REQUIRED
class CDATA #REQUIRED>
<extension id=
"com.xyx.XYZ"
point=
"org.eclipse.help.base.luceneAnalyzer"
>
<analyzer locale=
"ll_CC"
class=
"com.xyz.ll_CCAnalyzer"
/>
</extension>
Class-määritteen arvon on oltava se luokka, joka toteuttaa org.apache.lucene.analysis.Analyzer-laajennuksen. On suositeltavaa, että tämä analysointitoiminto tukisi isojen ja pienten kirjainten suoritusta, sillä se parantaa hakujen tarkkuutta käytettäessä kirjainkoon vastaavuusehtoa.
Copyright (c) 2000, 2005 IBM Corporation and others.
All rights reserved. This program and the accompanying materials are made available under the terms of the Eclipse Public License v1.0 which accompanies this distribution, and is available at http://www.eclipse.org/legal/epl-v10.html