[koha-Infos] RE : Classement par titre v3.0

Fridolyn SOMERS fridolyn.somers at gmail.com
Lun 23 Aou 10:23:55 CEST 2010


Bonjour,

Nous avons également été confronté à ce problème.
Il doit être pris en compte à la fois pour l'indexation des types mot et
phrase et pour l'indexation dédiée au tri ; respectivement les fichiers
"word-phrase-utf.chr" et "sort-string-utf.chr".

Dans le paramétrage de Zébra :
La directive "map" permet de remplacer une chaine de caractère dans
l'élément à indexer avant son indexation. Si la chaine remplacée par @,
c'est quelle est retirée. Cela permet entre autre d'ignorer certains
préfixes, mots de liaison ...
La directive "space" permet de définir tous les caractères qui ne seront pas
pris en compte lors de l'indexation. Ces caractères seront considérés comme
un espace entre deux mots.

Le constat :
 - ces caractères spéciaux ne doivent pas être indexés.
 - il n'est pas possible de les utiliser pour détecter les préfixes ("Le ",
"La " ...) dans les directives "map" (cf PS).

Notre solution a été :
- considérer ces caractères comme des espaces en les ajoutant à la directive
"space" :
   space
{\001-\040}!"#$%&'\()*+,-./:;<=>?@\[\\]^_`\{|}~{\x88-\x89}{\x98}{\x9C}
- les préfixes doivent être définis de manière exhaustive, à l'aide des
directives "map" (ie "map (^\x88Le\s\x89) @"), pour l'indexation dédiée au
tri.

PS :
J'ai beaucoup testé l'indexation Zebra et n'ai pas réussi à utiliser les
expressions régulières dans les directives "map".
Cela aurait permis de retirer de l'indexation tous les préfixes sans avoir à
les lister de manière exhaustive :
 map (\x88.*\x89) @
Noter que cette directive existe dans sort-string-utf.chr mais elle ne
fonctionne pas.
Il semble malheureusement que seul "\s" soit utilisable pour définir
n'importe quel espace et "^" pour signifier le début de la chaine.
Peut-être qu'une prochaine version de Zebra proposera  cette fonctionnalité.

Cdt,

2010/8/9 Paul Poulain <paul.poulain at biblibre.com>

> Le 28/07/2010 11:40, BERNON Jean a écrit :
> > Le problème a été réglé à Lyon 3 depuis mon dernier message en ajoutant
> les articles avec NSB/NSE à sort-string-utf.chr ainsi :
> >
> >         map (^Le\s)        @
> >         map (^\x98Le\s\x9c)        @
> >         map (^La\s)        @
> >         map (^\x98La\s\x9c)        @
> >
> >
> Au début du même fichier, il y a la liste des caractères à considérer
> comme des espaces :
> space {\001-\040}!"#$%&'\()*+,-./:;<=>?@\[\\]^_`\{|}~{\x88-\x89}
>
> (dans notre version git.biblibre.com)
>
> Le \x88 et \x89 correspond au NSB de la BNF. Le Sudoc et la BNF s'étant
> causé, le NSB/NSE du SUDOC ... n'est pas le même...
>
> Est-ce que
> space
> {\001-\040}!"#$%&'\()*+,-./:;<=>?@\[\\]^_`\{|}~{\x88-\x89}{\x98-\x9C} ne
> résoud pas le problème ?
>
> Cordialement
>
> --
> Paul POULAIN
> http://www.biblibre.com
> Expert en Logiciels Libres pour l'info-doc
> Tel : (33) 4 91 81 35 08
>
> _______________________________________________
> Infos mailing list
> Infos at listes.koha-fr.org
> https://listes.koha-fr.org/cgi-bin/mailman/listinfo/infos
>



-- 
Fridolyn SOMERS
Information and Communication Technologies engineer
Lyon - FRANCE
fridolyn.somers at gmail.com
-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: </pipermail/infos/attachments/20100823/1c236b66/attachment.htm>


More information about the Infos mailing list