From fridolyn.somers at gmail.com Mon Aug 23 10:23:55 2010 From: fridolyn.somers at gmail.com (Fridolyn SOMERS) Date: Mon, 23 Aug 2010 10:23:55 +0200 Subject: [koha-Infos] RE : Classement par titre v3.0 In-Reply-To: <4C5FBEA2.2000307@biblibre.com> References: <4C495270.6000300@parisdescartes.fr> <4C4955B6.2000403@cerma.archi.fr> <4C5FBEA2.2000307@biblibre.com> Message-ID: Bonjour, Nous avons également été confronté à ce problème. Il doit être pris en compte à la fois pour l'indexation des types mot et phrase et pour l'indexation dédiée au tri ; respectivement les fichiers "word-phrase-utf.chr" et "sort-string-utf.chr". Dans le paramétrage de Zébra : La directive "map" permet de remplacer une chaine de caractère dans l'élément à indexer avant son indexation. Si la chaine remplacée par @, c'est quelle est retirée. Cela permet entre autre d'ignorer certains préfixes, mots de liaison ... La directive "space" permet de définir tous les caractères qui ne seront pas pris en compte lors de l'indexation. Ces caractères seront considérés comme un espace entre deux mots. Le constat : - ces caractères spéciaux ne doivent pas être indexés. - il n'est pas possible de les utiliser pour détecter les préfixes ("Le ", "La " ...) dans les directives "map" (cf PS). Notre solution a été : - considérer ces caractères comme des espaces en les ajoutant à la directive "space" : space {\001-\040}!"#$%&'\()*+,-./:;<=>?@\[\\]^_`\{|}~{\x88-\x89}{\x98}{\x9C} - les préfixes doivent être définis de manière exhaustive, à l'aide des directives "map" (ie "map (^\x88Le\s\x89) @"), pour l'indexation dédiée au tri. PS : J'ai beaucoup testé l'indexation Zebra et n'ai pas réussi à utiliser les expressions régulières dans les directives "map". Cela aurait permis de retirer de l'indexation tous les préfixes sans avoir à les lister de manière exhaustive : map (\x88.*\x89) @ Noter que cette directive existe dans sort-string-utf.chr mais elle ne fonctionne pas. Il semble malheureusement que seul "\s" soit utilisable pour définir n'importe quel espace et "^" pour signifier le début de la chaine. Peut-être qu'une prochaine version de Zebra proposera cette fonctionnalité. Cdt, 2010/8/9 Paul Poulain > Le 28/07/2010 11:40, BERNON Jean a écrit : > > Le problème a été réglé à Lyon 3 depuis mon dernier message en ajoutant > les articles avec NSB/NSE à sort-string-utf.chr ainsi : > > > > map (^Le\s) @ > > map (^\x98Le\s\x9c) @ > > map (^La\s) @ > > map (^\x98La\s\x9c) @ > > > > > Au début du même fichier, il y a la liste des caractères à considérer > comme des espaces : > space {\001-\040}!"#$%&'\()*+,-./:;<=>?@\[\\]^_`\{|}~{\x88-\x89} > > (dans notre version git.biblibre.com) > > Le \x88 et \x89 correspond au NSB de la BNF. Le Sudoc et la BNF s'étant > causé, le NSB/NSE du SUDOC ... n'est pas le même... > > Est-ce que > space > {\001-\040}!"#$%&'\()*+,-./:;<=>?@\[\\]^_`\{|}~{\x88-\x89}{\x98-\x9C} ne > résoud pas le problème ? > > Cordialement > > -- > Paul POULAIN > http://www.biblibre.com > Expert en Logiciels Libres pour l'info-doc > Tel : (33) 4 91 81 35 08 > > _______________________________________________ > Infos mailing list > Infos at listes.koha-fr.org > https://listes.koha-fr.org/cgi-bin/mailman/listinfo/infos > -- Fridolyn SOMERS Information and Communication Technologies engineer Lyon - FRANCE fridolyn.somers at gmail.com -------------- section suivante -------------- Une pièce jointe HTML a été nettoyée... URL: From fridolyn.somers at gmail.com Mon Aug 23 16:27:07 2010 From: fridolyn.somers at gmail.com (Fridolyn SOMERS) Date: Mon, 23 Aug 2010 16:27:07 +0200 Subject: [koha-Infos] apache cache module Message-ID: Bonjour, Voici un tutoriel intéressant sur le module cache d'Apache. Il permet de mettre en cache les pages web pour une meilleur performance : http://www.howtoforge.com/caching-with-apaches-mod_cache-on-ubuntu-10.04 -- Fridolyn SOMERS Information and Communication Technologies engineer Lyon - FRANCE fridolyn.somers at gmail.com -------------- section suivante -------------- Une pièce jointe HTML a été nettoyée... URL: From jean.bernon at univ-lyon3.fr Mon Aug 23 21:48:08 2010 From: jean.bernon at univ-lyon3.fr (BERNON Jean) Date: Mon, 23 Aug 2010 21:48:08 +0200 Subject: [koha-Infos] RE : RE : Classement par titre v3.0 In-Reply-To: <4C5FBEA2.2000307@biblibre.com> References: <4C495270.6000300@parisdescartes.fr> <4C4955B6.2000403@cerma.archi.fr> , <001f01cb2db0$65179750$2f46c5f0$@ganier@progilone.fr> , <4C5FBEA2.2000307@biblibre.com> Message-ID: Bonjour, Mettre les NSB/NSE dans la ligne des caractères à transformer en espace est probablement la meilleure solution. Toutefois nous n'avons pas réussi à la faire fonctionner à Lyon3, mais c'était sans doute un problème de syntaxe et si quelqu'un peut le tester à nouveau c'est intéressant. En dehors des NSB/NSE le problème principal soulevé par Pascale Nalon et Martine Chazelas était l'arrêt du tri à la 40ème ou à la 50ème page. La solution se trouve sans doute dans le chapitre du manuel Zebra sur le fichier de configuration : "sortmax: integer Specifies the maximum number of records that will be sorted in a result set. If the result set contains more than integer records, records after the limit will not be sorted. If omitted, the default value is 1,000." Le fichier de configuration de la base biblio sur Koha "zebra-biblios.cfg" ne contient aucune directive sortmax et applique donc le tri par défaut jusqu'à 1000. Après avoir inséré une ligne "sortmax: 99999" dans ce fichier et reconstruit les index, le problème devrait disparaître. Cette solution n'a pas été testée à Lyon 3 parce qu'elle peut être lourde pour le système et qu'un tri en ligne des listes de 1000 titres c'est déjà bien, même si on peut juger dans l'absolu que c'est insuffisant. Si quelqu'un veut le tester et en rendre compte sur la liste, ça intéresse visiblement tout le monde. Enfin dans les échanges sur le tri des titres, il y a eu une remarque de Brigitte Lequeux sur les apostrophes. Un problème analogue a été constaté à Lyon 3, mais c'était un problème de recherche plutôt que de tri : la recherche "ile" par exemple ne renvoie pas les titres contenant "l'île' et seule la recherche "lile" les renvoie. Ce problème a été réglé par une règle de transformation du fichier icu.xml qui transforme l'apostrophe en espace (attention certains sites n'utilisent pas icu.xml mais word-phrase-utf.chr pour configurer l'indexation). Cordialement Jean Bernon ________________________________________ De : infos-bounces at listes.koha-fr.org [infos-bounces at listes.koha-fr.org] de la part de Paul Poulain [paul.poulain at biblibre.com] Date d'envoi : lundi 9 août 2010 10:38 À : infos at listes.koha-fr.org Objet : Re: [koha-Infos] RE : Classement par titre v3.0 Le 28/07/2010 11:40, BERNON Jean a écrit : > Le problème a été réglé à Lyon 3 depuis mon dernier message en ajoutant les articles avec NSB/NSE à sort-string-utf.chr ainsi : > > map (^Le\s) @ > map (^\x98Le\s\x9c) @ > map (^La\s) @ > map (^\x98La\s\x9c) @ > > Au début du même fichier, il y a la liste des caractères à considérer comme des espaces : space {\001-\040}!"#$%&'\()*+,-./:;<=>?@\[\\]^_`\{|}~{\x88-\x89} (dans notre version git.biblibre.com) Le \x88 et \x89 correspond au NSB de la BNF. Le Sudoc et la BNF s'étant causé, le NSB/NSE du SUDOC ... n'est pas le même... Est-ce que space {\001-\040}!"#$%&'\()*+,-./:;<=>?@\[\\]^_`\{|}~{\x88-\x89}{\x98-\x9C} ne résoud pas le problème ? Cordialement -- Paul POULAIN http://www.biblibre.com Expert en Logiciels Libres pour l'info-doc Tel : (33) 4 91 81 35 08 _______________________________________________ Infos mailing list Infos at listes.koha-fr.org https://listes.koha-fr.org/cgi-bin/mailman/listinfo/infos