[Koha-bugs] [Bug 14759] Replacement for Text::Unaccent

bugzilla-daemon at bugs.koha-community.org bugzilla-daemon at bugs.koha-community.org
Thu Dec 10 19:29:08 CET 2015


http://bugs.koha-community.org/bugzilla3/show_bug.cgi?id=14759

Yuval Hager <yhager at yhager.com> changed:

           What    |Removed                     |Added
----------------------------------------------------------------------------
                 CC|                            |yhager at yhager.com

--- Comment #16 from Yuval Hager <yhager at yhager.com> ---
I ran the script from comment #5 on some more Hebrew text, I hope I did not
forget any diacritic marks. 
I don't know what Text::Unaccent is doing. Text::Unaccent::PurePerl on the
other hand seems to be doing too little, if at all. 

All the outputs from 'Strip NonspacingMark' seems correct - it's perfectly
readable and have all the diacritics removed.

I modified the script a bit, so it's easy to compare the three options:

Text::Unaccent           - קָמָץ => קָ×ָץ
Text::Unaccent           - פַתח => פַת×
Text::Unaccent           - עִבְרִית => ×¢Ö´×ְרִ×ת
Text::Unaccent           - חוֹלָם => ××Ö¹×Ö¸×
Text::Unaccent           - זָנָב, תָּכְנִית => ×ָנָ×, תָּ×Ö°× Ö´×ת
Text::Unaccent           - צָהֳרַיִם => צָ×ֳרַ×Ö´×
Text::Unaccent           - קַל => קַ×
Text::Unaccent           - חֲלוֹם => ×Ö²××Ö¹×
Text::Unaccent           - מֶלֶךְ => ×Ö¶×Ö¶×Ö°
Text::Unaccent           - נֶאֱמָן => × Ö¶×Ö±×Ö¸×
Text::Unaccent           - לֵב => ×Öµ×
Text::Unaccent           - יִכְתְּבוּ => ×Ö´×ְתְּ××Ö¼
Text::Unaccent           - שִׁיר => שִ××ר
Text::Unaccent           - דֻּבִּים => ×Ö»Ö¼×Ö´Ö¼××
Text::Unaccent           - חֹלִי => ×Ö¹×Ö´×
Text::Unaccent           - סוּס => ס×ּס
Text::Unaccent           - נוֹף => × ×Ö¹×£
Text::Unaccent           - גַמּד => ×Ö·×Ö¼×
Text::Unaccent           - מְסַבֵּךְ => ×ְסַ×ÖµÖ¼×Ö°
Text::Unaccent           - שולחנהּ => ש×××× ×Ö¼
Text::Unaccent           - שֵׁם => שֵ××
Text::Unaccent           - עֶשֶׂר => עֶשֶ×ר
Text::Unaccent           - אֵלֶּה, אָנָּא, הֵמָּה, לָמָּה, שָׁמָּה, בָּתִּים, שָׁבַרְתִּי, תַּלְתַּל, לְבַד, חַג,
לַיְלָה => ×Öµ×Ö¶Ö¼×, ×ָנָּ×, ×Öµ×Ö¸Ö¼×, ×Ö¸×Ö¸Ö¼×, שָ××Ö¸Ö¼×,
×ָּתִּ××, שָ××ַרְתִּ×, תַּ×ְתַּ×, ×Ö°×Ö·×, ×Ö·×, ×Ö·×Ö°×Ö¸×
Text::Unaccent::PurePerl - קָמָץ => קָמָץ
Text::Unaccent::PurePerl - פַתח => פַתח
Text::Unaccent::PurePerl - עִבְרִית => עִבְרִית
Text::Unaccent::PurePerl - חוֹלָם => חוֹלָם
Text::Unaccent::PurePerl - זָנָב, תָּכְנִית => זָנָב, תָּכְנִית
Text::Unaccent::PurePerl - צָהֳרַיִם => צָהֳרַיִם
Text::Unaccent::PurePerl - קַל => קַל
Text::Unaccent::PurePerl - חֲלוֹם => חֲלוֹם
Text::Unaccent::PurePerl - מֶלֶךְ => מֶלֶךְ
Text::Unaccent::PurePerl - נֶאֱמָן => נֶאֱמָן
Text::Unaccent::PurePerl - לֵב => לֵב
Text::Unaccent::PurePerl - יִכְתְּבוּ => יִכְתְּבוּ
Text::Unaccent::PurePerl - שִׁיר => שִׁיר
Text::Unaccent::PurePerl - דֻּבִּים => דֻּבִּים
Text::Unaccent::PurePerl - חֹלִי => חֹלִי
Text::Unaccent::PurePerl - סוּס => סוּס
Text::Unaccent::PurePerl - נוֹף => נוֹף
Text::Unaccent::PurePerl - גַמּד => גַמּד
Text::Unaccent::PurePerl - מְסַבֵּךְ => מְסַבֵּךְ
Text::Unaccent::PurePerl - שולחנהּ => שולחנהּ
Text::Unaccent::PurePerl - שֵׁם => שֵׁם
Text::Unaccent::PurePerl - עֶשֶׂר => עֶשֶׂר
Text::Unaccent::PurePerl - אֵלֶּה, אָנָּא, הֵמָּה, לָמָּה, שָׁמָּה, בָּתִּים, שָׁבַרְתִּי, תַּלְתַּל, לְבַד, חַג,
לַיְלָה => אֵלֶּה, אָנָּא, הֵמָּה, לָמָּה, שָׁמָּה, בָּתִּים, שָׁבַרְתִּי, תַּלְתַּל, לְבַד, חַג, לַיְלָה
Strip NonspacingMark     - קָמָץ => קמץ
Strip NonspacingMark     - פַתח => פתח
Strip NonspacingMark     - עִבְרִית => עברית
Strip NonspacingMark     - חוֹלָם => חולם
Strip NonspacingMark     - זָנָב, תָּכְנִית => זנב, תכנית
Strip NonspacingMark     - צָהֳרַיִם => צהרים
Strip NonspacingMark     - קַל => קל
Strip NonspacingMark     - חֲלוֹם => חלום
Strip NonspacingMark     - מֶלֶךְ => מלך
Strip NonspacingMark     - נֶאֱמָן => נאמן
Strip NonspacingMark     - לֵב => לב
Strip NonspacingMark     - יִכְתְּבוּ => יכתבו
Strip NonspacingMark     - שִׁיר => שיר
Strip NonspacingMark     - דֻּבִּים => דבים
Strip NonspacingMark     - חֹלִי => חלי
Strip NonspacingMark     - סוּס => סוס
Strip NonspacingMark     - נוֹף => נוף
Strip NonspacingMark     - גַמּד => גמד
Strip NonspacingMark     - מְסַבֵּךְ => מסבך
Strip NonspacingMark     - שולחנהּ => שולחנה
Strip NonspacingMark     - שֵׁם => שם
Strip NonspacingMark     - עֶשֶׂר => עשר
Strip NonspacingMark     - אֵלֶּה, אָנָּא, הֵמָּה, לָמָּה, שָׁמָּה, בָּתִּים, שָׁבַרְתִּי, תַּלְתַּל, לְבַד, חַג,
לַיְלָה => אלה, אנא, המה, למה, שמה, בתים, שברתי, תלתל, לבד, חג, לילה

-- 
You are receiving this mail because:
You are watching all bug changes.


More information about the Koha-bugs mailing list