Moduldiskussion:sort

Definition från Wiktionary, den fria ordlistan.
Hoppa till: navigering, sök

Tycker du inte att vi borde välja en bättre algoritm för svenska? Den nuvarande fungerar ju inte. d|8589869056|b 12 maj 2017 kl. 16.17 (CEST)

När det gäller att exkludera speciella tecken föredrog jag varianten mw.ustring.gsub(sortKey, "%W", ""). Finns det någon anledning att begränsa sig till ju de tecken som du listar i excludedChars? d|8589869056|b 12 maj 2017 kl. 16.21 (CEST)
Hur menar du fungerar inte? den fungerar i 99.99% av fallen men buggen med zäta eller vad det var är ju bra att fixa till. Ser dock inte att det är något som måste fixas nu nu.
Anledningen till uppsättningen tecken i excludedChars är att jag följd instruktionerna där dessa tecken explicit anges (se länk i kommentar i koden). Gissar att %W betyder whitespace och nej jag tycker att fler tecken än så bör tas bort. "d.v.s." bör t ex sorteras som "dvs." ~ Dodde (diskussion) 12 maj 2017 kl. 22.14 (CEST)
Det jag skrev ovan tar bort alla icke-alfanumeriska tecken. d|8589869056|b 12 maj 2017 kl. 22.21 (CEST)
Följer den här modulen hela proceduren som finns beskriven i manualen du länkade till för ett tag sedan? d|8589869056|b 12 maj 2017 kl. 22.24 (CEST)
I all väsentlighet, japp. Kan behöva en granskning till. Men som sagt. Buggen som uppstår på rad 89 kvarstår. ~ Dodde (diskussion) 12 maj 2017 kl. 22.28 (CEST)
Skriv mw.ustring.gsub(sortKey, "%%", "") om du vill ta bort procenttecken, men jag tycker att det är en dålig idé att välja ut vissa tecken från början. d|8589869056|b 12 maj 2017 kl. 22.49 (CEST)
Samma sak gäller för dollartecken m.fl. Jag är inne på IRC nu. d|8589869056|b 12 maj 2017 kl. 22.54 (CEST)
Den där listan saknar dock logik. Varför ta bort procent men inte promille, dollar men inte euro etc.? Finns det någon anledning att inte ta bort alla icke-alfanumeriska tecken? d|8589869056|b 12 maj 2017 kl. 23.00 (CEST)
Jag har följt instruktionerna på Wiktionary:Användare/Robotar/Algoritmer_för_kategorisortering, och använt mig av de sidor som hänvisas därifrån rörande vilka diakriter som ska tas bort, vilka speciella tecken som ska tas bort och vilka sorteringsinställningar som ska gälla för respektive språk. Innehåller instruktionerna något fel bör instruktionssidan ändras och innehåller de sidor som länkas till från instruktionerna något fel bör dessa sidor ändras. Det är också bra att föra diskussionerna om respektive ändringar till diskussionssidan för den sida det berör så är det lättare att sedan återkomma till diskussioner som redan förts. För att svara kort på frågan så tror jag att listan med speciella tecken uppkommit från att man har granskat vilka uppslag som faktiskt existerar och vilka icke-alfanumeriska tecken som ingår i sidnamn i uppslagsnamnrymden. Det kan hända att något tecken har tillkommit efter att denna lista skapades för några år sedan. Att ta bort _samtliga_ tiotusentals icke-alfanumeriska tecken känns dock lite som overkill. ~ Dodde (diskussion) 12 maj 2017 kl. 23.45 (CEST)
Skulle säga tvärtom: det är overkill att ta hänsyn till tiotusentals tecken. d|8589869056|b 12 maj 2017 kl. 23.50 (CEST)