Wiktionarydiskussion:Projekt/Svåra ord

Definition från Wiktionary, den fria ordlistan.
Hoppa till navigering Hoppa till sök

Har något regexp skapats för att läsa in dessa sidor sedan? Får man fråga hur det isåfall ser ut? ~ Dodde (diskussion) 16 juli 2013 kl. 22.14 (CEST)[svara]

Måste det göras med regexp? Det går annars till exempel bra att splitta vid || för att få datan i en array som man sedan kan göra om till vilket format man vill. Exempel i Python:

import re, codecs
f = codecs.open('a.dat', 'r', 'utf-8')
for line in f:
arr = line[1:].split('||')
if len(arr) > 1:
arr = [ x.strip() for x in arr ]
lang = arr[0]
headword = arr[1][2:-2]
template = re.sub("<.*?>", "", arr[3])
print template, headword, template

Fiskjuice (diskussion) 16 juli 2013 kl. 22.57 (CEST)[svara]

Nej, det var bara ett antagande. Anledningen till att jag frågade var för om det fanns anledning att vara uppmärksam på särskilda formateringsfel, t ex hur koden parsar ett extra mellanslag, vad koden gör med ett felaktig språkkod, ett glömt <code><nowiki></nowiki>, eventuella citationstecken och annat. Jag har tyvärr ingen erfarenhet av Python men hade även kunnat se och åtgärda eventuella brister angivet i regexp om det var vad som användes. Tecknet ¶ måste exempelvis bytas ut mot <ny rad>. Någonstans behöver det avgöras om vissa rader (synonymer, besläktade ord osv) ö.h.t. ska finnas med, översättningsavsnitt ska väl alltid finnas med osv. Om du har färdig kod för inkluderandet av informationen på sidorna så får jag helt enkelt hålla tummarna för att det går bra, eftersom jag inte kan avläsa riktigt från koden ovan hur det är tänkt att genomföras. :) ~ Dodde (diskussion) 16 juli 2013 kl. 23.35 (CEST)[svara]