Tento článek je pouze krátkým rozšířením předchozího článku o parsování XML dumpu Wikipedie. Ukáži kousek kódu, který umožní iterativní načítání XML za použití modulu ElementTree, který je nyní již standardní součástí Pythonu.
Archiv štítku: programování
Python: Parsování textu z Wikipedie
Dnešní zápisek se bude zajisté hodit každému, kdo pracuje v oblasti machine learningu a potřebuje zpracovat velké množství textu, které se nachází v současné Wikipedii. Ukáži pár kousků kódu, které vám usnadní začátek při získávání čistého textu z MediaWiki stránek. Pokračování textu Python: Parsování textu z Wikipedie
Kde se asi stala chyba
Kde se asi stala chyba — typická otázka při hledání chyb v programovém kódu. Přestože dnešní programátor je vybaven celou paletou nástrojů od editoru po debugger, stále jsou zde případy chyb, které se nedaří tak jednoduše rozlousknout. Tyto chyby jsou až magické a zdá se, že čím více se na ně člověk zaměřuje, tím snáze unikají. V článcích Kde se asi stala chyba se pokusím ukázat pár takových chyb, které jsem hledal (a našel). Protože mým hlavním programovacím jazykem je Python, budou se ony chyby dotýkat právě Pythonu. Přestože na první pohled se chyby mohou zdát být jasné a zřejmé, jejich nalezení v komplikovaném kódu může být velice zdlouhavé.