neděle 28. září 2008

WordOff.org: vyčištění HTML kódu z MS Word

Zpracovávám prakticky denně došlé nebo stažené soubory ve formátu MS Word pro publikaci na webu, obvykle používám Dokumenty Google, ale někdy musím použít MS Word 2007. A i když si nastavíte v MS Wordu volbu pro výstupní soubor Web Page, Filtered, zůstane v HTML kódu spousta balastu, kterou dokáže odstranit právě online služba WordOff. WordOff je napsaný v jazyce Python a běží s využitím Django v Google App Engine. WordOff vytvořil Tom Dyson jako ukázkový projekt pro Oxford Geek Nights.

Rozhraní je velmi jednoduché:


Výsledek je evidentní:


WordOff tedy odstraňuje:

WordOff nabízí i jednoduché API s využitím POST na s method /api/clean:

curl -d html=<Čištěné HTML> http://wordoff.org/api/clean

3 komentáře:

George řekl(a)...

Jenom mě tak napadá, že když už bych si dal tu práci čistit zdroj, jestli by to nebylo lepší udělat přímo v Dokumenty Google, kde bych ten zdroj kontroloval už od počátku.

Janek řekl(a)...

V redakční praxi musím zpracovávat většinu textů ve formátu DOC a přesvědčit například ministerstvo školství, které mě zásobuje nejvíc, skutečně nelze ;-)

Denesf86 řekl(a)...

To byl vypnut. Použijte tento formát: http://wordhtml.com