Cerco l'uovo di pasqua... MS Office ad un HTML decente

8 contenuti / 0 new
Ultimo contenuto
Cerco l'uovo di pasqua... MS Office ad un HTML decente

Scusa ma non so proprio come dare un titolo a questo problema - e non è proprio specifico di Drupal, almeno non direttamente.

Il problema è il cliente. Ho mostrato come editare il testo, inseririe immagini, usare CSS per posizionarli, tutto con Skype, guardando loro desktop. Tutto bene.

Poi provano loro. E la prima cosa che tentano di caricare è: un documento Microsoft Word... Perchè gli immagini sono tutti dentro il documento. O un Powerpoint. Le tabelle ovviamente sono dentro file Excel. E povero Drupal (secondo loro) dovrebbe 'sapere' estrare il tutto, nel posto giusto, al momento giusto. Non ho capito perchè sono convinto di questo - ma non sono un filosofo...

(Mi domanda se usano MS Word per portare le foto da stampare della vacanza, sigh).

Quindi... Cosa posso usare per estrare questi benedetti immagini, e convertire le foglie Excel in un tabella HTML degno della parola. Si tratta di decine di documenti. Vi prego non dirmi di usare l'export di MS Office per HTML, non sono in grado di sopportare il dolore... Poi io uso (dall'inizio secolo) solo OpenOffice.org - ma questo è un'altro discorso... (e neache lui fa un buon lavoro con HTML export)

Sto pensando (nella disperazione) di usare Google Docs, perchè i risultati HTML in Gmail di un attach MS Word mi sembra buono...

Siate buoni con me, siamo vicino a pasqua - e sono accorto di idee...

John

Il modulo giusto per fare questo in Drupal sarebbe http://drupal.org/project/docapi ma non penso che sia al livello che ti serve e sembra un po' abbandonato.

Io passerei attraverso OpenOffice.org, che fa un buon lavoro di conversione almeno sulle versioni di Office precedenti al 2007. Per la conversione utilizzerei File - Procedure Guidate - Convertitore di Documenti.

Poi, da Openoffice.org, hai varie possibilita':
- Esportare in HTML direttamente; anche se dici che il risultato non ti piace molto, potrebbe bastarti.
- Esportare in formato Mediawiki (che garantisce un output abbastanza pulito, per quanto riguarda la struttura del testo) e poi importare in Drupal con http://drupal.org/project/flexifilter anche se temo che le immagini si possano perdere.

In alternativa puoi provare la conversione da formato ODF a XHTML con http://holloway.co.nz/docvert o altri tool dedicati.

Ricorda che, nella peggiore delle ipotesi, se devi estrarre tutte le immagini da un file ODF basta rinominarlo in ZIP (cioe': file.odt -> file.zip oppure file.odp -> file.zip, eccetera) e poi estrarre lo ZIP. Trovi tutte le immagini in un'unica cartella e questo puo' aiutare molto se ti riduci a dover fare il lavoro manualmente.

Aggiungo qualche link.
suggerimenti generici:
http://www.timeatlas.com/5_Minute_Tips/Chunkers/Resources_for_Converting...

uno degli altri tool dedicati (python):
http://wordoff.org/about

se consideri di convertire i documenti a pdf e non html
http://drupal.org/project/fileframework

<--- [woot!]

per integrare file excel
http://drupal.org/project/sheetnode

(vecchiotto) addon per fckeditor
http://www.webmastersherpa.com/content/useful-code/cleanup/

Uno script in C#
http://www.codinghorror.com/blog/2006/01/cleaning-words-nasty-html.html

jhl.verona wrote:
Poi provano loro. E la prima cosa che tentano di caricare è: un documento Microsoft Word... Perchè gli immagini sono tutti dentro il documento. O un Powerpoint. Le tabelle ovviamente sono dentro file Excel. E povero Drupal (secondo loro) dovrebbe 'sapere' estrare il tutto, nel posto giusto, al momento giusto. Non ho capito perchè sono convinto di questo - ma non sono un filosofo...

(Mi domanda se usano MS Word per portare le foto da stampare della vacanza, sigh).

Me la son quasi fatta sotto dalle risate :-))))

Questo non lo ho provato ma sembra buono, un passaggio in più ma almeno non rischi che ti chiamino ogni due per tre perchè "Il sito e tutto sottosopra" a causa dei tag di word (cosa che mi è accaduta) fino a quando non hanno finalmente imparato...
http://www.xdownload.it/software_22592/doc_to_html_converter.html

Un abbraccio dall'Umbria (ma dov'è 'sto Jazz) a tutti i tre. Grazie Pescetti (e complimenti anche per gli altri post su questo sito). ed ovviamente a Carlo e Krima.
Fra due giorni torno a Verona (chi sa chi sarai il nuovo presedente della regione). Intanto posso consigliare una visita ad Orvietto e Spoleto. Meraviglioso.
Vi faccio sapere come procede questo particolare odessia quando (purtroppo) riprendo la vita 'reale'...

Più imparo, più dubito.

Sono tornato. Ma non come Terminator, per fortuna. La seconda giornata comprendeva Spoletto (by day), Assisi e Perugia. Terzo giorno Arezzo. Non cammino più...
Allora qualche risultato...

pescetti wrote:
Il modulo giusto per fare questo in Drupal sarebbe http://drupal.org/project/docapi ma non penso che sia al livello che ti serve e sembra un po' abbandonato.

Altro che abbandonato. Morto direi.

pescetti wrote:
Io passerei attraverso OpenOffice.org, che fa un buon lavoro di conversione almeno sulle versioni di Office precedenti al 2007. Per la conversione utilizzerei File - Procedure Guidate - Convertitore di Documenti.

Aggiungo solo che puoi convertire in batch un intero indirizzo di documenti...

pescetti wrote:
Poi, da Openoffice.org, hai varie possibilita':
- Esportare in HTML direttamente; anche se dici che il risultato non ti piace molto, potrebbe bastarti.
- Esportare in formato Mediawiki (che garantisce un output abbastanza pulito, per quanto riguarda la struttura del testo) e poi importare in Drupal con http://drupal.org/project/flexifilter anche se temo che le immagini si possano perdere.

Si. Ma l'HTML di OO.o è ancora troppo lontano per i miei gusti, anche se ben differenzioato fra CSS e attributi class. Ma quanti sono!
Io, su Ubuntu 9.10 con OO.o 3.1.1 non ho un filtro per esportare in MediaWiki 8-(

pescetti wrote:
In alternativa puoi provare la conversione da formato ODF a XHTML con http://holloway.co.nz/docvert o altri tool dedicati.

Non l'ho provato, perchè mi pare un pò "senza amore" - progetto poco aggiornato...

pescetti wrote:
Ricorda che, nella peggiore delle ipotesi, se devi estrarre tutte le immagini da un file ODF basta rinominarlo in ZIP (cioe': file.odt -> file.zip oppure file.odp -> file.zip, eccetera) e poi estrarre lo ZIP. Trovi tutte le immagini in un'unica cartella e questo puo' aiutare molto se ti riduci a dover fare il lavoro manualmente.

E si, hai ragione. docx a odf, apri con Archive Manager (su Ubuntu) e trovi tutti gli immagini in Pictures/. Ma con nomi deliziosi come 10000000000000B4000000BFFF8C88A9.jpg - meglio di niente.

<a href="mailto:[email protected]" rel="nofollow">[email protected]</a> wrote:
Aggiungo qualche link.
suggerimenti generici:
http://www.timeatlas.com/5_Minute_Tips/Chunkers/Resources_for_Converting...
uno degli altri tool dedicati (python):
http://wordoff.org/about
se consideri di convertire i documenti a pdf e non html
http://drupal.org/project/fileframework <--- [woot!]

Interessante. W00t credo, ma sono un profano di l33t sp34k. (Ma ho un traduttore)

<a href="mailto:[email protected]" rel="nofollow">[email protected]</a> wrote:
per integrare file excel
http://drupal.org/project/sheetnode
(vecchiotto) addon per fckeditor
http://www.webmastersherpa.com/content/useful-code/cleanup/
Uno script in C#
http://www.codinghorror.com/blog/2006/01/cleaning-words-nasty-html.html[...
Ah. Coding Horror. Quello si, che è un sito...

krima wrote:
Me la son quasi fatta sotto dalle risate :-))))

A me facceva piangere...

krima wrote:
Questo non lo ho provato ma sembra buono, un passaggio in più ma almeno non rischi che ti chiamino ogni due per tre perchè "Il sito e tutto sottosopra" a causa dei tag di word (cosa che mi è accaduta) fino a quando non hanno finalmente imparato...
http://www.xdownload.it/software_22592/doc_to_html_converter.html[/quote]
Non l'ho provato neanch'io! Comunque lo tengo in serbo. Sembra mantenuto.

Per il spreadsheet foglio di calcolo, ho provato Google Docs - che dà un ottimo HTML, convertendo il foglio selezionato in HTML (non l'intero documento). Per il momento (ho 'solo' il problema di importare tabelle da Excel) seguo questo percorso.

Grazie ancora...

John

Più imparo, più dubito.

John, non so se hai un Mac da qualche parte a disposizione, comunque l'HTML esportato da TextEdit è il più maneggevole che abbia mai trovato: 2-3 giri di trova/cambia e diventa quasi semantico…

Hmm. ho guardato TextEdit - è migliorato tanto negli ultimi anni. Ho frugato un pò in giro, qualche Z80, AMD, tanti Intel, DOS, Windows, Coherent, Linux, ma niente Mac. Mio figlio ha un iPod però...
Voi Mac-isti siete sempre avanti...

John

Più imparo, più dubito.