Putos ficheros de Word...
Buenas tardes
A ver, en el curro debo convertir unos 100 ficheros hechos en Word a HTML. Pero no con el metodo guarro de 'grabar como html' desde Word, porque el fichero resultante no solo se llena de codigo-mierda, sino que encima, pesa un huevo, al menos un 25% mas q un html 'limpio'.
He probado a limpiarlos con la opcion de DW, 'limpiar html de word' pero el resultado no es el mejor, aun pasandolo por ahi, queda codigo viciado.......
Tambien he hecho el camino mas largo: grabar como txt, abrir DW, pegar los textos y darles formato a mano, mirando el modelo del mismo fichero en word... Pero a costa de pasarme una tarde modificando solo dos ficheros, o tres...
Alguien se ha visto en alguna situacion similar? Que suele hacer en estos casos? Hay algun soft magico q me allane el camino?
CIASSSSSS!
eplastiq
no te pega el format del word el dw cuando haces cut'n'paste?
orange
JOE que marrón .... me temo que tendrás que sopesar si te cuesta menos limpiar el código del Word o hacer Cut & Paste con los textos ....
meddle
deberia costar menos limpiar el codigo usando un parser especifico (con PHP por ejemplo), pero igual acabas tardando mas creando el parser que haciendolo todo a mano. eso depende mucho del codigo generado, de si hay etiquetas de titulo, etc etc.
pedro_fm
yo eso lo hacía exportandolo como html, copiandolo desde el navegador y pegandolo en outlook. una vez alli pegado en un mensaje html pillaba el codigo fuente, que quitaba bastante mierda. haz pruebas a ver que es lo que mas te conviene
otra opcion es que los conviertas en PDF y extraigas alli el texto. o como RTF
la verdad es que tengo (por suerte) lejos ya ese tipo de marrones porque requiero que los clientes envíen los datos de ciertas formas, y sino incluyo en el presupuesto la migracion de los datos, al igual que el escaneo de fotos, el picado de textos y otros marrones de chupatintas.
joshuatree
pedro_fm
yo eso lo hacía exportandolo como html, copiandolo desde el navegador y pegandolo en outlook. una vez alli pegado en un mensaje html pillaba el codigo fuente, que quitaba bastante mierda
Ahhhh, eso me gusta, me gusta :D
Lo del rtf ya lo he probado, pero por alguna razon no pillaba subscripts /superscripts y otras lindeces... :?
icaro2m
yo todos los meses tengo que actualizar una revista que me envian en 30-35 archivos de word, y al final despues de mil pruebas he acabado copiando el texto tal cual, pegandolo en la plantilla de Dreamweaver y dando formato.
es un coñazo, pero todo lo demas que he probado no me ha hecho mas que perder tiempo.
haber si se curran una opcion de exportacion a html en condiciones, por que la que hay ahora mismo es una autentica basura.
luso
pues no se si me equivoco, pero lei en algun lado que el DW MX2004 respetaba el formato de texto del word, o me lo estoy inventando, no se bueno, suerte de todas formas. yo te ayudo por un modico precio....
Jimena
DW MX2004 te permite importar directamente el archivo de word, sin archivos html de por medio, de forma que el pone el formato más adecuado con código mucho más limpito.
Si lo tienes que hacer con el DW MX a secas importa el HTML de Word y luego usa la herramienta de reemplazar etiquetas que es bastante efectiva. Yo lo he tenido que hacer miles de veces y es sencillo, por ejemplo le haces que busque todas las etiquetas SPAN que contengan el atributo style="font-weight: bold" y que te las sustituya por etiquetas STRONG. Así puedes limpiar el documento de mierda (quitar todos los style, class, etc).
De todas formas si tienes dudas ya sabes que ando al otro lado del yahoo messenger.
;)
txuma Plus
Además muchas de las etiquetas serán comunes a todos los documentos. Puede parecer una chorrada, pero si los tienes todos guardados en una carpeta un find&replace a saco en toda la carpeta te limpiaría un montón de código de todos los documentos. palabrita del niño jesús ;)