Transformar un PDF en texto editable

A lo largo de nuestra trayectoria profesional, los traductores nos enfrentamos a textos en todo tipo de formatos, y no es nada extraño tener que lidiar con documentos en PDF. Estas siglas, que corresponden a portable document format designan un formato de almacenamiento de documentos, que permite visualizar un documento sin tener el documento con el que se creó.

Los que nos dedicamos a la traducción jurídica, técnica o jurada, con frecuencia tenemos que hacer presupuestos o recibimos encargos en que la documentación a tratar está en PDF. Disponer de un programa de reconocimiento óptico de caracteres (OCR) para transformar PDF en textos editables es útil, de entrada, a la hora de realizar presupuestos. Y para traducir, son ideales.

Si el texto es breve y no contiene muchas referencias (nombres, cifras, tablas), podemos hacer directamente la traducción. Pero cuando los textos son extensos, contienen muchas referencias y tablas, es muy recomendable tratar el documento para pasarlo a un formato editable, como Word, para poder aprovechar la máxima información posible sin volver a teclear todos los datos que no deberemos traducir pero que no por ello son menos importantes.

Existen muchos programas de reconocimiento óptico de caracteres (OCR) para transformar PDF en textos editables. A mí me gusta especialmente el ABBY PDF Transformer. Cuesta unos 60 €, con lo que se amortiza con rapidez. Lo he probado con todo tipo de documentos: escrituras notariales, diplomas, libros, folletos, documentos con tablas y los documentos que se generan son de muy buena calidad.

Es un programa muy versátil que permite configurar una serie de parámetros:

– formato de destino: Word, Excel, html, rtf, txt;
– selección de páginas que se quieren transformar (no hace falta transformar todo el documento si no es necesario);
– distribución: se puede conservar el formato original o pasarlo a texto, e incluso se pueden conservar las imágenes;
– selección del idioma para que el reconocimiento sea óptimo;
– modo de procesamiento: posibilidad de escoger el procesamiento como imagen, si es difícil reconocer los caracteres;

Además, el programa también distingue automáticamente entre áreas de texto, imágenes y tablas y tenemos la posibilidad de editar cada área antes de transformar el documento. Y finalmente, si nos equivocamos, tenemos la opción de deshacer antes de transformar.

Es bueno dedicar un momento para definirlo todo bien y optimizar el documento editable que obtendremos. Después, según el formato escogido, tocará retocar algún que otro dato y saltos de sección, pero ya dispondremos de una buena base para empezar a trabajar. A mí hasta ahora el mayor trabajo posterior me lo han dado las tablas, pero aún así, poder disponer en menos de 30 minutos de un PDF de unas 100 páginas en formato editable es un gran avance.

Ahora bien, si lo que queremos es disponer de un texto aproximativo para poder hacer un presupuesto sin pillarnos los dedos, es más útil seleccionar únicamente las páginas y el idioma. El documento que resulta, aunque quizá no sea perfecto desde el punto de vista del contenido y la estructura, nos servirá para hacer un recuento muy aproximado al real.

0 responses... add one

Yo uso el Readiris y me va fenomenal… El ABBY no lo he probado porque no hay versión disponible para Mac, pero tiene buena pinta.

Muchísimas gracias, Pablo. El Abby me lo recomendó un amigo que no es del gremio hace tiempo y la verdad es que estoy encantada con él. Solo por el tiempo que gano vale la pena.

¿Y el Adobe Acrobat, alguien lo ha probado? es más caro pero según dicen va mejor que ABBY (normal siendo un formato de Adobe claro)

El gran problema que le veo al Acrobat es el precio, que es muy elevado. Si podemos invertir en herramientas útiles e igual de válidas que programas más caros, pienso que vale la pena darles una oportunidad.

Enhorabuena por el artículo, Martine. Es verdad que funciona de maravilla. Además, el paquete incluye la opción de combinar archivos en un pdf. Partiendo de varios documentos en distintos formatos puedes crear un único pdf. ¡Es genial!

Yo utilizo el ABBYY FineReader 8.0 y me va muy bien. Lo llevo utilizando un tiempo. Creo que ha salido una versión nueva, pero mientras éste me funcione sin problemas, no me lo compro.
Y al revés, para convertir documentos de Word, Excel… en PDF utilizo FreePDF, es muy sencillo.

Es muy fácil de utilizar. Solo con cuatro pasos puedes leer el documento y guardarlo. Para ello tienes que abrir el documento que quieres transformar, eliges el idioma y le das para que lea el documento. Cuando lo ha leído puedes corregir directamente los errores que haya encontrado.
Tienes la posibilidad de que el programa lea el documento automáticamente, es decir, que él reconozca las fotos, el texto, las tablas…, o hacerlo tú misma. Hay veces que es mejor hacerlo personalmente, por ejemplo, las tablas para que salgan bien.
Puedes guardar el documento en varios formatos: Word, Excel, PowerPoint y otras opciones.
Al principio probé con algunos documentos para ver como funciona y encontrar algunos trucos para que después el nuevo documento de Word no haga cosas raras.
Lo compré en Amazon en 2008, para ahorrar un poco de dinero me compré la penúltima versión que es igual o casi igual de buena que la última que habían sacado hasta esa fecha.

Espero haberte servido de ayuda. A lo mejor te puedes bajar una versión de prueba.

Un saludo

Mar

¡Genial! ¡Muy interesante! En cuanto a las prestaciones del Abby Finereader, depende de la versión que se adquiera. Creo que la versión más potente es siempre la última versión de Abby Finereader Corporate Edition, pero que la version Professional (actualmente rebajada de 149 a 79 € hasta el 31.03.2011, según su página web), es más que suficiente para las tareas de los traductores

En cuanto a prestaciones, permite digitalizar cualquier documento impreso y grabarlo en cualquier formato de Microsoft Office, pdf y pdf/a, html, txt y csv. También permite hacer conversiones directas de dichos archivos a pdf o a la inversa, así como hacerlo sólo con una parte preselecionada de los mismos. Podéis comprobarlo, como ya ha comentado Mar Castell en el mensaje anterior, bajando una versión de prueba desde aquí.

Para finalizar, y en relación con el tema de los pdf, quiero recomendaros dos programas complementarios:

PDFSamÇ: permite trocear en partes y volver a pegar los trozos de un documento en formato PDF, para crear volúmenes más manejables.

PDF password remover: permite eliminar la clave de acceso de ciertos documentos en formato PDF y, con ello, las restricciones de edición, impresión y copia de los mismos. (No es ético, pero es práctico, y puede sacarnos de más de un apuro…)

Desconocía la existencia del PDF password remover. ¡Habrá que probarlo! A veces los clientes mandan documentos para traducir en PDF protegidos y no disponen de la contraseña para desproteger el documento. En este caso habrá que solicitar su permiso, pero todo lo que sea poder trabajar en formato editable supone un ahorro de tiempo considerable.
¡Muchísimas gracias, Pablo!

Leave a Reply


*