Cómo recolectar las palabras en negrita de un PDF

Ése es el problema: tengo un PDF con un texto. Algunas de las palabras de ese texto están en negrita. Quiero crear un script que recoja todas esas palabras. ¿Cómo lo hago? Supongo que habrá varios métodos, a mí se me ha ocurrido éste:

Abrir el PDF con OpenOffice.org (con el soporte de importar y editar PDF’s activado). Se abrirá en Draw. Incluir la siguiente macro en StarBasic. Ejecutar la macro. El meollo de la cuestión estriba en que dicha macro recorre todos los elementos de texto del fichero recién cargado y cada vez que encuentre un trozo en negrita, es decir se cumple que:

if (oTextPortion.charWeight > 100) then

añadirá ese trozo o palabra a una hoja de cálculo (en Calc). Yo lo he probado con este extracto de fichero PDF (extraído del Orotariko Euskal Hiztegia, porque necesitaba la lista de palabras de ese diccionario…)

2 comentarios en «Cómo recolectar las palabras en negrita de un PDF»

yo dice:

2 noviembre, 2009 a las 4:00 am

Solo por curiosidad:

¿Que objetivo tiene recolectar las palabras en negrilla de un texto en pdf??

Responder
admin dice:

2 noviembre, 2009 a las 6:30 pm

Supongamos – es un suponer – que tenemos un diccionario en Euskera en formato PDF (las entradas del diccionario están en negrita… y sólo la primera palabra de cada entrada). También tenemos el mismo diccionario disponible para consulta vía web. Tecleas una palabra y te da la descripción. Ahora supongamos que quieres obtener una copia de la versión web. ¡Fácil! Tecleas la lista de palabras una a una y vas guardando los resultados. Great! Er…. pero ¿cómo obtienes la lista de palabras, esas que estaban en negrita? ¡Ah! ¡Sí! con un script que publicaron en diariolinux.com 🙂

Responder

Deja una respuesta Cancelar la respuesta

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.