Cómo recolectar las palabras en negrita de un PDF

Screenshot-A-Ama-1-10.pdf Ése es el problema: tengo un PDF con un texto. Algunas de las palabras de ese texto están en negrita. Quiero crear un script que recoja todas esas palabras. ¿Cómo lo hago? Supongo que habrá varios métodos, a mí se me ha ocurrido éste:

Abrir el PDF con OpenOffice.org (con el soporte de importar y editar PDF’s activado). Se abrirá en Draw. Incluir la siguiente macro en StarBasic. Ejecutar la macro. El meollo de la cuestión estriba en que dicha macro recorre todos los elementos de texto del fichero recién cargado y cada vez que encuentre un trozo en negrita, es decir se cumple que:

if (oTextPortion.charWeight > 100) then

añadirá ese trozo o palabra a una hoja de cálculo (en Calc). Yo lo he probado con este extracto de fichero PDF (extraído del Orotariko Euskal Hiztegia, porque necesitaba la lista de palabras de ese diccionario…)

Aralar, OneNote, miniportátiles y software libre en euskera

Aralar ha puesto el dedo en la llaga: mientras el lehendakari López decía que la decisión de usar Microsoft Windows en lugar de Linux en los mini-portátiles para 5º de primaria se debía a que no había un Linux traducido al euskera (el trabajo de EuskalGNU y LibreZale y de decenas de voluntarios euskaldunes es invisible, al parecer), a nadie se le ocurrió (¡a nadie se _nos_ ocurrió!) decir en ese momento que uno de los paquetes software que se piensa incluir en los mini-portátiles es Microsoft OneNote. Y que se sepa, no existe versión en euskera de ese software. Lo que pregunta Aralar (Mikel Basabe), en pregunta remitida al Parlamento Vasco es:

1.- En los miniportátiles que se repartirán en las aulas de 5º curso de Educación Primaria los usuarios (tanto el alumnado como el profesorado) ¿tendrán el euskera como lengua predeterminada tanto en el interfaz como en el navegador? ¿Se le ha indicado este aspecto al proveedor?

2- Dado que el programa Microsoft One Note no está localizado al euskera y que se van a adquirir 18500 licencias, ¿ha llegado el Departamento de Educación, Universidades e Investigación o algún otro departamento del Gobierno Vasco a algún acuerdo con Microsott para localizar dicho software al euskera?

3.- ¿Se va a condicionar la compra de las licencias de Microsoft One Note a la localización del software al euskera? O, siguiendo una política que sería más adecuada, ¿se dará prioridad al software libre y se realizarán dichos desarrollos con licencias libres y en euskera?

4.- ¿Por qué no se ha dado prioridad al software libre y no se han llevado a cabo dichos desarrollos con licencias libres?

Sobre la pregunta 2 alguien podría pensar que es un bug, que no son 18.500 sino 20.000 licencias, pero no, Aralar tiene razón. Según el pliego de condiciones: «De los 20.000 equipos a suministrar, 18.500 se entregarán además con la licencia de Microsoft Office Standard y Microsoft One Note.»

La 4ª pregunta tiene miga, porque ahora ya no valdrá la excusa del euskera.Y después de todo lo que se ha dicho sobre este affaire, habrá que hilar muy fino en la respuesta, para no seguir levantando polvareda.

Etxekoandroid’09

Resumen en castellano: un grupo de usuarios de Android (el sistema operativo libre impulsado por Google para smartphones y recientemente también disponible para Netbooks) de Euskadi ha (hemos 🙂 decidido que ya iba siendo hora de juntarnos un día y comentar nuestras experiencias con los G1 y G2 (primeros móviles que empezaron a incluir Android como OS, fabricados por HTC). Se hablará de (entre otras cosas)

* Firmware updates (actualizaciones oficiales y JF) – Iñaki (i2MApp)
* Aplicaciones interesantes: SipDroid, Qik!, GTalk, JetcetPDF, TetherBot) Juanan Pereira (Proyelia)
* Tagzania for Android (Tagzania Crew, Mikel Kerejeta )
* Android Development Challenge 2 (el concurso de desarrollo para Android, 2ª edición)
* OCR + Google docs. Beñat (Proyelia)
* Android para monitorización de servidores (Aitzol Naberan, CodeSyntax)

Será en el edificio Korta (Donostia), mañana, a las 10. La inscripción es gratuita pero conviene avisar si vas a acudir, dejando tu comentario en este mensaje por ejemplo, porque formo parte del tinglado 🙂

Las charlas se quiere que sean espontáneas, con el menor número de diapositivas posible 🙂 y con la mayor participación colaborativa que se pueda. ¡Ah! Las charlas pueden ser en euskera, castellano o inglés, como prefiera el «ponente».

Helburua

Android Googlek sortutako sakeleko telefonotarako sistema eragile bat da. Googleren erantzuna Appleren iPhone-ari. Hego Euskal Herrian aurtengo apirilean saltzen hasi ziren Androidekin lan egiten duten mugikorrak baina hain zen handia smartphone hauekin lan egiteko nahia ezen batzuek Internet erabiliz lehenago erosi baizituzten . Android HTC enpresako mugikorretarako sortu bazen ere (G1 eta G2 telefonotarako hain zuzen ere), gaur egun beste enpresa askok sartu dituzte beraien smartphone-tan (eta hemendik gutxira Netbook delakoetan ere ikusiko dugu Android).

Berria.info-k esaten zuen bezala: «Apple erraldoiaren aurka lehiatzera dator, besteak beste, G1 telefonoa, baina askok uste zutenaren kontra, ez da bilatzailerik arrakastatsuenaren konpainiak berak sortutako telefonoa, HTCk sortutako baizik» . Googlek «bere softwarerik ezagunena mundu guztiaren esku jartzeko asmoz garatu du Android. Gmail, YouTube, Calendar, Google Maps eta StreetView ikusgarria izango dira, besteak beste, G1 telefonoan eskuragarri.»
Etxekoandroid

Euskaldunon artean Android-erabiltzaile komunitatea poliki-poliki sortzen ari da. Komunitate hori osatzen dugunok elkar ezagutzeko eta gure mugikorretan erabiltzen ditugun tips&hacks partekatzeko helburuarekin, bilkura, topaketa edo NoConference bat antolatzea da deialdi honen xede.

Trikimailuak, teknikak, aplikazio gomendagarriak, programazioa, «firmware-updates», eta abarri hitz egiteko egun bateko topaketa informala izan daiteke Etxekoandroid’09 (horrela bataiatu baitugu, lagun baten ideia/txantxa bati jarraituz 😉

Bakoitzak nahi duenari buruz (Android-ekin zerikusirik duen bitartean) hitz egiteko 6 minutu izango ditu (Pecha Kucha aurkezpen modukoak).

Jatorrizko deia Beers & Blogs edo Aprendices taldekoek egiten dituzten bezalako bilera bat egitea izango litzateke. Hizkuntza? Nahi duzuena, euskera, gaztelera, ingelesa…
Animatzen zara?

Non:
Donostian, Korta eraikinean (Ikus-entzuneko A1 gelan), EHUren Ibaetako kanpusean.

Noiz:

* Ostiral honetan, hilak 17. Goizeko 10etan hasi eta eguerdiko 12ak arte (gutxi gorabehera 🙂

Jorratuko diren gaiak (besteak beste, eta adibide gisa – parte hartzaile bakoitzak gehitu ahal izango ditu nahi dituenak 🙂

* Firmware updates (firmware update) – Iñaki (i2MApp)
* Enpresa2.0 erabilerako baliagarriak izan daitezkeen aplikazioak (SipDroid, Qik!, GTalk, JetcetPDF, TetherBot, …) Juanan Pereira (Proyelia)
* Tagzania for Android (Tagzania Crew, Mikel Kerejeta )
* Android Development Challenge 2
* OCR + Google docs. Beñat (Proyelia)
* Android zerbitzariak monitorizatzeko (Aitzol Naberan, CodeSyntax)

Inskripzioa

Doakoa. Parte hartu nahi baduzu, agertu zaitez ostiralean bertan Korta eraikinean. Eskertuko genizuke hori bai, mezu bat M8R-uv3dy1 a bildua mailinator.com postara bidaliko bazenu zure parte hartzearen berri emanez.

Hitzaldia: Jabetza intelektuala eta teknologia berriak

Conferencia en euskera, bajo el título «Propiedad intelectual y nuevas tecnologías». Allí estaré (Donostia, centro Korta, sala VC3): OpenCourseWare ekintzaren barruan, EHUk honako hitzaldia antolatu du biharkorako.

Maiatzak 15, goizeko 10etan

Marko Txopitea software askearen munduari lotutako aholkulari-informatikoa
da eta baita Indymedia Euskal Herria, Sindominio, Hackmeeting, Librezale,
Zabaldu, Ezebez, CompartirEsBueno, Politika 2.0 eta beste talde batzuetan
parte hartzen duen hacktibista. Hamabostero GARA egunkarian teknologia
berriei, Interneti, sare sozialei, jabetza intelektualari eta abarrei
buruzko artikuluak argitaratzen ditu. Bere blog pertsonala: http://www.ikusimakusi.net

Experimentando con Ubiquity

Ubiquity es una extensión para Firefox que permite teclear en pantalla lo que quieres hacer. Por ejemplo: podemos seleccionar un trozo de texto y teclear «define». Con lo que Firefox buscará la definición de dicho texto. Algo más elaborado: podemos seleccionar una dirección postal en pantalla e indicar «map this» Con lo que Firefox buscará automáticamente la dirección postal en Google Maps y nos mostrará un pequeño trozo del mapa para que podamos insertarlo allá donde estemos situados (enun mensaje de correo, por ejemplo).

Otra funcionalidad de Ubiquity que me ha gustado es que viene por defecto con algunos scripts muy interesantes para editar una página (al estilo de lo que ya hacía la extensión Aardvark). Borrar un trozo de texto, marcarlo con fosforito, y grabar los cambios. En el vídeo adjunto muestro parte de ese funcionamiento.

Ubiquity puede ser extendido mediante simples scripts en Javascript. Me picaba la curiosidad sobre cómo desarrollar para Ubiquity y he creado en unos minutos un script para consultar el periódico en euskera Berria.info (valiéndome del API Ajax de Google). Lo interesante es que es una consulta de tipo type-ahead o búsqueda incremental. Lo que vas tecleando se va buscando en el periódico y te va mostrando los trozos de texto que cumplen el patrón de búsqueda, de forma incremental. Muy útil cuando te acuerdas de algunas palabras del texto, pero no de todas. Por ejemplo, sabía que hay un refrán en euskera que dice «….., etxean otso». El pequeño script que he realizado permite teclear justo esas palabras (etxean otso) de tal forma que Ubiquity me indique qué párrafos de la hemeroteca de Berria.info cumplen la expresión. Es fácil ahora (ver el vídeo adjunto, en la parte final) recordar que el refrán era «kalean uso, etxean otso» (o «etxean otso, kalean uso»).

Nota: si queréis ver el vídeo con más detalle, recordad que podéis pulsar el icono HD y luego el de pantalla completa.