Para mejorar la comprensión del detalle pormenorizado del proceso de identificación y conteo de palabras, conviene presentar una visión general del mismo.
El esquema de trabajo que voy a exponer consta de tres fases:
- Fase 1: Tratamiento del documento original en Word para crear un listado en el que se asocie cada una de las palabras de dicho documento con la posición que mantengan en el mismo, de forma que pueda conocerse por la diferencia entre dos posiciones de una misma palabra la “distancia” a la que se encuentran entre sí en el texto. Este paso se hará íntegramente mediante una macro (programa) de Word que hará todo el trabajo. Aunque parezca mentira, esto tiene que ver con lo que algunos de vosotros habréis oído llamar como "big data”. No es otra cosa que obtener y tratar un gran volumen de información y tomar decisiones a la vista de ellos. En el caso de una novela como la mía, que estimo rondará las doscientas páginas, se trataría de contar con una base de datos de 200.000 palabras que incluya la posición relativa de cada una dentro de la novela. Con esos datos, ya os imagináis el juego que se le puede dar, no sólo para el tema concreto del análisis de repetición de palabras, ¿verdad?
- Fase 2: Tratamiento en Excel. Como Word es bastante torpe para operar con un gran volumen de datos, entra en escena Excel. Con esta herramienta de hojas de cálculo de Microsoft Office se trata de preparar, ordenar y filtrar el gran volumen de datos en la base de datos antes creada, con el fin de evidenciar aquellas palabras demasiado repetidas, de acuerdo con el criterio de cercanía que hayamos establecido. Sé que se podría automatizar esta fase mediante macros (no lo descarto para el futuro, para descansar de mis tiempo de escritura), pero he preferido no hacerlo ahora por el tiempo que tendría que dedicar.
- Fase 3: Tratamiento manual. Teniendo delante el texto original analizado y el fichero obtenido en el punto anterior, se trata de ir analizando cada una de las palabras resaltadas como “demasiado repetida" para comprobar discrecionalmente si preferimos dejarla como está, suprimirla o modificarla. Este trabajo, que no puede automatizarse de ninguna manera es el más laborioso de todo el proceso. En mi caso, vengo tardando unos diez minutos en revisar cada página, contando el tiempo de reflexión y búsqueda de alternativas, en su caso (sinónimos, etc.). Sí, para una novela de unas doscientas páginas pueden ser necesarias más de 30 horas de trabajo para analizarla por completo. A pesar de ello, desde mi punto de vista, es un tiempo muy bien invertido: no sólo se consigue un texto mucho más depurado sino que, poco o poco y sin darse uno cuenta, vamos interiorizando los lastres narrativos que conviene ir soltando.
Por último, para no crear expectativas desproporcionadas sobre la utilidad de este procedimiento tengo que alertar de dos restricciones que hay que tener presentes:
- La macro de Word no puede procesar más de 32.765 palabras de una sola vez, lo que implica que los textos que superen esta longitud tendrán que dividirse para analizarlos por partes. Esto significa que, de una sola vez, no deberían pasar de unas 50 páginas la dimensión de las partes a analizar por la macro de word. En mi novela he tenido que trocearla en cuatro partes y ejecutar la macro para cada parte, es decir cuatro veces.
- El procedimiento que describo utiliza dos variables que pueden/deben ser cambiadas según el gusto/necesidad de cada usuario. Una se refiere a las palabras que se excluyen del análisis, dado que son requeridas recurrentemente para un uso normal del lenguaje, como son los artículos y las palabras como “dijo", por ejemplo, pero hay otras muchas cuya repetición no tiene por qué ser inadecuada en un texto. A día de hoy, mi lista de exclusiones se eleva a 30. Esta relación puede modificarse a voluntad, aunque hay que hacerlo dentro de la programación de la macro de Word. La otra variable discrecional es el número máximo de palabras que debe existir entre dos palabras iguales para que se les considere una repetición “potencialmente inadecuada”. En mi caso, he indicado 50, que viene a ser como un párrafo pequeño de dos o tres frases; es como decir, más o menos, que no quiero que una palabra se repita dentro de un mismo párrafo. Lógicamente, cuanto mayor sea el parámetro que se indique más palabras encontraremos repetidas: más precisión en el análisis pero más trabajo y tiempo a dedicar. Por eso, he encontrado que para mí, 50 es el punto de equilibrio “menos malo".
Dejo para un próximo artículo detallar el proceso en Word, ya que este ya es suficientemente largo. Si no te lo quieres perder, te aconsejo que te suscribas al blog, dejando más abajo tu dirección de correo electrónico.
Por supuesto, estaré encantado de escuchar tus comentarios, recomendaciones o consejos.
Ah, y si te ha gustado este artículo no te cortes y recomiéndalo en las redes sociales.
No hay comentarios:
Publicar un comentario