El driver Java de MongoDB es un poco retorcido

logo MongoDB

Estoy jugueteando y publicando una serie de artículos de MongoDB con Java. Y en uno de ellos, me he puesto a mirar cómo utilizar POJOs de Java con MongoDB. La utilización es fácil, o al menos, eso parece con un «Hola Mundo». Pero la cofiguración para que pueda utilizar POJOs es tan fea como la siguiente

PojoCodecProvider pojoCodecProvider = PojoCodecProvider.builder().automatic(true).build();
CodecRegistry pojoCodecRegistry = CodecRegistries.fromRegistries(
   MongoClientSettings.getDefaultCodecRegistry(), CodecRegistries.fromProviders(pojoCodecProvider));

Ni más ni menos que todo eso. Y explicarlo es, si no complejo, al menos largo.

Primero obtener una intancia de un PojoCodecProvider. Eso se hace con el método estático builder(), concatenando algo de configuración automatic(true) para que sea capaz de tratar automáticamente cualquier POJO y finalmente llamando a build(). Nada complicado de momento. Solo explicar que es un CodecProvier en MongoDB y ya de paso, que es un Codec.

Un Codec es una clase que es capaz de convertir una clase nuestra de Java en un documento bson u obtener nuestra clase Java a partir de un documento bson. bson es como json, pero codifcado en binario en vez de texto. Esto hace que no sea legible para un humano, pero sí ocupa menos espacio y es más eficiente para almacenar o transmitir un documento json.

Y un CodecProvider es una clase capaz de crear Codec específicos para clases concretas. En este caso, nuestro PojoCodecProvider será capaz de crear Codec para cualquier clase Java que sea un POJO. Es decir, que tenga un constructor sin parámetros y que tenga atributos con métodos getter y setter

Vale, nada especialmente raro hasta aquí. Ahora toca decirle a MongoDB que utilice este CodecProvider. Para ello, cuando ya tenemos la conexión con MongoDB establecida y queremos obtener una base de datos, le decimos qué CodecRegistry debe usar llamando a withCodecRegistry()

MongoDatabase database = mongoClient.getDatabase("My_Data_Base").withCodecRegistry(pojoCodecRegistry);

Bueno, un nuevo concepto. Tenemos un CodecProvider, pero necesitamos un CodecRegistry. ¿Qué es un CodecRegistry?. Un CodecRegistry es un registro o alamacén de Codec. Ahí guardamos instancias de Codec, todas las que queramos. MongoDB preguntará ahí cuando tenga que convertir una clase Java a un bson o al revés para buscar el Codec adecuado para esa clase concreta.

Pues vaya, hemos creado un CodecProvider pero necesitamos un CodecRegistry. La única diferencia es que el primero crea un Codec nuevo cada vez que se le pide y el segundo sólo te devuelve los que tiene almacenados.

Para obtener un CodecRegistry a partir del CodecProvider, tenemos la siguiente llamada

CodecRegistries.fromProviders(pojoCodecProvider);

Esto devuelve un CodecRegistry a partir del CodecProvider. Una vez hecho esto, parece fácil, sería pasar el CodecRegistry así obtenido a nuestra llamada a withCodecRegistry(). Pero no es tan fácil.

withCodecRegistry() sólo admite un CodecRegistry. Y por defecto, MongoDB tiene ya uno instalado, con otras cosas que no son POJOs y que necesitamos mantener. Este CodecRegistry por defecto se puede obtener con

MongoClientSettings.getDefaultCodecRegistry()

Así que necesitamos construir un CodecRegistry que tenga todos los Codec por defecto más los Codec de POJOs que hemos creado a partir de nuestro PojoCodecProvider

Menos mal que viene en nuestra ayuda CodecRegistries.fromRegistries(). Esta llamada recibe como parámetros varios CodecRegistry y te devuelve un CodecRegistry con todos los Codec de los CodecRegistry que hemos pasado como parámetros

Así que la llamada chorizo

CodecRegistry pojoCodecRegistry = CodecRegistries.fromRegistries(
                MongoClientSettings.getDefaultCodecRegistry(), CodecRegistries.fromProviders(pojoCodecProvider));

nos devuelve el CodecRegistry que queremos, que tiene todos los Codec por defecto de MongoDB más el nuestro de POJOs. Y ese que obtenemos es el que debemos usar en nuestra llamada a withCodecRegistry().

Pues no sé si es complicado o no, retorcido o no, pero sí sé que he echado un rato en entender esa línea críptica rebuscando por la documentación de MongoDB. Y estoy casi seguro que hay formas más fáciles de obtener un registro de Codec con los de defecto más los que queramos sin involucrar de por medio un CodecProvider.

Publicado en MongoDB | Etiquetado , | Deja un comentario

Windows Subsystem for Linux ( WSL )

windows logo

Hace poco, gracias a un compañero de trabajo, descubrí WSL, el subistema de Windows para Linux. WSL viene a partir de windows 10 y es una forma fácil de instalar una máquina virtual linux que corra en nuestro windows.

Desde una ventana de comandos de windows, el comando wsl –install instala, si no lo está, una máquina virtual con sistema operativo Ubuntu por defecto. Nos pedirá un nombre de usuario y password de root. Inmediatamente después de terminado el proceso de instalación, nos abre directamente un bash de Linux.

C:\Users\fjabe>wsl --install
Installing, this may take a few minutes...
Please create a default UNIX user account. The username does not need to match your Windows username.
For more information visit: https://aka.ms/wslusers
Enter new UNIX username: fjabellan
New password:
Retype new password:
passwd: password updated successfully
La operación se completó correctamente.
Installation successful!
To run a command as administrator (user "root"), use "sudo <command>".
See "man sudo_root" for details.

Welcome to Ubuntu 22.04.2 LTS (GNU/Linux 5.15.90.1-microsoft-standard-WSL2 x86_64)

 * Documentation:  https://help.ubuntu.com
 * Management:     https://landscape.canonical.com
 * Support:        https://ubuntu.com/advantage


This message is shown once a day. To disable it please create the
/home/fjabellan/.hushlogin file.

Esto sería la primera instalación. En sucesivas ocasiones nos bastará ejecutar el comando wsl sin parámetros para que arranque la máquina virtual linux.

Hay varias distribuciones de linux disponibles que podemos obtener con wsl –list –online. Pasaríamos como parámetro wsl –install <distribution> la que queremos instalar. Con wsl -d <distribution> podríamos arrancar una concreta de las que tengamos ya instaladas.

El nombre e IP de esta máquina virtual podemos obtenerla con los comandos wsl hostname y con wsl hostname -i

¿Y para qué uso yo todo esto?

Pues al desarrollar es habitual tener que levantar bases de datos, quizás en versiones distintas, algún ApacheDS para la gestión de usuarios, algún programa externo o simulador con el que nuestro programa se comunica, etc.

Una opción es instalar estas cosas directamente en nuestro windows, pero aparte de «guarrear» nuestro windows, podemos tener problemas si tenemos versiones distintas de, por ejemplo, una base de datos. Este problema es bastante habitual si te dedicas al desarrollo.

Así que las máquinas virtuales vienen en nuestra ayuda. Podemos instalar máquina virtuales tradicionales, como con Virtual Box, una por cada versión de la base de datos que necesitemos. Pero esto ocupa mucho espacio.

Otra opción más moderna es el uso de dockers. Desgraciadamente, no corren de forma nativa en windows. De una forma u otra, más o menos oculta, siempre es necesaria la instalacion de una máquina virtual linux. Y aunque hay varias formas, wsl es una forma sencilla de hacerlo.

Una vez estamos dentro de nuestra máquina virtual Ubuntu de wsl, podemos instalar fácilmente docker como si estuvieramos en un sistema linux. Ahí podemos instalar las imagenes que queramos, arrancarlas, etc.

Así que a jugar con ello toca.

Publicado en docker | Etiquetado , , , | Deja un comentario

netty «jdk.internal.misc.Unsafe»

Logo de Java

Cuando pasamos de java 8 a una versión más moderna, java 11 por ejemplo, puede que programas o librerías que nos funcionaban empiecen a darnos excepciones del estilo

java.lang.IllegalAccessException: class io.netty.util.internal.PlatformDependent0$6 cannot access class jdk.internal.misc.Unsafe (in module java.base) because module java.base does not export jdk.internal.misc to unnamed module @84b8f0f

En este caso, ha sido la librería netty, muy utilizada para comunicaciones entre ejecutables java por muchos frameworks.

El error se debe al uso de la clase jdk.internal.misc.Unsafe de Java. Esta clase permite manipular a bajo nivel la memoria, las clases, los objetos, etc. Y es una clase cuya utilización no es segura, puesto que es fácil comenter errores con ellas, tener efectos inesperados, etc.

Sin embargo, su potencia hace que se use en muchos de los frameworks más modernos. Por ejemplo, manipulando directamente memoria podemos conseguir mayor velocidad de proceso que utilizado los métodos normales de java.

¿Y a qué se debe el error?. El error se debe a que en java 8 esta clase podía utilizarse sin ningún problema. Pero en versiones poseteriores se ha metido en un módulo separado que no es accesible de forma estándar. De hecho, en java 8, la clase era sun.misc.Unsafe. En java 11 se han separado los métodos en dos clases y se han metido en dos módulos distintos. jdk.internal.misc.Unsafe en java.base y sun.misc.Unsafe en jdk.unsupported.

Si queremos seguir pudiendo usarlos o que las librerías que usemos, como netty, no protesten, debemos dar acceso a nuestro programa a dichos módulos. Una forma de hacerlo es añadir las siguientes opciones en nuestro comando java de arranque de nuestro ejecutable.

–add-opens java.base/jdk.internal.misc=ALL-UNNAMED

–add-opens indica que debemos abrir un módulo y qué paquete dentro de ese módulo. Podríamos poner –add-exports también. La diferencia entre ambos es que el segundo abre los módulos permitiendo usar sólo sus clases y métodos públicos. Mientras que el primero lo abre totalmente permitiendo, por reflexión, acceder también a métodos y atributos privados.

Luego van el nombre del módulo que queremos abrir y el paquete dentro de ese módulo. Y finalmente, tras el igual, a qué módulo se lo queremos abrir. Por compatibilidad con java 8 y anteriores, que no existían módulos, está la opción ALL-UNNAMED. Esta opción da acceso a esos módulos a todas las clases java que no están en ningún módulo.

En nuestro ejemplo, nos bastaría con abrir solo este módulo/paquete java.base/jdk.internal.misc, ya que la excepción sólo protesta de no tener acceso a la clase Unsafe de este paquete.

Para el caso concreto de netty, tenemos una opción más específica

-Dio.netty.tryReflectionSetAccessible=true

Publicado en java, Lenguajes de Programación | Etiquetado , , , | Deja un comentario

Cambiar colores de un JComboBox

En el foro de java preguntaron solog java swingbre cómo cambiar los colores de un JComboBox. El asunto no era sencillo, buscando por google, encontré este enlace que es lo que respondí en el foro. Sin embargo no me convenció, me parecía demasiado complejo. Sobre todo no me gustaba el comentario «Es obligatorio que el Editable sea verdadero, de lo contrario, las modificaciones del renderizador y del editor no funcionarán».

Así que me puse a hacer pruebas por mi cuenta a ver si existía una forma de cambiar los colores de manera más sencilla. Y la hay, no fue fácil, pero conseguí hacerlo … con pegas, al final tuve que tirar del editable.

La parte del desplegable es fácil, es similar a un JList normal. De hecho, se cambia definiendo tu propio BasicComboBoxRenderer y sobreescribiendo un método igual que el de un ListCellRenderer

Pero el valor visible cuando el menú desplegable está oculto, eso es otro cantar. Casi todos los intentos y búsquedas en google fracasaban o me daban soluciones complejas, como la que quería evitar.

Pero enconré una forma, no fue fácil porque al final tuve que ir al código java, localizar dónde se hacía el dibujo de ese valor seleccionado y mirar la lógica. La clase  que hace el dibujo es BasicComboBoxUI propia de java y el método es paintCurrentValue(). Te pego aquí una foto con el trozo del código de interés

codigo de BasicComboBoxUI

La lógica de todo esto:

  1. Si el JComboBox tiene el foco y el desplegable no es visible, se usa el render que hayamos definido. Fíjate que se le pasa como posción en la lista un -1. Así que este caso podemos contemplarlo en el render que hayamos hecho para el desplegable.
  2. En caso contrario, lo mismo pero … se machaca el color del background con el valor por defecto del look and feel que tengamos. Así que en caso de que el JComboBox no tenga el foco o el desplegable esté visible, no nos hará ni caso al color de background que pongamos en el render. Vete tú a saber por qué han tomado esta decisión al hacer el código.
  3. En el punto 1 dijimos que no tendriamos problemas con el render. Pues si los tenemos, si vas al siguiente bloque de código, se vuelve a repetir la condición de si el JComboBox tiene el foco y el desplegable no es visible para cambiar el color usando los colores de selección de listBox, es decir, el Jlist. Así que en nuestro render, si nos pasan -1 como posición, debemos cambiar los colores de selección del JList que nos pasan como parámetro.
  4. Y el else de ese bloque, es decir, si el JComboBox no tiene el foco o el desplegable es visible, nos metemos en nuevo if-else, en función de si el combo esta enabled o disabled.
    1. En el primer caso, se usan los colores de defecto del JComboBox. Así que para este caso, tenemos que tener cambiados los colores de defecto.
    2. Y para el otro caso, combo disabled, hace una extrañas llamadas a DefaultLookup que tras mirar, no he visto forma fácil de meter mano. Acaban devolviendo colores por defecto. Así que la solución pasa por hacer una chapuza, justo la que quería evitar. Cuando deshabilitemos el combo, lo hacemos editable. El color del editor se puede cambiar fácilmente y como está deshabilitado, el usuario no podrá editar nada.

Me llama la atención lo complejo que han hecho esto los de java.

El código resultante de toda esta investigación está explicado en Cómo cambiar los colores de  un JComboBox.

 

 

Publicado en java | Etiquetado , , , | Deja un comentario

Jugando con Chat-GPT y Chat Bing

ChatGPT - Wikipedia, la enciclopedia libreCuando apareció todo esto de Chat-GPT y posteriormente, chat bing, no les hice mucho caso.

Por un lado, estaba un poco decepcionado con todas estas nuevas tecnologías de machine learning, deep learning y demás. Como está de moda desde hace ya bastantes años y en todos los ámbitos, parece que las cosas mejoran más poniéndoles nombres bonitos que haciendo cosas reales por debajo.

Por otro, ambas herramientas exigen que te registres y en el caso de Chat-GPT incluso que le des tu número de móvil. Así que directamente pasé de probarlo.

Pero un compi de trabajo estuvo probándolo y me habló maravillas, así que me decidí a jugar y al final, una sensación agridulce.

Tras estar de charla con los chat, e incluso echando alguna mañana entera, me dejó bastante asombrado. Fuí a pillar, le pregunté por los sistemas VTS (Vessel Traffic Service) y en concreto, por iMARE, en el que trabajo en mi empresa. Lo conoce. Le pregunté por programación en Java, a mala leche, pidiéndole que usara la librería de Luciad Lightspeed, que también uso. Es una librería de pago de la que no hay demasiada info en internet. La conoce e incluso hace código usándola. E intenté que me explicara la mecánica cuántica de forma que yo la entendiera, eso no fue capaz, prueba clara de que soy muy «zote».

Y tras quedarme asombrado, busqué por google / youtube a ver si alguien me contaba las tripas de chat-gpt y me encontré este video

Y me llevé un chasco y a la vez me dejó más dudas. El video está bien explicado y cuenta cómo se entrenó y la algorítimica en que se basa chat-gpt. Si lo resumimos, dice que chat-gpt únicamente continua una conversación poniendo a continuación las palabras/frases que estadísticamente quedan mejor.

Así que el algoritmo, aunque implementado de una forma muy elaborada, es bien tonto, simple estadística de palabras y frases. Pero el resultado es asombroso. Cuando le pido que me haga un programa Java y mete la pata en algo, se lo comento y lo corrige, mejor o peor, pero lo corrige. Realmente asombroso si el algoritmo realmente es sólo lo que comenta el video. Por otro lado, si le digo que de un listado de protocolos militares de comunicación entre sistemas de mando y control, me da un listado de algunos de ellos (link 16, JTIDS/MIDS, etc) pero también me incluye el protocolo de vestimenta militar y de izado de bandera en determinados eventos. Esto sí que cuadra con un algoritmo que pone frases «aleatorias» cercanas a «protocolos militares».

Pero sí les he encontrado utilidad, aunque haya que verificar lo que te contestan.

chat bing es muy bueno para resumirte búsquedas de internet. Le preguntas algo que quieras saber y que habitualmente requiera algo de investigación por google y él te hace las búsquedas, te da un resumen y te pone enlaces. Puedes pedirle que vaya ampliando información. He estado una mañana con él discutiendo sobre las gas fee de los intercambios de criptomonedas.

chat-gpt sin embargo me parece mejor para escribir artículos o pedirle que te escriba textos o frases, parece que tiene más «inventiva» y es más extenso en sus explicaciones. De hecho, hay tres tutoriales de chuwiki escritos enteramente por chat-gpt: JSliderJColorChooser y XML+XSLT=HTML.

Y ambos son útiles para pedirles ayuda en cuanto a programación se refiere, ya que dan código y lo corrigen si se lo indicas. O incluso para traducirte textos entre idiomas, lo hace bastante mejor que google translator.

Por cierto, hablando de generar código con herramientas, un compi de trabajo me enseñó codegeex. Tiene plugin para IntelliJ idea y lo he estado probando. No me convenció mucho. Genera código, sí, a veces muy acertado rellenándote por completo un método simplemente poniendo el comentario de lo que quieres que haga, pero otras veces parece que molesta más que ayuda.

Publicado en machine learning | Etiquetado , , , | Deja un comentario

Moviendo dominios y subdominios

logo de ezoicGoogle Adsense da unos ingresos bastantes bajos en general, así que buscando alternativas, me dí de alta en Ezoic. Según vídeos de youtube y artículos varios, parece que en general da bastante más ingresos. Siempre hay detractores, comentan que el que no obtiene buenos ingresos en Google Adsense es porque no sabe configurar/colocar bien los anuncios, mientras que Ezoic es más «listo» y por tanto, más para «tontos». Ezoic o personal de Ezoic se encargan de poner los mejores anuncios o indicarte dónde ponerlos.

Para que Ezoic apruebe tu dominio, primero tiene que aprobarlo Google Adsense. No es necesario tener cuenta de Google Adsense, pero si pasa por las manos de google la validación. Y curiosamente, aunque mi sitio fue validado por adsense hace ya muchos años, no lo ha validado para Ezoic. Así que no puedo usar Ezoic de momento.

El motivo, es algo como «contenido de poco valor». Eso es muy amplio y la ayuda de Ezoic comenta muchas posibilidades. Desde una web con contenido cutre hasta cosas tan tontas como tener mal colocados los menús, siendo mal colocados que a la gente de google no les guste como están colocados.

Me entró la duda si estaban mirando el contenido de mi principal dominio, chuidiang.org, que hasta hoy mismo era la antigua web de C++ linux y Java que comencé hace muuuuchos años, de forma artesanal, html y css puro y duro hecho a manita. Y sí, aunque en su momento tuvo su éxito y lo sigue teniendo, es bastante cutre para los tiempos que corren hoy día.

Así que decidí mover el contenido principal a https://old.chuidiang.org/  y mover la wiki, más moderna, aunque sólo sea por usar un gestor de contenido (mediawiki), al dominio principal. Así que una tarde entretenida. Crear un subdominio old, mover todo el contenido del dominio principal al old, poner en el .htaccess todas las redirecciones 301 adecuadas para que google sepa del redireccionamiento, mover todo el contenido del subdominio chuwiki al dominio principal y nuevamente el .htaccess con redirecciones 301 desde chuwiki al dominio principal. Es decir, una tarde entretenida.

Ahora a volver a pedir a google, a través de ezoic, que validen el dominio y a ver qué pasa. Aunque quiero hacer de momento algún arreglo más en la página principal.

Publicado en web | Etiquetado , , , , , | Deja un comentario

Cálculos estadísticos en Python

pythonSiguiendo con mis aprendizajes y tutoriales de Python, me ha tocado la parte de cálculos estadísticos.

Me ha parecido bastante increible la cantidad de cálculos estadísticos que vienen por defecto con la instalación de python. No solo cálculos más o menos habituales como la media o la desviación estándar, sino todo tipo de cálculos estadísticos algo más avanzados: percentiles, distintos tipos de distribuciones e incluso interpolación lineal. Al escribir el tutorial he tenido que buscar muchos de los conceptos de estos cálculos que no conocía.

Como vengo de Java, me ha llamado la atención porque en Java no hay nada de esto, ni siquiera la media de una lista de números. No es complejo calcularla, pero tienes que hacerlo. Pero sí es más complejo de calcular cosas como los percentiles, distribuiciones o interpolación lineal. En java no te queda más remedio que currartelo o buscar alguna librería que lo haga.

Sé que el uso de Python ha crecido mucho últimamente, llegado a superar a Java. He leído por ahí que se debe sobre todo al tema de machine learning, porque las librerías que tiene python que son útiles para esta disciplina no las tienen otros lenguajes de programación. Lo que tiene de base para cálculos estadísticos, así como que de forma nativa trate con números complejos, parece dar la razón a este argumento. Y librerías adicionales como Numpy le dan más peso todavía.

Ahora sólo queda decidir el siguiente tema de python que estudiar y escribir.

Publicado en python | Etiquetado , | Deja un comentario

Aprendiendo Solidity

Solidity — documentación de Solidity - UNKNOWNAunque es poco conocido en general, sí es muy conocido dentro de los programadores de la blockchain de criptomonedas, del mundo de Ehterum en concreto. Es el lenguaje de programación Solidity.

Y precisamente como todo el tema de blockchain está muy de moda, maneja mucho dinero y este lenguaje de programación es relativamente nuevo y poco conocido, si estudias solidity dicen las malas lenguas que encuentras trabajo seguro con sueldos muy por encima de la media de lo que cobra un programador.

Así que me puse a investigar y juguetear. No es que quiera cambiar de trabajo, pero en este mundillo de la programación, nunca está de más actualizarse y aprender cosas nuevas. El lenguaje en sí no es complejo, en vez de clases tiene contract o contratos. Estos contract tienen constructores, variables y funciones (métodos). Hay herencia, etc, etc. Poca cosa que a un programador extrañe.

Sin embargo, sí hay conceptos, no de la sintaxis en sí, que llaman la atención y que hacen que programar correctamente pueda ser más complejo que en otros lenguajes.

El primero es que el contrato, una vez hecho, se sube a la blockchain. Esto cuesta dinero. Y la blockchain es inmutable, es decir, una vez subido nuestro código a la blockchain, si detectamos un bug, no podemos editarlo para corregirlo ni borrarlo para reemplazarlo por otro nuevo. No queda más remedio que corregirlo en nuestro fuente original, volver a subirlo pagando y tratar de eliminar todas las referencias al contrato antiguo en las aplicaciones públicas que tengamos. El código con errores sigue subido y «vivo» en la blockchain, público y accesible. Así que el proceso de depuración de nuestro código cobra especial importancia.

Sí, es cierto que otras aplicaciones como las de bancos o en las que haya vida de personas en juego también requieren una depuración y testeo muy exhaustivo del código antes de ponerlo en producción. Pero en estos casos, si el código está en producción y detectas un bug, puedes retirarlo y reemplazarlo por código nuevo con el bug corregido. En la blockchain no es posible. Tu código erróneo sigue vivo y accesible para que alguien malintencionado pueda explotar ese bug.

Y el segundo punto llamativo. Nuestros contratos trabajan con la blockchain y guardan datos en la misma. Acceder a esos datos es gratis, pero modificarlos a añadirlos cuesta dinero, las tasas de las transacciones. Y si nuestro código se lía a hacer transacciones, la llamada a una función o método puede ser cara. Y el lenguaje no te deja claro, al menos para un novato que empieza, qué variables están en la blockchain por lo que cambiar su valor implica coste.

Y pongo un ejemplo tonto, un array declarado en el contrato se guarda en la blockchain. Si eliminamos un elemento del array y desplazamos los siguientes una posición antes por aquello de no dejarlos huecos, cada escritura en el array cuesta dinero. Así que la forma correcta es copiar el array en un array en memoria, modificarlo totalmente en memoria y luego, de una sola transacción, meterlo en la blockchain.

Así que en eso ando entretenido estos días, aprendiendo algo de solidity. El curso que estoy siguiendo es de zombies y gatitos 🙂

Publicado en varios | Etiquetado , , , | Deja un comentario

Ficheros en python

Aunque ya había mirado como leer y escribir ficheros en python hace tiempo, con el tema del curso de python con el que estoy entretenido en la chuwiki, lo he estado revisando. Y ¿cómo no?, he encontrado un par de cosas que me han llamado la atención sólo porque son diferentes en java.

La primera es cómo saber si hemos llegado al final del fichero cuando hacemos un bucle para leerlo. En java, el método readLine() devuelve un null y hay que poner un if del estilo

while (null!=linea) {
   ...
}

En python, devuelve una cadena vacía. Esto es así porque el método readLine() de python devuelve los retornos de carro, así que una línea en blanco devolvería ‘\n’, mientras que en java devolvería una cadena vacía ». Y en python, para el bucle, tienes otra forma de hacerlo

while linea:
   ...

No hace falta compararlo con nada. Los condicionales de python son listos y si la cadena está vacía o es None, devuelve false. Aunque es diferente de java y me ha llamado la atención, este tipo de condicionales que dan false si la cadena está vacía o es None, no me ha llamado tanto la atención, puesto que javascript también funciona así.

Aquí sólo un apunte. En python me parece engorroso que al leer una línea me devuelva también el retorno de carro final. Java se lo come y no te lo devuelve. No sé qué es más útil, pero me da la impresión de que si la línea contiene campos que quieres extaer, estilo fichero CSV, el retorno de carro al final  vas a tener que eliminarlo con código.

Y lo segundo que me ha llamado mucho más la atención es que el descriptor de un fichero abierto de python es un iterator. Por lo que iterando sobre él vamos leyendo.  Podemos incluso meterlo en un bucle. En java, para leer un fichero hasta el final necesitamos algo tan engorroso coom esto

String linea = bufferedRead.readLine();
while (null!=linea) {
   // tratar la línea
   linea = bufferedReader.readLine();
}

es decir, dos lecturas, una antes de entrar en el bucle para tener la variable línea inicializada con la primera línea del fichero y luego, dentro del bucle, como última línea, otra lectura. Este tipo de estructuras siempre me ha parecido poco elegante por lo de hacer dos lecturas. Con un do-while tampoco podemos hacerlo con una lectura.

Sin embargo, en python, como el fichero abierto es un iterator, podemos hacer esto

f = open ('fichero.txt')
for linea in f:
   # Tratar la línea.

Mucho más claro. Funciona igual con ficheros de texto o binarios. Si lo abres como texto devuelve líneas, si lo tratas como binario devuelve bytes. Y ni siquiera hace falta la comparación para saber si hemos llegado a final de fichero.

Punto para python 🙂

ACTUALIZACION: Tras el comentario de GreenEyed, actualizo el post. No es necesario poner dos líneas de lectura en el código java «tradicional», basta con meterlo todo en el paréntesis del while

String line;
while ( (line = bufferedReader.readLine()) != null) {
   // tratar línea
}

y a partir de java 8 hay más opciones para leer el fichero como se ve en el enlace que pone en el comentario.

Publicado en java, python | Etiquetado , , | 2 comentarios

Anti spam en mediawiki

Desde hace mucho tengo en marcha una wiki de programación que es una instalación de mediawiki. La idea original, como toda wiki que se precie, es que la gente pudiera colaborar, añadiendo o corrigiendo artículos, comentando en la pestaña discusión, etc, etc.

Pero el spam empezó a hacer de las suyas. Tuve primero que obligar al registro de usuarios para poder crear/modificar y luego tuve incluso que quitar la posibilidad de auto-registrarse como usuario. Había diariamente, incluso a pesar de la obligación de registrarse como usuario, varias páginas de spam muevas. Y pasaba todos los días un rato borrando estas páginas.

Hace unos días decidí volver a meter mano a esto. Estaba bastante seguro que una herramienta como mediawiki tenía que tener mecanismos antispam. Y efectivamente, encontré esta guía de combate contra el spam. Esa guía comenta que hay un  montón de posibilidades y que se pueden poner más o menos todas, pero que se puede reducir drásticamente con solo tres o cuatro plugins.

Dicho y hecho, me entretuve instando esos plugins y configurándolos. Hasta ahora, un mes después, y con posibilidad de modificar sin necesidad de registrarse como usuario, cero spam. A ver si sigue así.

Los cuatro plugins son los siguientes:

  • StopForumSpam. Este plugin abre la posibilidad de descargarse una lista de IPs que habitualmente se usan para publicar spam en webs de terceros, como mi wiki. La lista se actualiza periódicamente, por lo que tienes que descargarla periódicamente. Pero en tu servidor web puedes automatizar este proceso con un script y despreocuparte.
  • ConfirmEdit. Se configura para que si un usuario no registrado modifica algo, tenga que rellenar un captcha antes de salvar las modificaciones. En mi caso puse preguntas a las que hay que dar una respuesta. Aquí tienes cómo hacer correctamente las preguntas antispam.
  • QuestyCaptcha, forma parte de ConfirmEdit. Permite que ConfirmEdit pueda hacer preguntas como las que he mencionado en el punto anterior y ante qué acciones concretas debe pedirlas (creación, edición, si se añaden URLs, etc).
  • wgDnsBlackListUrls no lo he configurado. Una lista negra de DNS que suelen usarse para spam. Hay también una base de datos con un listado de estas DNS.

Lo único de momento que no puede hacerse sin registrarse como usuario es la creación de páginas nuevas. Si se pueden modificar o discutir. Si veo que va bien todo esto, habilitaré esos permisos también.

Publicado en web | Etiquetado , , , | Deja un comentario