Blogs Oficiales
An avalanche of AI bots is repeatedly taking parts of our website down
We have always had bots visiting our website. They were mostly kind bots, like the crawlers that keep the databases of search engines up-to-date. Those kind bots start by looking at our robots.txt files before doing anything, and respect the restrictions that are set in those files.
However, things have changed. Like other websites, for instance Wikipedia, we are more and more being visited by AI scrapers, bots that scrape the Internet for anything they can find to train AI applications. They are usually extremely hungry for information, so they download much, much more than an ordinary user would do. Moreover, many of them are impolite: they don’t respect the rules set in our robots.txt files, they hide who they really are, they don’t put a little pause in between requests – on the contrary, they hammer our servers with requests from lots and lots of different IP addresses at the same time. The result is that parts of mageia.org, like our Bugzilla, Wiki and Forums, become unreachable.
Below you can see the CPU load of one of our most important servers, where, amongst other things, our forums and wiki are located:
Even if our infra upgrade had already been finished, this would be really hard to mitigate.
Blocking the used IP addresses is useless because they constantly switch to new ones. One of our sysadmins just told me about a big issue: “mobile proxies” where bots proxy their request through unsuspecting users’ phones. That makes the requests look much more legitimate and hard to block without also blocking real users. A lot of that happens without users even knowing their phone is being used like this. Some applications include proxies along with some game or other app and hide it in fine print in the terms of service. Last year, it was reported that Google had removed a bunch of such applications from their store.
Apart from phones, there are IoT devices and also ordinary computers that ended up in botnets, because they were not well protected. They can be used for AI scraping and probably are now.
Our sysadmins do time and again succeed in mitigating the problem, but it is a “cat and mouse game”, so the problem is likely to reoccur.
If you know people working on AI applications which need to be trained, please ask them to make sure their bots read and respect the robots.txt files they encounter. And, of course, please nudge your friends and family, when you think they need that, to make sure their computers and other smart devices get all security updates as soon as they are released.
Nuestros sitios están intermitentemente fuera de servicio por una avalancha de robots IA
Siempre hemos tenido visitas de robots en nuestros sitios. Normalmente, son inofensivos, como los rastreadores, que mantienen actualizados los motores de búsqueda. Esos robots comienzan por revisar nuestros archivos robots.txt, antes de hacer nada y respetan las restricciones contenidas en esos archivos.
Pero las cosas han cambiado, al igual que otros sitios, hemos sido visitados cada vez más frecuentemente por escarbadores IA, robots que indagan en el internet por cualquier cosa que puedan encontrar para entrenar aplicaciones IA. Estos son extremadamente hambrientos de información, así que descargan mucho más de lo que cualquier usuario podría hacer. Peor aún, muchos de ellos son mal educados y no respetan las reglas de nuestros archivos robots.txt, esconden su identidad, y no hacen pausas entre peticiones – al contrario, golpean nuestros servidores con peticiones desde montones de direcciones IP diferentes al mismo tiempo. Como resultado, partes de mageia.org, como Bugzilla, Wiki y Foros, se hacen inaccesibles.
A continuación, pueden ver la carga de la CPU de uno de nuestros servidores más importantes, donde se encuentran, entre otros, nuestros foros y wiki:
Incluso si nuestra actualización de infraestructura ya hubiera terminado, esto sería realmente difícil de mitigar.
Bloquear las direcciones IP es inútil, ya que constantemente están cambiando por otras. Uno de nuestros administradores apunta a un gran problema: “proxis móviles”, los robots dirigen sus peticiones desde teléfonos sin que los usuarios sospechen. Esto hace que las peticiones parezcan legítimas y las hace difíciles de bloquear sin bloquear al usuario real. Mucho de esto pasa sin que los usuarios sepan que sus teléfonos son usados de esta forma, algunos proxis son incluidos en juegos u otras aplicaciones y lo ocultan en las letras pequeñas de los términos de servicio. El año anterior, se reportó que Google elimino montones de este tipo de aplicaciones de su tienda.
Además de los teléfonos, están todos esos dispositivos IoT y computadoras que terminan formando parte de botnets, debido a su mala protección. Ahora quizas esten siendo utilizados por escarbadores IA.
Nuestros administradores de sistemas tienen éxito en mitigar el problema , pero es el «juego del gato y el ratón», así que es un problema recurrente.
Si conocen a personas que estén trabajando en entrenar aplicaciones IA, por favor pídales que se aseguren de que sus robots lean y respeten los archivos robots.txt que encuentren.
Y desde luego, cuando crea necesario, incentive a sus amigos y familiares a asegurarse de que sus computadoras y otros dispositivos inteligentes tengan todas las actualizaciones de seguridad tan pronto como se publiquen.
Traducido por katnatek de la publicación original de marja
Our equipment is getting a makeover!
To do a good job, we need good tools. Some of our servers are old, no longer powerful enough and have limited disk resources to meet the needs of developers. RPM manufacturing takes a long time and this is detrimental to the efficiency of maintaining and evolving the distribution. In short, the machines are well depreciated.
This is why our infrastructure is first getting a makeover. Better adapted to new technologies, it will allow our developers to work faster and more efficiently.
So where is this new infrastructure?
We received 5 new servers:
– 2 new nodes for building packages: HPE ProLiant DL 360 Gen10 – 2xXeon 6126 (12C/2.6GHz) –
256GB RAM – 2xSSD 3.8TB HW Raid 1 – 2x10Gb/s NICs
– 2 servers to replace sucuk and duvel: HPE ProLiant DL 380 Gen10 – 2 Xeon 6126 (12C/2.6GHz) –
256GB RAM – 2xSSD 3.8TB HW Raid 1 – 10xHDD 12TB HW Raid 5 – 2x10Gb/s NICs
– 1 server for deployment and backup: HPE ProLiant DL80 Gen9 – 2xXeon E5-2603v4
(6C/1.7GHz) – 256GB RAM – 6xHDD 6TB (donated, with some renewed parts)
– 1 Arista 7120T switch 20xRJ-45 10Gb/s 4xSFP+ 10Gb/s for interconnecting the machines
One of the ideas is to use the latest server to deploy quickly and as automatically as possible the construction nodes and other machines. The method is ready for x86_64 nodes and is being finalized for ARM nodes. The preparation of the servers takes time because the teams anticipate the future and future developments.
Once the preparation part of our servers is finished, the integration part into the Data Center will remain.
We are therefore taking our time to do things well in order to perpetuate the future and future versions of Mageia.
In the meantime, the future version 10 of Mageia continues to bubble in its cauldron! But we are not ready yet to plan a release date for the moment.
Feel free to come and strengthen our teams.
Nuestros equipos se renuevan!
Para hacer un buen trabajo, necesitamos buenas herramientas. Algunos de nuestros servidores son viejos, ya no son lo bastante potentes y tienen recursos de disco limitados para satisfacer las necesidades de los desarrolladores. Se tarda mucho en producir los RPM, lo que va en detrimento de la eficacia del mantenimiento y la actualización de la distribución. En resumen, las máquinas están bien amortizadas.
Es por eso que nuestra infraestructura está recibiendo un lavado de cara. Más adaptada a las nuevas tecnologías, permitirá a nuestros desarrolladores trabajar de forma más rápida y eficaz. ¿Cuál es el estado de esta nueva infraestructura? Hemos recibido 5 nuevos servidores:
· 2 nuevos nodos de construcción de paquetes: HPE ProLiant DL 360 Gen10 – 2xXeon 6126 (12C/2.6GHz) – 256GB RAM – 2xSSD 3.8TB HW Raid 1 – 2x10Gb/s NICs.
· 2 servidores para reemplazar sucuk y duvel: HPE ProLiant DL 380 Gen10 – 2 Xeon 6126 (12C/2.6GHz) – 256GB RAM – 2xSSD 3.8TB HW Raid 1 – 10xHDD 12TB HW Raid 5 – 2x10Gb/s NICs.
· 1 servidor de despliegue y copia de seguridad: HPE ProLiant DL80 Gen9 – 2xXeon E5-2603v4 (6C/1.7GHz) – 256GB RAM – 6xHDD 6TB (una donación, con algunas partes renovadas)
· 1 switch Arista 7120T 20xRJ-45 10Gb/s 4xSFP+ 10Gb/s para interconectar las máquinas.
El plan es utilizar el último servidor para desplegar los nodos de construcción y el resto de máquinas de forma rápida y lo más automática posible. El método está listo para los nodos x86_64 y se está ultimando para los nodos ARM (servidores remotos). La preparación de los servidores lleva su tiempo, ya que nuestros equipos se anticipan al futuro y a los futuros desarrollos.
Una vez finalizada la preparación de nuestros servidores, el siguiente paso será integrarlos en el Centro de Datos. Por lo tanto, nos estamos tomando nuestro tiempo para hacer las cosas bien y poder asegurar el futuro y las futuras versiones de Mageia. Por el momento, no publicamos una fecha de lanzamiento provisional para Mageia 10.
Mientras tanto, ¡la futura versión 10 de Mageia sigue burbujeando en su caldero!
No dudes en unirte a nuestros equipos.
