Potser considera una "zip bomb" per als crawlers, via mod_rewrite o a nginx: un arxiu de ~7 kb que s'expandeix a uns 10 GB. Per aturar-los.
-
-
@spla Està bé , però penso que no hi ha gaire a fer. Aquests escrapetjos es fan a diari amb OSINT. Ja sabíem que estem en una xarxa de fonts obertes, i tot i que es pugui minimitzar, aconseguiran moltes dades.
-
@Caelumtangi @spla estic amb la Sara: gràcies per la feina!
I, ja posats, no sé si l'html bomb que diu en @Rierol pot funcionar... -
@moribundo aquesta opció funciona:
spla (@spla@mastodont.cat)
Adjunt: 2 imatges Bon dia! en relació a això: https://mastodont.cat/@spla/115000794647508332 i veient que hi ha robots que no respecten robots.txt, he pujat un esglaó en la guerra contra els bots IA o bots en general que obtenen continguts sense permís. He modificat la configuració de nginx per a que tots els bots que hi he afegit no rebin res de mastodont.cat gràcies al codi http 444 que els hi retorna aquesta configuració. Per exemple, Amazonbot no para de demanar enllaços, ara no rebrà res més que el que es veu en la segona imatge.
mastodont.cat, cultura catalana. (mastodont.cat)
-
@Rierol aquesta opció funciona:
spla (@spla@mastodont.cat)
Adjunt: 2 imatges Bon dia! en relació a això: https://mastodont.cat/@spla/115000794647508332 i veient que hi ha robots que no respecten robots.txt, he pujat un esglaó en la guerra contra els bots IA o bots en general que obtenen continguts sense permís. He modificat la configuració de nginx per a que tots els bots que hi he afegit no rebin res de mastodont.cat gràcies al codi http 444 que els hi retorna aquesta configuració. Per exemple, Amazonbot no para de demanar enllaços, ara no rebrà res més que el que es veu en la segona imatge.
mastodont.cat, cultura catalana. (mastodont.cat)
-
@spla però es una bogeria. Passarà com YT i el bloqueig dels anuncis, una carrera de fer i desfer, d'estar atent tots els dies a bots nous o formes diferents de fer-ho, perquè aquesta gentussa està disposada a lo que sigui per tal de que la seva IA sigui la millor.
Les IAs son molt disruptives i penso que hi ha d'haver-hi un canvi de concepte global i no només fer pegats.
Pero fins que aquest moment arribi, suposo que si, que s'ha de fer l'imposible -
@moribundo sí, poden canviar de user-agent si és que no ho estan fent ja ara o fer altres bots nous...és una bogeria 😅
Retornar-lis un 444 no els hi dona pistes, només veuen que la connexió s'ha tallat. -
@Caelumtangi de res! 😃
-
@mgc de res! 😃 @Caelumtangi @Rierol
-
@spla gràcies. L'aprofitaré pel meu servidor
-
@robertgarrigos de res! no és segur que respectin robots.txt, per exemple, Amazonbot no ho fa.
Aquesta configuració per nginx els hi posa més difícil:spla (@spla@mastodont.cat)
La configuració de nginx per a lluitar contra els bots d'IA i altres "scrappers", l'he obtingut d'aquí: https://github.com/kurren/ai-bots-crawlers #mastoadmin
mastodont.cat, cultura catalana. (mastodont.cat)