Piano.cat
    • Categories
    • Recent
    • Tags
    • Popular
    • World
    • Users
    • Groups
    • Register
    • Login
    1. Principal
    2. Uncategorized
    3. Bé, dissabte nit fent hores extres.
    This topic has been deleted. Only users with topic management privileges can see it.
    • rierol@mastodont.catR rierol@mastodont.cat

      Bé, dissabte nit fent hores extres.

      rierol@mastodont.catR rierol@mastodont.cat

      @spla

      Potser considera una "zip bomb" per als crawlers, via mod_rewrite o a nginx: un arxiu de ~7 kb que s'expandeix a uns 10 GB. Per aturar-los.

        0
        Offline rierol@mastodont.cat •
        , last edited by
      • moribundo@hispagatos.spaceM moribundo@hispagatos.space
        moribundo@hispagatos.spaceM moribundo@hispagatos.space

        @spla Està bé , però penso que no hi ha gaire a fer. Aquests escrapetjos es fan a diari amb OSINT. Ja sabíem que estem en una xarxa de fonts obertes, i tot i que es pugui minimitzar, aconseguiran moltes dades.

          0
          Offline moribundo@hispagatos.space •
          , last edited by
        • mgc@mastodont.catM mgc@mastodont.cat
          mgc@mastodont.catM mgc@mastodont.cat

          @Caelumtangi @spla estic amb la Sara: gràcies per la feina!
          I, ja posats, no sé si l'html bomb que diu en @Rierol pot funcionar...

            0
            Offline mgc@mastodont.cat •
            , last edited by
          • spla@mastodont.catS spla@mastodont.cat
            spla@mastodont.catS spla@mastodont.cat

            @moribundo aquesta opció funciona:

            Link Preview Image
            spla (@spla@mastodont.cat)

            Adjunt: 2 imatges Bon dia! en relació a això: https://mastodont.cat/@spla/115000794647508332 i veient que hi ha robots que no respecten robots.txt, he pujat un esglaó en la guerra contra els bots IA o bots en general que obtenen continguts sense permís. He modificat la configuració de nginx per a que tots els bots que hi he afegit no rebin res de mastodont.cat gràcies al codi http 444 que els hi retorna aquesta configuració. Per exemple, Amazonbot no para de demanar enllaços, ara no rebrà res més que el que es veu en la segona imatge.

            favicon

            mastodont.cat, cultura catalana. (mastodont.cat)

              0
              Offline spla@mastodont.cat •
              , last edited by
            • spla@mastodont.catS spla@mastodont.cat
              spla@mastodont.catS spla@mastodont.cat

              @Rierol aquesta opció funciona:

              Link Preview Image
              spla (@spla@mastodont.cat)

              Adjunt: 2 imatges Bon dia! en relació a això: https://mastodont.cat/@spla/115000794647508332 i veient que hi ha robots que no respecten robots.txt, he pujat un esglaó en la guerra contra els bots IA o bots en general que obtenen continguts sense permís. He modificat la configuració de nginx per a que tots els bots que hi he afegit no rebin res de mastodont.cat gràcies al codi http 444 que els hi retorna aquesta configuració. Per exemple, Amazonbot no para de demanar enllaços, ara no rebrà res més que el que es veu en la segona imatge.

              favicon

              mastodont.cat, cultura catalana. (mastodont.cat)

                0
                Offline spla@mastodont.cat •
                , last edited by
              • moribundo@hispagatos.spaceM moribundo@hispagatos.space
                moribundo@hispagatos.spaceM moribundo@hispagatos.space

                @spla però es una bogeria. Passarà com YT i el bloqueig dels anuncis, una carrera de fer i desfer, d'estar atent tots els dies a bots nous o formes diferents de fer-ho, perquè aquesta gentussa està disposada a lo que sigui per tal de que la seva IA sigui la millor.
                Les IAs son molt disruptives i penso que hi ha d'haver-hi un canvi de concepte global i no només fer pegats.
                Pero fins que aquest moment arribi, suposo que si, que s'ha de fer l'imposible

                  0
                  Offline moribundo@hispagatos.space •
                  , last edited by
                • spla@mastodont.catS spla@mastodont.cat
                  spla@mastodont.catS spla@mastodont.cat

                  @moribundo sí, poden canviar de user-agent si és que no ho estan fent ja ara o fer altres bots nous...és una bogeria 😅
                  Retornar-lis un 444 no els hi dona pistes, només veuen que la connexió s'ha tallat.

                    0
                    Offline spla@mastodont.cat •
                    , last edited by spla@mastodont.cat
                  • spla@mastodont.catS spla@mastodont.cat
                    spla@mastodont.catS spla@mastodont.cat

                    @Caelumtangi de res! 😃

                      0
                      Offline spla@mastodont.cat •
                      , last edited by
                    • spla@mastodont.catS spla@mastodont.cat
                      spla@mastodont.catS spla@mastodont.cat

                      @mgc de res! 😃 @Caelumtangi @Rierol

                        0
                        Offline spla@mastodont.cat •
                        , last edited by
                      • robertgarrigos@mastodont.catR robertgarrigos@mastodont.cat
                        robertgarrigos@mastodont.catR robertgarrigos@mastodont.cat

                        @spla gràcies. L'aprofitaré pel meu servidor

                          0
                          Offline robertgarrigos@mastodont.cat •
                          , last edited by
                        • spla@mastodont.catS spla@mastodont.cat
                          spla@mastodont.catS spla@mastodont.cat

                          @robertgarrigos de res! no és segur que respectin robots.txt, per exemple, Amazonbot no ho fa.
                          Aquesta configuració per nginx els hi posa més difícil:

                          spla (@spla@mastodont.cat)

                          La configuració de nginx per a lluitar contra els bots d'IA i altres "scrappers", l'he obtingut d'aquí: https://github.com/kurren/ai-bots-crawlers #mastoadmin

                          favicon

                          mastodont.cat, cultura catalana. (mastodont.cat)

                            0
                            Offline spla@mastodont.cat •
                            , last edited by
                          Loading More Posts
                          • Oldest to Newest
                          • Newest to Oldest
                          • Most Votes
                          Reply
                          • Reply as topic
                          Log in to reply
                          • First post
                            Last post