Een maand geleden wees ITchannelPRO op onderzoek door Greynoice over ongewenst verkeer naar websites van consumentennetwerken. Dat verschijnsel is inmiddels vaker gesignaleerd, onder andere door Bert Hubert.
Op basis van een handvol meldingen, zoals bovengenoemde, kan het probleem van hoge bezoekersaantallen aan websites worden verklaard. Veel bezoekers aan een website, dat is waar iedere marketeer en website uitbater heel erg blij van moet worden.
Het verhaal is anders als die bezoekers alleen langskomen om overlast te veroorzaken. Firewalls en andere maatregelen zijn goed in staat die mogelijke hinder te voorkomen. Wie dat soort filtering toepast zou betrekkelijk “schoon” verkeer moeten overhouden. Dus mensen die gericht de website bezoeken of zoekmachines die voor indexering zorgen.
Helaas gaat die vlieger al enige tijd niet meer op. Iedereen die de logs van zijn website bestudeerd zal op enige moment een patroon waarnemen dat door Hubert en anderen beschreven. De karakteristieken daarvan een extreem brede spreiding van de herkomstlanden van IP blokken die langskomen. De blokken zijn bijna zonder uitzondering in gebruik bij consumentenproviders. Elke bezoeker komt in de regel een keer langs en “bekijkt” een pagina.
Scrapen
Wat hier achter schuil gaat is niet anders dan een wereldwijde operatie om alles dat online staat te scrapen. Dat dient maar een doel en dat is het trainen van AI. Met andere woorden wat we zien is een zoveelste massale schending van auteursrechten en diefstal van materiaal.
De zoektocht naar de daders is betrekkelijk makkelijk. Nagenoeg elke actie wordt namelijk mede mogelijk gemaakt door IP reeksen die in China in gebruik zijn. De reeksen uit landen als Brazilië, Indonesië en India die vaak voorkomen zijn deelt te traceren naar actors in China. Niet uitgesloten is dat de operatie door “AI ondernemers” buiten China is gekloond.
Proxyservices of Botnet
Technisch is het geen moeilijke operatie. Al die miljoenen IP adressen duiden op grote proxyservices en die zijn in de regel zonder toestemming van de gebruikers van de aansluitingen actief.
De realiteit is er in ieder geval een dat een botnet niet langer gelijk staat aan een manier om malware te verspreiden. De tweede identiteit heeft een andere naam en de overlast lijkt op het eerste gezicht minder bedriegend.
Maar meer dan ooit is het zaak goed na te denken welke informatie over je bedrijf, klanten en medewerkers online mag staan. Wat eenmaal in een AI model is gestopt krijgt je er nooit meer uit. Om die reden is het ook hard nodig andere criteria aan te houden voor wie je websites toegankelijk mag zijn.