Stichting Brein actie wake-up call voor iedereen die iets met AI doet

De werkzaamheden van Stichting Brein hebben in de regel weinig raakvlakken met de business van de ITchannelPRO lezers. De melding van dinsdag dat een grote Nederlandstalige dataset voor het trainen van AI modellen offline is gehaald heeft echter wel een raakvlak.

Volgens het persbericht dat Brein heeft verspreid leidde een tip naar een dataset met “illegale kopieën van tienduizenden boeken, miljoenen regels uit nieuwsartikelen van websites zoals nu.nl en ondertitels van talloze films en tv-series uit illegale bron”.

Op boeken, films en muziek zit (o.a.) auteursrecht. Op de berichten van websites zoals NU.nl, maar ook die van ITchannelPRO zit dat ook. Zonder toestemming van de personen of bedrijven die dat auteursrecht hebben is het niet toegestaan delen van die content te gebruiken.

Dat volgens sommigen voor AI totaal andere regels gelden en dat auteursrecht achterhaald is, weerhoudt Brein niet tegen schendingen op te treden. Juridisch heeft Brein in dit geval weer een ijzersterke positie en de critici niet.

Voor de doorsnee IT resellers lijkt dit wellicht een boodschap die hen weinig raakt. Dat misverstand moet snel de wereld uit geholpen worden. Wie voor de eigen business of in opdracht van klanten bezig is het AI en daarvoor geluiden, beelden en teksten nodig heeft zal gebruik gaan maken van datasets.

Chatbot

De kwaliteit van de datasets is sowieso al een lastig punt, maar wat is er bekend over de inhoud. Amper een week geleden trok de Autoriteit Persoonsgegevens al aan de bel omdat er vertrouwelijke en gevoelige persoonsgegevens via chatbots worden gelekt naar dit soort dataset. Gebruikers denken gewoon niet na bij wat ze doen.

Illegale bron

Het omgekeerde, dat is waar de Brein actie op wijst, komt ook voor. Men gebruikt maar wat datasets zonder uit te zoeken of dat überhaupt wel legaal is. Als een bron illegaal materiaal bevat dan is het gebruik daarvan op z’n zachtst gezegd onverstandig. De gebruikers van de oplossing die op illegale data is gebaseerd kunnen zich niet verschuilen achter de leverancier. Dus zoek goed uit wat de herkomst en status is van datasets.

Sommaties van Brein zijn niet leuk, de schade die ontstaat als een klant die ontvangt en daarmee bij zijn AI leverancier aanklopt zijn dat al helemaal niet..

Mobiele versie afsluiten