Spider Crawling AI

Thema 4: Data Scraping en AI-plagiaat

Doelgroep: MBO niveau 4 – eerstejaars studenten.

Periode 2, Thema 4 voor Security, Privacy en Ethiek

Is het ethisch verantwoord om zomaar te AI-code te gebruiken. Wat leer je als student wanneer je AI gebuikt?

AI-tools zoals GitHub Copilot, ChatGPT en andere AI-tools worden steeds vaker gebruikt in het programmeeronderwijs en de praktijk. Maar waar komt deze code eigenlijk vandaan?

AI-modellen zijn getraind op miljarden regels code welke vaak afkomstig zijn van publieke repositories zoals GitHub. Wat als jouw code zonder dat jij het weet ooit in zo’n model wordt verwerkt? Of andersom; wat als jouw AI gegenereerde code stiekem het werk van iemand anders is?

Kernvraagstuk

Wie is de auteur als je AI gebruikt om code te genereren? En is het eerlijk tegenover andere ontwikkelaars als AI ‘geleend’ heeft uit hun werk voor jou?

Onderwerpen

  • Wat is data scraping?
  • Wat zijn de risico’s van AI-plagiaat in code?
  • Licenties op code (MIT, GPL, enz.): wat mag je gebruiken en hoe?
  • De ethische kant: transparantie, credits geven en vertrouwen in softwareontwikkeling.

Wat is datascraping?

Datascraping is een techniek waarbij een programma automatisch informatie van websites afhaalt. Dit gebeurt meestal met een script of bot die door webpagina’s bladert en daar gegevens “afschraapt” zoals teksten, afbeeldingen of tabellen. Zo kan AI bijvoorbeeld ook gigantische hoeveelheden data scrapen om vervolgens weer in een soort van data-model te zetten en hiervan te leren.

Voorbeelden van legitiem gebruik: prijzen vergelijken (zoals bij Skyscanner), productinformatie verzamelen, vacatures overnemen van meerdere sites.

Risico’s: Sommige bedrijven gebruiken scraping om gegevens te stelen of zonder toestemming op te slaan. Denk aan AI-bedrijven die code of teksten van websites verzamelen zonder dat de maker ervan weet.

Wat zijn de legale en ethische vraagstukken rond scraping:

Ik heb een interessante video gevonden die de het legale en ethische stuk uitlegt op een catchy manier die niet saai is, maar wel straight to the point en verteld waarom dit zo’n groot vraagstuk is. En bestaat er eigenlijk wel een straf voor als iemand zonder toestemming loopt te ‘scrapen’.

Let wel dat de CFAA-wet (Computer Fraud and Abuse Act) die in de video wordt genoemd een Amerikaanse wet is. De CFAA is breder en ouder, maar Nederland heeft wel degelijk soortgelijke bepalingen. De nadruk ligt ook hier op computervredebreuk, manipulatie of vernietiging van gegevens en het afluisteren of onderscheppen van communicatie.

Belangrijke Nederlandse wetsartikelen die vergelijkbaar zijn met de CFAA:
Artikel 138ab Sr – Computervredebreuk (hacken)
Artikel 350a Sr – Gegevensvernieling of wijziging
Artikel 139c Sr – Afluisteren van communicatie
Wet computercriminaliteit (o.a. Computercriminaliteit II)

Bronnen:
https://www.om.nl/onderwerpen/cybercrime/hack_right/wetsartikel-computervredebreuk
https://wetten.overheid.nl/BWBR0001854/2025-01-01
https://www.rijksoverheid.nl/onderwerpen/cybercrime-en-cybersecurity/cybercriminaliteit-bestrijden

Rechtszaken & actualiteit

In het filmpje worden een paar rechtzaken genoemd. Dit ging om bedrijven die zelf aan het scrapen waren met hun eigen tools. Deze tools kunnen natuurlijk ook AI zijn geweest. AI-tools waar jullie zelf inmiddels bekend mee zijn geworden zijn bijvoorbeeld OpenAI en GitHub Copilot. Ook zij zijn in het recente verleden aangeklaagd vanwege hun handelen en dit riep vragen op over de ethiek die erbij hoort. Hierover hieronder meer:

Juridische actualiteit: grote rechtszaken tegen OpenAI en GitHub Copilot.

Bron: BusinessInsider NL – https://www.businessinsider.nl

OpenAI onder vuur. Steeds meer bedrijven en makers klagen OpenAI aan. De reden is dat OpenAI gigantische hoeveelheden tekst en code gebruikt om hun AI-modellen zoals ChatGPT te trainen. Maar veel van die data is eigenlijk auteursrechtelijk beschermd.

Zo zeggen ontwikkelaars dat hun code is gebruikt zonder toestemming. Ook schrijvers en artiesten vinden dat hun werk is gekopieerd door AI-systemen. Ze willen dat bedrijven zoals OpenAI betalen of stoppen met het zomaar gebruiken van hun werk.

Het gaat over ethiek, privacy en het auteursrecht in de digitale wereld.

Nog een voorbeeld van een rechtzaak:

Bron: Saveri Law Firm – saverilawfirm.com

GitHub Copilot is al onderwerp van een class-action lawsuit in de VS. In Amerika is een groep programmeurs een rechtszaak begonnen tegen GitHub, Microsoft en OpenAI. Waarom? Omdat hun AI-tool “Copilot” misschien code van anderen heeft gebruikt zonder toestemming. Dit kan voor jou als student qua onderwerp natuurlijk hartstikke interessant zijn, want we gaan ook in de opleiding Software Development steeds meer gebruik maken van git en dus wellicht ook GitHub of GitLab. Het is dus goed om te weten hoe GitLab hierin staat.

Wat is GitHub Copilot?
Copilot is een slimme assistent die automatisch code schrijft terwijl jij typt. Klinkt handig, toch? Maar Copilot is getraind op heel veel open-source code van internet en sommige programmeurs zeggen: “Dat is mijn werk!”

Wat is het probleem?

Copilot zou stukken code letterlijk overnemen.

De naam van de maker en de licentie worden weggelaten.

Dat mag niet volgens de regels van open-source licenties (zoals MIT of GPL).

Waarom is dit belangrijk voor jou als student en software ontwikkelaar?

Voor softwareontwikkelaars roept dit een belangrijke vraag op: mag je zomaar open data gebruiken om AI te trainen? En van wie is de gegenereerde output eigenlijk? Als jij code online zet wil je misschien ook dat anderen netjes jouw naam erbij zetten.

Je leert hier over privacy, ethiek, auteursrecht en licenties: dat zijn geen onzinregeltjes, maar bescherming voor jouw werk. Het roept de vraag op: mag een AI zomaar leren van jouw code en het opnieuw gebruiken?

  • Wees bewust van waar jouw code vandaan komt.
  • Als je iets gebruikt: check de licentie en geef credits.
  • Denk na over ethiek: niet alleen wat mag, maar ook wat eerlijk is.

Je werkt misschien nog niet met AI in je eigen code, maar dit onderwerp zou je dus wel bezig moeten houden. Steeds meer studenten en ontwikkelaars gebruiken namelijk tools zoals GitHub Copilot om sneller te programmeren. Dat is natuurlijk superhandig, maar heeft ook risico’s als je niet weet waar die code vandaan komt.

Praktische tips

Bescherm je eigen werk. Zet een licentie op jouw eigen code met bijvoorbeeld een MIT- of GPL-licentie, zodat anderen weten wat ze ermee mogen doen.

Gebruik AI bewust. Bekijk altijd de code die een AI voorstelt. Plak het niet zomaar in je project. Zorg er voor dat je begrijpt wat er staat.

Leer goede programmeergewoontes. Het is verleidelijk om AI alles te laten doen, maar je leert het meeste door zelf na te denken over de oplossing.

Check op licenties. Als je open source code gebruikt, kijk dan of je die mag gebruiken én aanpassen.

Wat zijn softwarelicenties?

Een licentie bepaalt wat jij (of anderen) mag doen met code die iemand anders heeft geschreven.

Wanneer je open source code gebruikt zit daar bijna altijd een licentie bij. Die vertelt of je de code mag:

  • Gebruiken
  • Aanpassen
  • Delen
  • Verkopen

Veel voorkomende licenties in het kort:

LicentieWat mag je ermee doen?Let op!
MITAlles mag, zolang je de oorspronkelijke maker noemtSupervrij. Alleen even een regeltje tekst erbij zetten
GPLJe mag het gebruiken en aanpassen, maar je moet je eigen code ook openzetten onder dezelfde GPL-licentieJe mag geen gesloten/commerciële software maken met GPL-code
Apache 2.0Je mag het gebruiken, aanpassen en zelfs verkopenWel de originele licentie erbij zetten
Proprietary (eigen gesloten licentie)Je mag het niet zomaar gebruiken of aanpassenVaak alleen met toestemming of betaling

Bron: https://choosealicense.com/

Waarom is dit belangrijk?

Als je werkt aan een project (bijvoorbeeld op school of in stage) en je gebruikt code van GitHub of een AI-tool zoals GitHub Copilot dan moet je weten of dat mag. Gebruik je per ongeluk GPL-code in een commerciële game? Dan kun je in de problemen komen als je de broncode niet openzet.

Wat je moet onthouden

  • Altijd kijken welke licentie erbij staat
  • Respecteer de regels van de maker
  • Vraag hulp als je het niet zeker weet

Zelf vind ik https://choosealicense.com/ een hele goede site om te controleren wat een licentie nou eigenlijk betekent en wat het juridisch gezien qua inhoud nodig heeft. Er staat bij hoe je het toepast en waar het voor dient. Zeker het checken waard!

Privacy-vraagstukken

Wat betreft het onderwerp privacy kun je jezelf de volgende vragen stellen. Wat is jouw mening?

  • ‘ Scrapen’ van publieke repositories is niet gelijk aan het geven van toestemming.
  • Kunnen gebruikers nog verwachten dat hun code niet wordt hergebruikt?
  • Wat als gevoelige data per ongeluk wordt opgenomen?

Ethische dilemma’s

Ook ethiek heeft te maken met de onderwerpen die ik in dit artikel benoem. Denk maar eens na over de volgende dilemma’s:

  • Mag je zomaar data van een website kopiëren?
  • Hoe zit het met auteursrechten of gebruikersdata?
  • Hoe weet je of iets “ethisch” verantwoord is?
  • Is gegenereerde code plagiaat als het sterk lijkt op de trainingsdata?
  • Kan iemand aansprakelijk zijn voor fouten of bugs in AI-code?
  • Moet een AI de bron vermelden?
  • Zou jij het eerlijk vinden als iemand met Copilot een project haalt waarvoor jij alles zelf moest uitzoeken? Waar ligt dan de grens tussen slim gebruik maken van tools en ‘valsspelen’?

Door hierover na te denken ontwikkel je niet alleen je technische skills, maar ook je ethische en professionele houding als toekomstig developer. En dat is mooi en werkt alleen maar in je voordeel: een professionele werkhouding is iets dat in het kwalificatiedossier opgenomen voor de opleiding Software Development. Door jezelf dit soort vragen te stellen wordt je bewuster en dus professioneler in je handelen en houdt je ook rekening met anderen.

Stelling / discussie:

Als je niet zo goed weet wat je er van vindt kun je ook zinnen noemen (stellingen) die wellicht iets in je triggeren. Vaak voel je wel of je het er wel of niet mee eens bent. Als je zoiets voelt is het interessant om te gaan onderzoeken voor jezelf en bij je zelf wat er voor zorgt dat je je er zo bij voelt.

Een paar interessante stellingen die je kunt opgooien zijn bijvoorbeeld:

  • “AI die code genereert op basis van open source-projecten moet verplicht zijn bronvermelding toe te voegen.”
  • “Een AI-model dat code genereert is niet creatief, maar een geavanceerde vorm van kopiëren.”
  • “Jij gebruikt Copilot en er wordt een stuk code geschreven dat bijna letterlijk overeenkomt met code van Stack Overflow. Moet jij dan de bron vermelden?”

Reflectie / jouw eigen mening:

Wat vind jij als student en toekomstige software ontwikkelaar van deze ontwikkelingen?

Wat zou jij voorstellen als mogelijke oplossingen of richtlijnen?

Mijn visie als docent

Ik merk dat AI steeds vaker een plek krijgt in het werk van een software developer. Dat snap ik ook heel goed: tools zoals GitHub Copilot of ChatGPT kunnen helpen om sneller code te schrijven of om even te helpen om bugs op te lossen waar je bij bent vastgelopen. Maar er zit natuurlijk als student ook een risico aan: als je AI gebruikt zonder de basisprincipes van programmeren goed te snappen dan leer je minder. Dan lijkt het alsof je iets begrijpt, maar kun je het niet echt zelf uitleggen of namaken. En dat is iets waar we met examens wel goed op doorvragen.

Ik vind dat we AI-gebruik niet moeten verbieden. Het is een tool van de toekomst die je waarschijnlijk steeds meer gaat zien en gebruiken in het werkveld en dus ook op school. Maar op school moeten we dan wel goed nadenken over hoe er nog geleerd gaat worden. En hoe weet je of de code die je terugkrijgt ook klopt? Wanneer kun je AI gebruiken zonder dat het eigenlijk gewoon ‘afkijken’ wordt? Wat betekent dit voor de projecten die jij in jaar 1 maakt? Hoe weet je of je echt iets leert als AI de code voor je schrijft?

Ik vind het belangrijk dat studenten leren hoe ze AI slim en verantwoord inzetten. En ik wil ze daar ook zeker wel bij helpen. De insteek moet zijn dat we het er met zijn allen over hebben en als iets onduidelijk is dat we dat dan samen gaan uitzoeken. Want ook voor mij is dit een leerproces. Ik heb zelf nog niet alle antwoorden omtrent het gebruik van AI in onderwijs zowel voor docenten als ook studenten.

Lesstof ontwikkelen als docent met AI om vervolgens te worden opgelost door de student met AI voelt ook een beetje doelloos, maar de vraag blijft dan: hoe gaan we er dan wel correct mee om?

Bronnen

Saveri Law Firm. (z.d.). GitHub and Copilot Intellectual Property Litigation. Geraadpleegd op 26 maart 2025, van https://www.saverilawfirm.com/our-cases/github-copilot-intellectual-property-litigation

Canales, K. (2024, 24 december). The copyright lawsuits against OpenAI are piling up as the tech company seeks data to train its AI. Business Insider. Geraadpleegd op 26 maart 2025, van https://www.businessinsider.nl/the-copyright-lawsuits-against-openai-are-piling-up-as-the-tech-company-seeks-data-to-train-its-ai/

Choose a License. (z.d.). Choose an open source license. GitHub. Geraadpleegd op 28 maart 2025, van https://choosealicense.com/

Openbaar Ministerie. (z.d.). Wetsartikel computervredebreuk. Openbaar Ministerie. Geraadpleegd op 28 maart 2025, van
https://www.om.nl/onderwerpen/cybercrime/hack_right/wetsartikel-computervredebreuk

Overheid.nl. (2025). Wetboek van Strafrecht. Geraadpleegd op 28 maart 2025, van
https://wetten.overheid.nl/BWBR0001854/2025-01-01

Rijksoverheid. (z.d.). Cybercriminaliteit bestrijden. Ministerie van Justitie en Veiligheid. Geraadpleegd op 28 maart 2025, van
https://www.rijksoverheid.nl/onderwerpen/cybercrime-en-cybersecurity/cybercriminaliteit-bestrijden


Comments

18 responses to “Thema 4: Data Scraping en AI-plagiaat”

  1. Interessant en actueel thema. Je laat de student zelf over de ethiek van dit thema nadenken. Wellicht een idee om dit aan burgerschap te koppelen? Ik zou het ook mooi vinden als je iets toevoegt over het gebruik van AI bij programmeren, en dan vooral: dat je moet kunnen uitleggen wat de prompt is, waarvoor je het wilt gebruiken, en dat de student kan uitleggen wat de output is en of hij/zij er tevreden mee is. Een stukje reflectie op het gebruik van AI ter ontwikkeling van metacognitieve vaardigheden.

  2. ik wist dat plagiaat bestond en dat het eigenlijk dom is maar wel hanfig
    ja ja ja j aj a
    minder ai gebruiken proberen1
    ja hoor doe ik het gewoon terug

  3. ik wist dat dat je met sommige licenties niet de code mag kopieeren in het vervolg ga ik daar zeker meer op letten en vond dit zeker handig om in te verdiepen want nu kan ik er ook voor zorgen dat anderen niet mijn code jat want dat vind ik niet eerlijk

  4. ik wist niet al te veel over dit onderwerp, maar dit open toch wel echt mij ogen. ik was altijd groot fan van het kusanagi64 youtube kanaal. ik zal nooit meer code stelen. Mijn code mag ook niet gestolen worden alleen door jorg, groetjes oma

    1. Jens Nieuwenhuis Avatar
      Jens Nieuwenhuis

      let’s go

  5. Ja ik wist er wel al wat van, het is wel handig om dit allemaal te weten in het vervolg ga ik beter er op letten. Het is niet echt eerlijk tegenover anderen, Jorg licentie is beste.

  6. Rick Bosma Avatar
    Rick Bosma

    ik wist er bijna niks van
    ik vondt dit best handig om te weten
    ik ga dit in vervolg waarschijnlijk wel doen
    hangt er van of het een code van een game is of een code van een inlog scherm bijvoorbeeld
    in vindt elke licentie wel goed

  7. Als AI code gebruikt van open source, hoort daar gewoon bronvermelding bij. Het is geen creativiteit, meer slim kopieren. En lijkt het op iets van Stack Overflow? Dan moet je dat erbij zeggen.

  8. 1. De basis
    2. Jazeker
    3. Beter denken aan mijn liscenies en als ik mijn projecten open source 4.maak ja of nee
    5.Hangt ervan af
    6.?

  9. Roan Kienstra Avatar
    Roan Kienstra

    Ik wist al wel dat A.I vaak illegaal code of andere informatie (data) gewoon jat. Alleen ik wist niet hoe het ging met de licenties.

    Dit is zeker handig om te weten. Als ik later een bedrijfje start, als ik hier niet oplet kan ik zeker in de problemen komen.

    Nee, ik vind het helemaal niet eerlijk als iemand mijn spul steelt.

    Ik heb nog geen idee welke licentie het beste is. Dat moet ik nog uitzoeken.

    Niek Döner

  10. 1. Licenties zijn belangrijk
    2. Ja, want anders kan er misschien een rechtzaak tegen je worden gestart
    3. Niet eerlijk, maar het hangt af van je licentie. Als je MIT licentie gebruikt dan kan het gewoon (zolang je naam en de licentie er maar bij staan)
    4. Hangt van je project af. Een klein projectje zou ik sneller MIT of Apache 2.0 geven. Een groot project bedoelt voor enterprises zou ik Apache 2.0 of GNU LGPLv3 geven

  11. ik wist al wel een beetje van licenties af omdat ik wel met opensource en git werk

    ik vond het wel handig

    kijken naar de licenties

    wel jammer dat mensen dan mijn code jatten maar dan moet ik maar iets in de code stoppen
    skibiditoilet

  12. Roan Kienstra Avatar
    Roan Kienstra

    Ik wist al wel dat A.I vaak illegaal code of andere informatie (data) gewoon jat. Alleen ik wist niet hoe het ging met de licenties.

    Dit is zeker handig om te weten. Als ik later een bedrijfje start, als ik hier niet oplet kan ik zeker in de problemen komen.

    Nee, ik vind het helemaal niet eerlijk als iemand mijn spul steelt.

    Ik heb nog geen idee welke licentie het beste is. Dat moet ik nog uitzoeken.

    Niek Döner

    1. Niek Döner?

  13. Jens Nieuwenhuis Avatar
    Jens Nieuwenhuis

    ik wist al wel wat over dit onderwerp dat je er rekening mee moeten houden als je AI code gebruikt. Ik vind dit wel goede informatie die nuttig is voor binnen onze opleiding. In het vervolg zal ik hier rekening mee houden dat ik let op de licenties die bij de code horen. Verder zou ik het niet vinden kunnen dat andere mijn code gejat word. MIT is denk ik de beste ik moet dan alleen de naam van de orginele persoon erbij zetten en denk dat dit daardoor het meest gebruiksvriendelijk is.

  14. ik wist al wel wat over dit onderwerp dat je er rekening mee moeten houden als je AI code gebruikt. Ik vind dit wel goede informatie die nuttig is voor binnen onze opleiding. In het vervolg zal ik hier rekening mee houden dat ik let op de licenties die bij de code horen. Verder zou ik het niet vinden kunnen dat andere mijn code gejat word. MIT is denk ik de beste ik moet dan alleen de naam van de orginele persoon erbij zetten en denk dat dit daardoor het meest gebruiksvriendelijk is.

  15. Ik vind dit artikel best interessant en wist er niet veel van, het is ook best handig om te weten want als student zijnde maak je soms gewoon code met AI maar je weet niet precies wat de source is en ik ga er zeker wat mee doen ik ga aan de AI’s die ik zelf gebruik ook instellen dat hij codes pakt zonder licenties, en om heel eerlijk te zijn snap ik wel dat mensen licenties er op zetten want je wilt niet dat andere mensen van bijv. concurrenten jou code gebruiken en ben van mening dat de MIT licentie het meest gebruiksvriendelijke licentie is, GPL vind ik wat raar want je moet het zelf onder die licentie zetten, Apache vind ik wel nice want moneyz en Proprietary licentie vind ik ook wel goed want dat maakt m ook wel privé

Leave a Reply to 🤓 Cancel reply

Your email address will not be published. Required fields are marked *