GENT – Wie door het laatste nummer van het Belgisch IT-magazine Data News bladert, houdt ongetwijfeld halt bij een artikel over de kracht van natural language processing. Het stuk is namelijk geschreven door een AI-model van de Gentse scale-up ML6 en onderstreept zo het potentieel dat artificiële intelligentie op vlak van tekstgeneratie heeft, ook in het Nederlands. Moeten journalisten en copywriters vrezen voor hun job? “Zeker niet. Tekstgenerators zullen nooit kunnen tippen aan het creatief en intuïtief menselijk denken. Wel wordt de technologie een steeds betere ondersteuning voor dagelijks schrijfwerk.”
De kracht van artificiële intelligentie wordt steeds groter. Ook op vlak van tekstgeneratie- en interpretatie opent AI steeds meer deuren. De evolutie van natural language processing krijgt hoe langer hoe meer momentum. “Elk nieuw model betekent een enorme sprong voorwaarts, met meer rekenkracht en meer parameters. Hoe meer parameters, hoe meer het algoritme kan voorspellen en berekenen. Waar GPT2 al een stevige 1,5 miljard parameters telde, kent GPT3 er inmiddels niet minder dan 175 miljard“, vertelt Thomas Dehaene, machine learning engineer bij ML6.
De technologie heeft een punt bereikt waarop het steeds moeilijker wordt om te onderscheiden wat door een mens en wat door een machine geschreven is. Een GPT3-model weet zo een groot deel van de lezers te overtuigen dat de tekst van de hand van een persoon is. In het Engels weliswaar. “Engels is dé wereldtaal. Engelstalige webdata als bronmateriaal om de modellen te trainen zijn er in overvloed. In het Nederlands is daar nog een weg af te leggen. Het model is er, de rekenkracht ook, maar er is nog onvoldoende bruikbare Nederlandstalige webdata afkomstig van fora, nieuwssites, recepten, Wikipedia, blogs…”, legt Thomas Dehaene uit.
Meer doen met minder
Toch wil ML6 de kracht van natural language processing openstellen voor de rest van de wereld. Een groot datamodel trainen vergt naast enorm veel data en rekenkracht ook investeringen tot tienduizenden euro’s. Kleinere bedrijven in landen met een voertaal die globaal minder vertegenwoordigd is, komen hier dus niet aan toe. ML6 wil aantonen dat het mogelijk is om goede resultaten te boeken zonder te zware financiële inspanningen. Dat doet het met het artikel in Data News, gegenereerd door een Engels GPT2-model dat gefinetuned werd naar het Nederlands.
Klanten en opensourcecommunity
Deze stap voorwaarts op vlak van Natural Language Processing (NLP) en het model van ML6 bieden verschillende perspectieven. Enerzijds wil de scale-up de technologie open source beschikbaar stellen om zo de NLP- en taalcommunity vooruit te helpen. Anderzijds zal ML6 de technologie kunnen inzetten in zijn eigen dienstverlening, in eerste instantie voor Nederlandstalige projecten maar binnenkort ook voor klanten in Frankrijk en Duitsland.
Creatief en intuïtief denken
Moeten journalisten, copywriters en vertalers nu beginnen vrezen voor hun vak? Volgens Nicolas Deruytter, oprichter en CEO van ML6, alvast niet: “Tekstgenerators zullen nooit kunnen tippen aan het creatief, intuïtief en conceptueel menselijk denken. Creatieve beroepen zijn dus zeker niet in gevaar. Deze tools kunnen echter wel een rol spelen in hun dagelijkse taken maar dan eerder als ondersteuning. Taken die cognitief niet uitdagend zijn, kunnen geautomatiseerd worden, denk maar aan spellingschecks of het maken van samenvattingen.”