4 april 2019

Process mining, van der Aalst. Drie typen: 1) Discovery: hoe loopt het proces? 2) Conformance: hoe loopt het proces ten opzichte van de norm? 3) Enhancement: hoe kan het proces beter verlopen door 'repair' of 'enhancement'?

Perspectieven: 1) Control-flow: focus op het ordenen van activiteiten. 2) Organizational: focus op informatie over bronnen. 3) Case: focus op eigenschappen van casussen (elementen). 4) Time: focus op 'timing' en frequentie van gebeurtenissen.

Informatiegebaseerd leren: 1) Supervised learning: relaties tussen gevolgvariabelen en voorspelvariabelen door classificatie en regressie. 2) Unsupervised learning: clustering en patroonherkenning in gegevens.

Maten voor gevonden relaties: 1) Support (X => Y) = N(X en Y) / N(totaal). Associatieregels leren. 2) Confidence (X => Y) = N(X en Y) / N(X). 3) Lift (X => Y) = N(X en Y) * N(totaal) / N(X) * N(Y). 3a) Als X en Y onafhankelijk, dan is Lift ongeveer 1. 3b) Als X en Y positief correleren, dan is Lift > 1 3c) Als X en Y negatief correleren, dan is Lift < 1

Markt winkelwagentjes analyse: Het vinden van patronen in wat mensen kopen. *) Welke artikelen worden vaak samen gekocht? *) Wanneer kopen mensen een specifiek artikel? *) Is het mogelijk om klantgroepen te segmenteren?

Structuur van een gebeurtenissenlogboek: A) Proces B) Heeft meerdere instanties of zaken C) Instantie heeft meerdere gebeurtenissen D) Gebeurtenis heeft meerdere eigenschappen

Process discovery heeft 4 aspecten: A) Fitness: In hoeverre kun je het gebeurtenissenlogboek er mee naspelen? B) Eenvoud: Ockhams scheermes. C) Generalisatie: niet overmodelleren van het logboek. D) Precisie: niet ondermodelleren van het logboek.

Complicatie in process mining: Het logboek bevat alleen mogelijke overgangen, niet expliciet onmogelijke of verboden overgangen. Dit is relevant voor leren. Zie 'Language learning in the limit' en 'Grammar induction' op Wikipedia.

Een proces is gezien vanuit een specifieke *perspectief*, beperkt door een *kader* en een *resolutie* die het resulterende model bepalen. Je creëert altijd een 'platte' projectie van een multidimensioneel systeem. 1) Perspectief: bestellingen, uitleveringen, klanten, artikelen, ... 2) Kader: besturing, informatie, middelen, ... 3) Resolutie: meer of minder detail

Ruis door buitengewone waarden. Incompleetheid, omdat niet alle mogelijke routes in het logboek zullen staan. Een goed model voorspelt betrouwbaar het veelvoorkomende gedrag.

Respresentatie vooroordelen bepalen het zoekgebied en beperken mogelijk de uitdrukkingswaarde van het model. Uitdrukkingswaarde gaat over de mogelijkheid van het model om bepaalde kenmerken te tonen.

Genetische modelontwikkeling. 1) Maak een beginpopulatie. 2) Bepaal de passendheid van de verschillende modellen. 3) De best scorende individuëen gaan direct door naar de volgende generatie (elitisme) 4) De hoog scorende individuëen gaan naar een toernooi waar ze ouders zijn van kinderen voor een volgende generatie die gecombineerde eigenschappen van ouders + willekeurige mutaties hebben. 5) De laag scorende individuëen vallen af. 6) Na aantal generaties heb je het beste individuele model.

Nummer 575 · vorige · index · volgende · 0o1077