Fraunhofer Austria, priorIT und VG WORT arbeiten zusammen, um durch intelligente Mustererkennung Fälle von unrechtmäßig bezogenen Tantiemen aufzudecken.
Nicht alle Personen, die Ansprüche auf Vergütung für ihre Online-Artikel geltend machen, haben die gemessene Zahl von Aufrufen tatsächlich durch die Klicks von zahlreichen interessierten Leserinnen und Lesern erzielt. Manche lassen stattdessen ein Computerprogramm die Seite immer und immer wieder aufrufen, um so an Geld zu gelangen, das ihnen nicht zusteht. Ein KI-Algorithmus zur Mustererkennung soll diese Betrugsmasche nun deutlich erschweren.
Vergütung von Autorinnen und Autoren
Die Verwertungsgesellschaft WORT (VG WORT) sorgt als Verwertungsgesellschaft für eine angemessene Vergütung der Autorinnen und Autoren und Verlage, die sich zur gemeinsamen Verwertung von Urheberrechten zusammengeschlossen haben. Dies bedeutet, Geld zum Beispiel von denjenigen einzuheben, die Geräte für die Nutzung des geistigen Eigentums Dritter herstellen (Drucker, PCs, Handys etc.) und diese aus zahlreichen Quellen vereinnahmten Gelder anschließend nach festgelegten Verteilungsplänen an Autorinnen beziehungsweise Autoren und Verlage weiterzugeben. Als Maßstab für die Höhe der auszuzahlenden Gelder dient die Nutzungswahrscheinlichkeit (vereinfacht gesagt: die Kopierhäufigkeit) eines Artikels. Da die Kopierwahrscheinlichkeit nicht ohne weiteres ermittelt werden kann dient die Reichweite als Näherungsfaktor. Während diese bei Printprodukten wie Zeitungen und Zeitschriften relativ leicht über die Auflage zu bestimmen ist, bedarf es bei Online-Artikeln schon einer komplexeren technischen Lösung.
Um festzustellen, wie oft ein bei der VG WORT registrierter und online erschienener Artikel gelesen wird, müssen die tatsächlichen Aufrufe der Seite gezählt werden. Ein dafür notwendiger Zähler wird direkt in die Webseite des betreffenden Artikels integriert. Am Ende jeden Tages speichern die VG WORT und priorIT die Klicks dieses Tages für jeden registrierten Artikel ab. Jährlich kommt es dann zu einer Auswertung und – falls die Anzahl der Aufrufe ein notwendiges Minimum von 1.500 überschritten hat – zu einer Vergütung.
Verdächtige Verläufe
priorIT, die als IT Dienstleister mit Sitz in Pörtschach am Wörthersee die Vergütung für die VG Wort berechnet, hatte schon seit langem ein Auge auf merkwürdige Muster in der Klickstatistik. Erhält ein Artikel beispielsweise von Beginn an stets null Aufrufe und dann kurz vor Ende des Abrechnungszeitraums plötzlich an nur einem einzigen Tag genau die 1.500, die für eine Vergütung notwendig sind, so ist dies sehr auffällig. In der Vergangenheit konnten solche Verdachtsmomente auch schon den Stein ins Rollen bringen, was dazu führte, dass tatsächliche Betrugsfälle aufgedeckt werden konnten.
Nicht alle Betrügerinnen oder Betrüger machen sich allerdings so wenig Mühe. „Natürlich ist es möglich, den Klickbetrug etwas intelligenter anzulegen und nicht alle Aufrufe an einem einzigen Tag zu generieren, sondern sie über einen größeren Zeitraum zu verteilen. Diese Fälle sehen einzeln betrachtet völlig unauffällig aus und sind weitaus schwieriger zu detektieren“, erklärt Projektleiter Torsten Ullrich von Fraunhofer Austria die Problemstellung. Die Lösung kommt hier aus der Welt der Künstlichen Intelligenz. Diese ist hervorragend dazu geeignet, Muster wiederzuerkennen und kann Datensätze, die ähnliche Muster aufweisen, zu einem sogenannten Cluster gruppieren. Auf diese Art der Analyse verstehen sich die Forscherinnen und Forscher am Fraunhofer Austria Innovationszentrum für Künstliche Intelligenz KI4LIFE in Klagenfurt, an die PriorIT mit dieser Aufgabe herantrat.
„Wir wollen immer am Puls der Zeit sein und die neuesten Innovationen in unserer Software integrieren. Daher stehen wir in engem Austausch mit der Forschung und setzen dabei sehr gerne auf ein Partnernetzwerk. Wenn Manipulationsversuche ausgefeilter werden, machen wir eben auch unsere Detektionsmethoden besser. Wobei es uns nicht nur um Manipulationsversuche geht, sondern auch um alle anderen neuen Entwicklungen unserer Zeit, wie z.B. KI. Wir möchten unseren Kunden ständig Lösungen am Puls der Zeit bieten“, sagt Franz Benjamin Nößler von priorIT.
Nur statistische Verfahren können in den komplexeren Fällen einen Hinweis liefern, dass die Aufrufe mancher Webseiten nicht auf zufällig verteilten Zugriffen echter Leserinnen und Leser beruhen. „Bei aufwändig durchgeführten Betrugsversuchen, kann die Verteilung der Aufrufe ganz normal aussehen. Allerdings verwenden Betrügerinnen oder Betrüger ihre Systematiken oft mehr als einmal, sodass wir exakt den gleichen Verlauf von Klickzahlen bei mehr als einem Artikel beobachten. Das ist dann natürlich verdächtig. Statistische Verfahren können dann bestimmen, wie wahrscheinlich oder eben unwahrscheinlich ein Zufall hier ist“, erklärt Torsten Ullrich. Das Resultat ist natürlich noch kein Beweis für Schuld oder Unschuld, es kann aber Anlass sein, um den Verdacht weiterzuverfolgen und ein etwaiges Fehlverhalten dann eindeutig nachweisen können.
Etwa 5 Millionen Webseiten mit den täglichen Aufrufzahlen über einen Zeitraum von 3 Monaten wurden von Fraunhofer Austria untersucht. Bei Weiten zu viel natürlich, um die Daten als Diagramme zu plotten und zu betrachten. Mittels „unsupervised learning“ trainierten die Forscherinnen und Forscher eine KI darauf, die Seiten mit ähnlichen Aufrufstatistiken zu gruppieren. Zu Testzwecken arbeitete das Forschungsteam in dieser ersten Phase mit Daten aus dem Vorjahr. Zukünftig könnten die Analysen aber auch zeitnah an aktuellen Daten durchgeführt werden, denn priorIT und das Forschungsteam von Fraunhofer Austria denken darüber nach, in einem Folgeprojekt die Analysen noch weiter zu automatisieren.
„Wir mussten uns im Projekt erst mit der Datenstruktur vertraut machen und uns in Workshops in die Thematik einarbeiten. Noch war in der Analyse vieles Handarbeit. Das lässt sich für die Zukunft aber natürlich ändern. Viele Muster können bereits jetzt automatisch gefunden werden und wir wollen das noch weiter ausbauen. Ich würde mich sehr freuen, wenn wir auch noch ein Folgeprojekt gemeinsam mit priorIT und der VG WORT umsetzen können“, sagt Torsten Ullrich.