Die Debattenkultur im Netz ist aus den Fugen geraten. Nutzerkommentare auf Nachrichtenseiten sind häufig ideologisch, beleidigend und zum Teil hasserfüllt. Mit hohem Moderationsaufwand filtern Redaktionen die schlimmsten Beiträge heraus - und werden als Zensoren beschimpft. Andere Redaktionen kapitulieren und schränken die Kommentarfunktion ein. Gibt es eine Alternative zum Abschalten? Das Projekt Cyberhate-Mining (#HateMining) untersucht, welchen Beitrag automatische Textanalysen bei der Moderation von Online-Diskussionen leisten können.
Debatten- und Diskussionsforen im Internet werden häufig von einzelnen Personen oder kleinen Gruppen negativ beeinflusst. Spätestens mit Beginn der Flüchtlingskrise sind die Netzdebatten um Ausländer und Muslime in den Fokus der Öffentlichkeit gerückt. Es ist bekannt, dass es viele Hasskommentare zum Thema Flüchtlinge gibt – meistens ohne Konsequenzen für diejenigen, die den Hass geäußert haben. Wohl aber mit Auswirkungen für die Diskussion selbst, für Journalisten und für andere Diskussionsteilnehmer. Soziale Medien fördern durch ihr meist rein kommerziell orientiertes Design die Emotionalität der Debatte und Ideologisierung der Kommentare. Häufig scheint es nur noch schwarz und weiß zu geben. Dies alles hat die Verbreitung von Hass im Netz begünstigt - mit negativen Auswirkungen für die Gesellschaft.
Bereits mehr als die Hälfte der journalistischen Portale in Deutschland beschränken inzwischen die Kommentarfunktion auf ihrer Internetseite und in den sozialen Medien. Es ist offensichtlich, dass viele Redaktionen mit der Flut an Kommentaren zu kontroversen Themen überfordert sind. Neue analytische Methoden zur Auswertung von Kommentaren sind daher absolut notwendig, um den erheblichen Moderationsaufwand zu reduzieren, Propaganda und Hetze zu verhindern und damit letztendlich die Online-Debatte zu erhalten.
Hier setzt das Projekt Cyberhate-Mining (#HateMining) an. Es fokussiert sich auf automatische Text- und Inhaltsanalysen, um Hass im Internet zu erkennen und letztlich einzudämmen. Die Erkennung mit Hilfe von Textanalyse-Techniken ist schwierig – aber wir zeigen jedoch mögliche Wege auf. Dafür entwickeln wir keine eigene Kommentarplattform, sondern prototypische Verfahren, die sich durch Betreiber von Internetseiten leicht in bestehende Foren oder Kommentarfunktionen integrieren lassen. Am Ende dieser Webseite können Sie selbst ausprobieren, wie gut die verschiedenen Verfahren funktionieren.
Wir entwickeln automatische Textanalyse-Tools, die Hass in Kommentartexten erkennen. Dazu setzen wir vor allem auf die Techniken Natural Language Processing und Supervised Learning. Das Projekt verfolgt das Ziel, die Techniken für ein breiteres Publikum verständlich zu machen, und die Verfahren zur Hasserkennung möglichst transparent darzustellen.
Der Fokus des Projekts liegt auf der Analyse von Hass in Kommentaren zu Nachrichtenartikeln über die Flüchtlingskrise. Die Projektergebnisse sind nicht ohne weiteres übertragbar auf andere Emotionen und Themen. Alle Methoden lassen sich jedoch auch für andere Kontexte wiederverwenden, in denen Debatten im Netz aus den Fugen geraten.
Unsere Forschungsarbeit folgt dem Open Science Paradigma. Für dieses Projekt bedeutet dies, dass wir wir alle erarbeiteten Ergebnisse veröffentlichen und in Teilen über offene Schnittstellen zugänglich machen. Auf diese Weise wird eine Nutzung durch Journalisten und andere Wissenschaftler möglich. Bitte nehmen Sie Kontakt auf, falls Sie mit uns zusammenarbeiten möchten.
Im Verlauf des Projekts haben wir viele wertvolle Diskussionen über das Projekt selber, seine Umsetzbarkeit und die technischen Hintergründe geführt. Vor dem Hintergrund der gängigen Moderationspraxis sehen wir unseren Ansatz nicht als automatische Zensur, sondern als notwendige Hilfestellung für Community-Manager. Diese betreiben derzeit einen hohen Aufwand, damit sich Leser weiterhin an einer sachlichen Debatte beteiligen können - aber auch um rechtliche Vorgaben zu Onlineinhalten einhalten zu können.
Mit unserem Projekt möchten wir auch dazu beitragen, bei der Löschung von Kommentaren mehr Transparenz zu schaffen. Die bisherige Arbeit von Moderatoren geschieht in der Regel unsichtbar hinter den Kulissen (Beispiele siehe rechts). Auch Facebook löscht Inhalte, sperrt Nutzer und niemand weiß, warum. Algorithmen zur Text Analyse sind zwar ebenso eine Art "Black Box", die für Laien nicht transparent ist. Jedoch folgen die Verfahren klaren Regeln, die zum Teil auch sichtbar gemacht werden können. Die Entscheidungslogik der Verfahren basiert dabei im Wesentlichen auf vielen Quelldaten und nicht auf der individuellen Entscheidung eines Foren-Moderators.
Natürlich ist es denkbar, mit Hilfe von Algorithmen Kommentare automatisch zu löschen. Solche Verfahren lehnen wir aus den genannten Zielen zur Transparenz des Projektes selbstverständlich ab. Stattdessen stellen wir uns semi-automatische Verfahren vor, die durch menschliche Moderatoren überwacht werden. Es wäre auch denkbar, eine automatisierte Rückmeldung an den Kommentierer zurückzugeben, warum ein Kommentar nicht unmittelbar veröffentlicht wird. Viele weitere technische Design-Szenarien sind denkbar. Es ist daher der Mühe wert, über automatische Moderation von Hasskommentaren nachzudenken.
Für die Umsetzung unseres Vorhabens werden viele Daten in Form einer große Sammlung von Artikeln zum Thema
Flüchtlingskrise und den dazu verfassten Nutzer-Kommentaren benötigt.
Für Aufbau der Datenbasis verwenden wir so genannte Web-Scraping Techniken mit denen
wir die Kommentare direkt von den untersuchten Plattformen abgreifen. Dabei werden sowohl journalistischen
Nachrichtenportalen als auch alternative publizistische Internetseiten miteinbezogen. Bei der Auswahl der Plattformen
spielte auch die technische Komplexität des Auslesens eine Rolle, d.h. Plattformen, die ein vergleichbar
einfacheres Auslesen der Daten gestatten, wurden bevorzugt. Plattformen wie
Bis zum
Die Implementierung des Web-Scraping erfolgte mithilfe von Scrapy umgesetzt, einem populären Web-Scraping Framework. Zum Durchsuchen der jeweiligen Plattformen nach relevanten Artikeln und Kommentaren setzen wir ein zweistufiges Verfahren ein:
Pro Stufe und Nachrichtenplattform gibt es genau eine sogenannte Web Spider, welche die benötigten Daten automatisch aus den Internetseiten ausliest. Diese müssen speziell für jede Internetseite programmiert werden, denn das Vorgehen unterscheidet sich von Plattform zu Plattform. Alle Web Spiders werden regelmäßig ausgeführt, sodass neu veröffentlichte Artikel und Kommentare zeitnah erfasst und in die Datenbasis aufgenommen werden.
Selbstverständlich sammeln wir nur Kommentare, die für jedermann öffentlich einsehbar und verfügbar sind. Beim Sammeln beachten wir, falls vorhanden, die Vorgaben der Betreiber der jeweiligen Plattform. So werden keine Daten gesammelt, wenn dies in den Geschäftsbedingungen oder in der robots.txt verboten ist. Auch Schutzmaßnahme gegen eine Überlastung des Web-Servers umgehen wir nicht. Stattdessen sind unsere Web Spider so programmiert, dass Sie möglichst wenig Ladelast auf den abgefragten Webseiten erzeugen.
210
4.617
260
4.415
328
11.764
543
7.984
4584
27.497
3.959
75.857
1.944
13.628
333
2.745
626
11.054
19
52
991
3.678
229
4.478
1.921
182.625
5812
25.792
Das Projekt Cyberhate-Mining fokussiert auf Kommentare zu Artikeln, die einen Bezug zur Flüchtlingskrise haben. Zur Identifizierung der geeigneten Artikel im Rahmen des Web-Scraping, kamen drei unterschiedliche Strategien zum Einsatz:
Einige Nachrichtenseiten und Blogs bieten eine Suchfunktion an, mit deren Hilfe sich nach Begriffen wie „Flüchtlingskrise“ oder „Flüchtlinge“ suchen lässt – manchmal wird die Verwendung dieser Suche jedoch durch die robots.txt untersagt. Mit Flüchtlings-Themenseiten oder Dossiers ist es möglich nur die dort verlinkten Artikel zu berücksichtigen. Für Plattformen, die weder Suchfunktion noch Themenseiten bereitstellen, wird ein Schlüsselwort-Verfahren eingesetzt. Die Relevanz jedes Artikels wird anhand eines oder mehrere Schlüsselwörter ermittelt, welche im Text vorkommen müssen.
Ein Blick auf die gesammelten Daten verrät bereits einiges über die untersuchten Plattformen und deren Kommentatoren. Journalistische Internetseiten veröffentlichen mehr Artikel zur Flüchtlingskrise als die meisten alternative publizistische Internetseiten. Spitzenreiter ist Zeit Online mit mehr als 5.8001) Artikeln, gefolgt von Epoch Times und Focus.de2). Im Zeitverlauf ist ein Ausschlag im September 2015 sowie im Januar und Februar 2016 bei vielen der Internetseiten erkennbar. Bei den Kommentaren ist dieses Phänomen erst mit geringer Verzögerung festzustellen. Welt.de ist Spitzenreiter mit der größten Anzahl an Kommentaren von über 180.000. Ihr folgen Epoch Times und Focus.de. Die längsten Diskussionen sind auf Welt.de zu finden. Hier gibt es im Durschnitt fast 100 Kommentare je Artikel.
Es ist nach wie vor ziemlich schwierig, automatisiert Emotionen wie Hass in natürlich-sprachlichen Texten zu erkennen – aber auch nicht unmöglich. In den letzten Jahren wurden durch Verbesserungen in Algorithmik und Computer-Hardware neue Methoden entwickelt und bestehende Verfahren besser nutzbar.
Trotzdem kommt der Computer allein als neutraler Juror für die Erkennung von Hass-Kommentaren derzeit nicht in Frage. Um dennoch die für die Textanalyse-Tools notwendigen Einschätzungen der Kommentare zu erhalten, verwenden wir Nutzer-Bewertungen von realen Personen. Dieser so genannte Crowdsourcing-Ansatz ist nicht neu und wird bereits von anderen Wissenschaftlern verwendet.
Zum Lernen der Algorithmen benötigen wir möglichst viele bewertete Kommentare. Dennoch wird ein Kommentar nicht sofort nach der ersten Nutzer-Bewertung als Hass und Nicht-Hass klassifiziert. Um das Ausmaß der Subjektivität zu verringern, erheben wir bis zu sieben Bewertungen pro Kommentar. Dadurch erhoffen wir uns einen passenden Ausgleich zwischen Quantität und Qualität der bewerteten Kommentare.
Nach jeder Bewertung wird überprüft, ob der entsprechende Kommentar einer aus drei Kategorien zugeordnet werden kann. Sind genug Bewertungen abgegeben, wird der Kommentar in eine der Kategorien „Hass“, „Kein Hass“ oder „Weiß Nicht“ eingeordnet.
Um die automatische Erkennung von Hass-Kommentaren zu ermöglichen, sind insbesondere Kommentare interessant, die von Nutzern als Hass identifiziert werden, damit sie anschließend gezielt in Textanalyse-Tools untersucht werden. Ein Kommentar ist als Hass-Kommentar kategorisiert, sobald zwei Bedingungen erfüllt sind:
Ebenso wie hasserfüllte Kommentare, benötigen wir auch gewöhnliche, hassunerfüllte Kommentare um Lerntechniken zur automatischen Erkennung von Emotionen zu entwickeln. Die Einstufung in die Kategorie „Kein Hass“ erfolgt analog zu Hass-Kommentaren. Folgende zwei Bedingungen müssen erfüllt sein:
Es ist nicht immer möglich, eindeutig zu entscheiden, ob ein Kommentar hasserfüllt ist oder nicht. Sind sich Nutzer in den Bewertungen, die sie zu einem Kommentar abgeben, nicht einig, wird der entsprechende Kommentar weder als „Hass“ noch als „Kein Hass“ eingestuft, sondern der Kategorie „Weiß Nicht“ zugeordnet. Dies geschieht, sobald eine der folgenden Bedingungen erfüllt ist:
Innerhalb der Bewertungsphase im Mai und Juni 2016 haben wir unser Projekt über soziale Netzerke publik gemacht und Personen zur Bewertung von Kommentaren aufgefordert. Hass oder Nicht-Hass – das war die Frage.
Als einzigen Anhaltspunkt für die Bewertung, konnten die Nutzer eine Hass-Definition des Ministerkomitees des Europarates (siehe rechts) parallel zu den Bewertungen abrufen. Am Ende der Datenerfassung waren 12.000 Bewertungen erfasst. Damit konnten anhand des vorstellten Bewertungsverfahrens insgesamt 2.983 Kommentare kategorisiert werden, die sich wie folgt über die drei Bewertungsoptionen aufteilen:
27 Prozent für Hasskommentare ist ziemlich hoher Wert, der das reale Aufkommen solcher Kommentare deutlich übersteigt. Wir erklären uns den hohen Anteil dadurch, dass unsere Studienteilnehmer keine Vorerfahrung in der Bewertung von Kommentaren hatten und zudem durch den Kontext der Untersuchung geneigt waren, übermäßig viele Kommentare als Hass zu klassifizieren. Durch die Beschränkung auf Artikel zur Flüchtlingskrise wurden zudem Daten zu einem kontroversem Thema erhoben.
An den Bewertungen der Kommentare haben sich insgesamt mehr als 240 Nutzer beteiligt. Es ist wichtig zu beachten, dass es sich um keine repräsentative Umfrage handelt, wie sich schnell an diesen demografischen Merkmalen erkennen lässt. So haben etwa die Männer mit 23 und 24 Jahren und die Frauen zwischen 39 und 40 Jahren überdurchschnittlich viele Bewertungen abgegeben.
Der „Kein Hass“-Anteil bei den journalistischen Nachrichtenportalen, aber auch bei den meisten alternativ publizistischen Internetseiten liegt bei über 50%. Ausnahmen sind Contra Magazin, Freie Welt und Junge Freiheit. Die Plattformen mit dem größten Anteil an „Kein Hass“-Kommentaren sind Der Tagesspiegel mit 72% und Zeit Online mit 67%.
Bei den Verteilungen ist zu beachten, dass der Anteil an Hasskommentaren von vielen Faktoren beeinflusst werden kann, z.B. durch die Moderationsstrategien der Plattformen. Ein geringer Anteil an mit Hass bewerteten Kommentaren könnte auch bedeuten, dass die Moderatoren einer Plattform beim Herausfiltern der Kommentare strenger sind als die anderer Plattformen.
Es ist vorstellbar, dass Nutzer sich mit „Hass“-Kommentaren gegenseitig anstacheln. So können unter einzelnen Artikeln große Ansammlungen von „Hass“-Kommentaren entstehen. Um dies zu untersuchen, teilen wir die Artikel anhand der Anzahl der Kommentare in lange und kurze Diskussionen ein. Dabei ist zu beachten, dass die Plattformen sehr unterschiedliche Besucherzahlen haben. Eine Diskussion gilt als lang, wenn sie länger als der Durchschnitt der entsprechenden Plattform ist. Anschließend wird untersucht, wie viele als „Hass“ bewertete Kommentare unter den jeweiligen Artikeln vorhanden sind.
Die Ergebnisse zeigen keine eindeutige Tendenz. Dies könnte darauf zurückzuführen sein, dass wir nur ein Bruchteil der gesammelten Kommentare auch bewertet haben. Eine eindeutige Aussage über den Zusammenhang zwischen Diskussionslänge und Hassanteil ist erst möglich, sofern alle Kommentare unter einer großen Menge von Artikeln vollständig bewertet sind.
Neben ihrer Zuordnung zu Artikel bzw. Plattformen, nehmen Kommentare an sich bereits unterschiedliche Formen an. In unserer Datensammlung kommen kürzere Kommentare häufiger vor. Der Anteil an „Hass“-Kommentaren nimmt jedoch mit steigender Kommentarlänge zu. So liegt er bei Kommentaren mit einer Länge zwischen 100 und 199 Zeichen bei 21% und bei einer Länge zwischen 500 und 599 Zeichen bei 33%.
Verfahren und Methoden, die dem Oberbegriff Text Mining zuzuordnen sind, stellen verschiedene Analyseverfahren zur Verfügung, mit denen Kerninformationen aus unstrukturierten Texten ausgewertet werden. Dazu zählen unter anderem folgende Methoden:
Um die erwähnten Methoden anzuwenden nutzen wir unter anderem die Software MineMyText. Die Software ermöglicht beispielsweise das Zählen der häufigsten Wörter in den gesammelten Kommentaren. Die Auswertung der häufigsten Wörter je „Hass“- bzw. „Kein Hass“-Kommentar zeigt einige Unterschiede. So gibt es drei Wörter, die in beiden Kategorien häufig vorkommen: „Deutschland“, „Deutsch“ und „Land“. Während sich ihre Häufigkeit in „Kein Hass“-Kommentaren jedoch auf 8% bis 12% beläuft, so sind sie in „Hass“-Kommentaren öfter vertreten (16%-21%). Häufige Wörter, die sich eher in „Kein Hass“-Kommentaren finden lassen, sind „Mensch“ und „Gut“, jeweils mit 9%.
Unsere Form der Datenerhebung unterliegt zahlreichen Einschränkungen, die die Neutralität der Quelldaten und damit Ergebnisse verzerren. Die Auswahl der untersuchten Plattformen und auch die Masse der Nutzer, die Kommentare bewertet haben, ist nicht repräsentativ ausgewählt. Die Moderationspraxis der einzelnen Plattformen hat ebenfalls Einfluss auf unsere Daten, da nur veröffentlichte Kommentare in unsere Analyse einfließen. Außerdem können wir nicht garantieren, dass wir alle Artikel zur Flüchtlingskrise und Kommentare in unseren Web Spidern einbezogen haben.
Trotz der Angabe einer Hass-Definition, bleibt die Bewertung der Kommentaren durch Personen natürlich subjektiv. Das bedeutet, dass ein Kommentar, der von einer Person als Hass angesehen wird, von einer zweiten Person möglicherweise als unkritisch betrachtet wird. Zwar musste ein Kommentar von drei unterschiedlichen Personen gleich klassifiziert sein, um als Hasskommentar eingestuft zu werden, aber nichtsdestotrotz gibt es sicher unterschiedliche Meinungen darüber, wann ein Kommentar als Hass einzustufen ist. Wir möchten uns hierüber kein Urteil erlauben und zeigen aus diesem Grund auch keine einzelnen Kommentare auf der Projektwebseite an.
Personen, die absichtlich die Kommunikation in einer Online-Community stören, werden als Trolle bezeichnet. Sie posten nutzlose, ablenkende und kontraproduktive Beiträge, um im besten Fall eine fruchtlose Diskussion anzustoßen. Teilnehmer solcher Diskussion werden dabei oft unterschwellig von den Trollen provoziert. Zudem existiert eine zweite, deutlich professionellere Art des Trollens, die das Ziel hat, systematisch Propaganda zu verbreiten, um die öffentliche Meinungsbildung und das Verhalten von Journalisten zu beeinflussen.
Das Projekt Cyberhate-Mining untersucht mit analytischen Methoden, um „Troll-Beiträge“ als solche zu erkennen. Unter anderem gestattet es die umfangreiche Datensammlung, nach Copy/Paste-Beiträgen bzw. automatisiert veröffentlichten Beiträgen von Kommentaren über verschiedene Plattformen zu suchen. Dennoch: Die Identifizierung von Trollen, rein auf Basis der Kommentartexte ist schwierig. Die beste Propaganda war schon immer jene, die als solche nicht zu erkennen ist.
Aufgrund riesiger Kommentarmengen und Nutzerzahlen scheint es unmöglich, dass einzelne Nutzer die vielen Anderen durch ihre Kommentare beeinflussen können. Zählt man jedoch die Anzahl der Kommentare jedes Nutzers, wird schnell deutlich, dass nur ein Bruchteil aller Nutzer den Großteil der Kommentare schreibt. Dieses Phänomen lässt sich bei allen der 13 untersuchten Plattformen beobachten. Somit entsteht der Eindruck, dass ein kleiner aktiver Teil an Nutzern meinungsbildend sein könnte.
Wie viel Einfluss die sehr aktiven Nutzer auf einer gesamten Plattform haben, ist durch die nachfolgende Grafik sichtbar. Beispielsweise schreiben auf der Plattform Focus Online gerade einmal 6% der Nutzer mehr als die Hälfte aller Kommentare. Für andere Plattformen ergibt sich ein ähnliches Bild.
Um überhaupt Trolle in unserem Datensatz identifizieren zu können, haben wir im ersten Schritt alle 63.478 Nutzer extrahiert. Ein Nutzer ist durch die Kombination aus Username und Plattform eindeutig identifizierbar. Das ein und die selbe Aktion mehrere Accounts anlegt oder mehrere Personen einen gemeinsamen Account nutzen, können wir dabei nicht berücksichtigen. Zusätzlich müssen unsere Methodiken zwischen außerordentlich aktiven Nutzern und potenziellen Trollen unterscheiden können.
Im nächsten Schritt klassifizierten wir jeden Nutzer anhand von sechs verschiedenen Kennzahlen. Um die einzelnen Indikatoren untereinander besser vergleichen zu können, haben wir diese normalisiert. Bei dem Normalisierungsschritt wurden anhand von Quantilen ebenfalls Ausreißer geglättet, um Tendenzen, die unsere Kennzahlen einseitig verzerren, zu relativieren. Anschließend wurden die Kennzahlen je nach Relevanz gewichtet und in einen endgültigen Troll-Score pro Nutzer verdichtet. Die sechs Kennzahlen werden im folgenden beschrieben:
Der Indikator Anzahl ist die Gesamtmenge an Kommentaren, die ein Nutzer geschrieben hat. Eine hohe Anzahl spricht dafür, dass der Nutzer sehr aktiv an Diskussion teilnimmt und viele Leute mit seinen Kommentaren erreicht. Da dies ein Ziel von Influencern oder auch Trollen ist, wird dieser Indikator benötigt.
Der Indikator Zeit basiert auf der Lebenszeit eines Nutzers gemessen an dem Zeitabstand zwischen dem ersten und letzten Kommentar. Zusätzlich verwenden wir die Anzahl an Kommentaren, um den durchschnittlichen zeitlichen Abstand für Kommentare in der Lebenszeit zu berechnen. Dieser Indikator wird benötigt, um die Aktivität eines Nutzer zu messen.
Der Indikator Position ist die durchschnittliche Position an der sich ein Kommentar eines Nutzers unter einem Artikel befindet. Für einen Influence ist eine gute Position besonders wichtig, da so sein Kommentar direkt unter dem Artikel erscheint und häufiger gelesen wird. Somit ist es sinnvoll, die durchschnittliche Position der Nutzer zu speichern.
Der Indikator Ähnlichkeit enthält die Anzahl an Kommentaren eines Nutzers, die nicht unter seinen eignen Kommentaren einzigartig sind. Damit auch minimal abgeänderte Kommentare als Duplikat erkannt werden können, wurde die Ähnlichkeit mithilfe des Jaccard-Koeffizientens berechnet. Dieser Indikator spiegelt die Anzahl der Copy & Paste-Beiträge wider.
Der Indikator Intervall spiegelt wider, wie oft ein Nutzer innerhalb kürzester Zeit unter verschiedenen Artikeln kommentiert hat. Dazu wird der Indikator jedes Mal erhöht, wenn der Nutzer innerhalb von drei Minuten mehrere Artikel kommentiert. Da dieser Zeitraum zu kurz ist, um Artikel zu lesen und qualitative Kommentare zu verfassen, werden so Nutzer mit Copy & Paste-Verhalten aufgedeckt.
Der Indikator Länge dient als Merkmal, ob ein Nutzer die durschnittliche Kommentarlänge der anderen Nutzer auf der Plattform stets überschreitet. Trollen geht es darum die konstruktive Diskussion zu stören. Mit vielen und besonders langen Kommentaren ist dies leicht möglich, da so die aktive Diskussion unterbrochen wird.
Unabhängig von den Analysen individueller Kommentatoren, haben wir mittels Jaccard-Koeffiziens und TF-IDF plattformübergreifend die Ähnlichkeit aller Kommentartexte überprüft. Mittels der Ergebnisse ist es uns möglich, mit einer geringen Unsicherheit, Nutzer plattformübergreifend zu identifizieren, wenn sie auf beiden Plattformen ähnliche Kommentare geschrieben haben.
Mit dieser Methodik konnten wir unter allen 315 015 Kommentaren 1 455 nicht einzigartige Kommentare ermittelt, welche eine hohe Ähnlichkeit mit anderen Kommentaren aufweisen.
Mittels des entwickelten Troll-Score wurden alle Nutzer bewertet. Die nachfolgende Tabelle enthält die Top 10 der potenziellen Trolls über alle Plattformen hinweg. Die Ergebnisse lassen sich nach Plattformen filtern.
Volker S. ist seit dem 21.10.2015 auf der Plattform Compact Online aktiv. In der Zeit hat Volker S. 462 Kommentare geschrieben. Das sind 458 Kommentare mehr als ein durchschnittlicher Nutzer auf Compact Online.
Mit seinen Kommentaren ist Volker S. häufiger als Andere auf den vorderen Positionen unter den Artikeln und schreibt durchschnittlich alle zwölf Stunden einen Kommentar. Zusätzlich hat er insgesamt 18 Mal innerhalb von drei Minuten unter mehr als einen Artikel kommentiert. Das ist wesentlich häufiger als andere Nutzer auf Compact Online. Auch seine durchschnittliche Kommentarlänge liegt über dem Durchschnitt von anderen Nutzern auf Compact Online. Der größte Unterschied ist jedoch durch den Indikator Ähnlichkeit zu erkennen.
Anhand des Indikators Ähnlichkeit lässt sich schnell erkennen, dass Volker S. Copy & Paste verwendet. Von seinen 462 Kommentaren sind 134 nicht einzigartig. Zählt man nur die Kommentare, die Volker S. zum wiederholten Mal veröffentlicht hat, sind dies immer noch 77 Stück.
Vergleich man die Ähnlichkeit von Volkers Kommentaren plattformübergreifend findet man fünf Kommentare, die ähnlich zu anderen Kommentaren sind. Alle fünf Kommentare sind Duplikate , die zuvor von dem Nutzer Werdomar auf der Plattform Junge Freiheit veröffentlicht wurden. Durch den Vergleich der Kommentare beider Nutzer fällt auf, dass deren Kommentare häufig mit demselben Satz enden:
Der häufige gleiche letzte Satz, die fünf identischen Kommentare, und der Fakt, dass drei Tage nach dem letzten Kommentar von Werdomar, Volker S. seinen ersten Kommentar veröffentlicht, bestärken das Indiz, dass es sich bei Werdomar und Volker S. um die gleiche Person handelt.
Volker S. bedient sich gerne der Copy & Paste-Methodik zum Veröffentlichen von Kommentaren.
Im Durchschnitt veröffentlicht Volker S. 53 Stunden nach Erscheinen eines Artikels einen Kommentar.
Kopiert Volker S. hingegen einen seiner alten Kommentar, publiziert er diesen im Durchschnitt schon nach
12 Stunden erneut unter einen Artikel. Man könnte auch annehmen, ein Volker S. schläft nie,
denn er veröffentlicht rund um die Uhr Kommentare.
Am 03.01.2016 veröffentlichte Walter G. seinen ersten Kommentar auf Compact Online zu einem Artikel vom 11.12.2014. Circa vier Monate später veröffentlicht Walter G. auf der online Plattform des Focus einen ähnlichen Kommentar. Es folgen weitere Kommentare unter anderem im Contra Magazin, welche alle ähnlich in ihrer Ausrichtung sind und immer mehr von den eigentlichen Themen der Artikel abweichen.
Hinzu kommt, dass der User GWalter kurze Zeit darauf ebenfalls damit beginnt, Kommentare, die bereits von Walter G. publiziert wurden, auf den Plattformen von Welt, Cicero und Epoch Times zu veröffentlichen.
Sowohl Walter G. als auch GWalter publizieren ähnliche Kommentare auf den bereits genannten Plattformen, wodurch sie hohe Werte für den Indikator Ähnlichkeit erreichen. Unter dem Artikel Flüchtlingskrise: Juncker stärkt Merkel den Rücken aus dem Contra Magazin und dem Artikel Deutschlands gesteuerte Presse - ein Geständnis auf Compact Online lassen sich die gleichen Kommentare identifizieren. Beide Kommentare sind zum gleichen Zeitpunkt 11:33 AM veröffentlicht worden.
Die anfängliche Inhaltsnähe ist bei Walter G. nach kurzer Zeit verflogen. Der Inhalt seiner Kommentare wirbt nur noch für eine andere Seite und zielt kein bisschen mehr auf eine Beteiligung an der Diskussion ab:
Der Indikator für Ähnlichkeit sticht bei Walter G. besonders heraus. Er kopiert sehr gerne seine Kommentare vom Contra Magazin und veröffentlicht diese dann bei Compact Online.
Walter G. ist sehr schnell bei der Veröffentlichung von plattformübergreifenden Kommentaren. 20 der 38 Duplikate hat er mit einem Intervall von unter einer Minute publiziert. Im Durchschnitt über alle Kommentare liegen zwischen Duplikate und Original circa 18 Stunden.
Die Analyse der Indikatoren von JR erzeugt eine besondere Aufmerksamkeit für den Indikator Zeit. Denn JR schreibt durchschnittlich alle 3 Stunden und 59 Minuten einen Kommentar auf Compact Online. Mit diesem Verhalten hängt JR alle anderen Kommentatoren ab, denn er veröffentlicht wesentlich konsequenter und kontinuierlicher als alle anderen Kommentatoren. Eine genauere Betrachtung von JR auf der Plattform Compact Online, im Zeitraum vom 25-12-2015 bis zum 24-01-2016, summiert dieses Kontinuität auf ganze 181 Kommentare.
Ebenfalls ist der Indikator Ähnlichkeit für JR mit einer Anzahl von 25 deutlich über dem Durchschnitt. Die eigentliche Zahl an Duplikaten ist jedoch deutlich höher, da viele der Kommentare unter 10 Wörtern haben bzw. nur aus einem Link bestehen. Somit werden diese bei der Erhebung gesondert betrachtet, was zu dem Wert von 25 führt. Werden diese Kommentare jedoch mitgezählt, sind es 58 nicht einzigartige Kommentare bzw. 44 Duplikate unter den 181 Kommentaren. Fast jeder 4te Kommentar ist somit ein Duplikat.
Auch hebt ein zweiter Blick auf die Kommentare hervor, dass 128 der 181 Kommentare einen Link enthalten der für die Diskussion keinen Mehrwert bietet. Daraus lässt sich ableiten, dass keiner dieser Kommentare zur Diskussion beitragen soll, sondern nur Werbung für andere Internetseiten ist. Ein beliebter Inhalt ist folgender:
Aufgrund des geringen Wertes für den Indikator Zeit betrachten wir die zeitliche Verteilung der Kommentare einmal genauer, um festzustellen, ob JR die hohe Anzahl an Kommentaren konstant über den Zeitraum veröffentlicht hat.
Doch die Kommentare von JR nur über einen geringen Zeitraum, sodass er auf 76 Kommentare innerhalb von drei Tagen kommt. Ungewöhnlich ist auch die für JR sehr geringe Anzahl an Duplikaten in diesem Zeitraum. Aus diesem Grund begutachten wir die Kommentare an diesem Tag einmal genauer. Es fällt auf, dass sich die Kommentare von den restlichen inhaltlich abgrenzen und anscheinend nicht zu der Diskussion beitragen.
Die klassische Hass-Erkennung basiert auf Klassifikationsverfahren aus dem Bereich des Supervised Learning. Je größer diese Sammlung ist, desto besser können später die Verfahren aus den Daten selbstständig lernen und die Texte schließlich automatisiert auswerten. Die gesammelten Kommentare und die zugehörigen Nutzerbewertungen bilden die Datengrundlage. Um aus diesen Daten ein Hass-Wörterbuch zu erstellen, werden die Kommentare in einzelne Wörter aufgetrennt, die dann klassifiziert werden. Das Wörterbuch gibt für jedes Wort einen Koeffizienten an, der die Wahrscheinlichkeit bestimmt, dass es in einem Hass-Kommentar enthalten ist.
Um die Präzision des Wörterbuchs zu erhöhen, werden die Wortlisten bereinigt. In einem ersten Schritt werden Sonderzeichen gelöscht und die deutschen Umlaute auf ihre Grundbuchstaben zurückgeführt (z.B. ä → ae, ß → ss). Es folgt die Anwendung von drei Mechanismen:
Stoppwörter sind häufig vorkommende Wörter, die aber für Erfassung und Analyse von Textinhalten keine signifikante Bedeutung haben. Typische Beispiele sind Füllwörter, Konjunktionen und die deutschen Artikel. Diese Wörter können für die Erstellung des Wörterbuches ignoriert werden. Wir nutzen zwei Quellen für unsere Liste an Stoppwörtern: Ein Paket des Natural Language Toolkit (NLTK) und das Paket von Alireza Savand.
Beispiel für verwendete Stoppwörter sind:
aber,
bei,
der, die, das,
doch,
ein, einer, eine,
man,
nach,
oder,
so,
und,
wie,
zu
Die Nutzung des TF-IDF-Maßes verfeinert den Stoppwort-Ansatz. Das Maß gewichtet die Wörter nach ihrer Vorkommenshäufigkeit. Über eine vorgegebene Schwelle werden die Wörter herausgefiltert, deren Gewichtung nicht hoch genug ist. Diese gefilterten Wörter haben eine zu geringen Einfluss auf Bewertung der Kommentare und werden demnach nicht weiter betrachtet. Durch die Verwendung von TF-IDF konnte die Vorhersagegenauigkeit des Wörterbuchs um ca. 2% verbessert werden.
Insgesamt lässt sich feststellen, dass es in unserer Kommentarsammlung zahlreiche Wörter gibt, die sehr selten vorkommen. Häufig vorkommende Wörter gibt es hingegen nur wenige. Von den ca. 17.000 Wörtern, gibt es fünf Wörter, die in über 10% der Kommentare vorkommen und 261 Wörter, die in über 1% der Kommentare vorkommen. Die fünf häufigsten Wörter in den Kommentaren mit Einfluss auf die Bewertung sind:
Lemmatization bezeichnet den Prozess, verschiedene Beugungsformen (Flexionen) eines Wortes auf ihren Wortstamm zurückzuführen. So wird erreicht, dass ein Wort nicht mehrfach in unterschiedlichen Beugungsformen für die Klassifikation genutzt wird. Stattdessen soll jedes Wort möglichst in nur einer Beugungsform genutzt werden, zum Beispiel:
Es sollte beachtet werden, dass Wortkompositionen nicht von der Lemmatisierung betroffen sind. So wird zum Beispiel „Fluechtlingsheim“ weiter als eigenes Wort erkannt. Zur Durchführung der Lemmatisierung wird ein Algorithmus aus dem Snowball-Projekt verwendet.
Für die Erstellung der Wörterbuchs können nicht alle gesammelten Kommentare genutzt werden, sondern nur jene für die Nutzerbewertungen (Hass oder Nicht-Hass ) vorliegen. Zum Trainieren des Klassifikationsalgorithmus wird nur eine Teilmenge der Daten verwendet. Die restlichen Daten dienen als so genanntes Test-Set, um Parameter festzulegen und eine Überanpassung des Verfahrens zu verhindern. Mit dem gelernten Modell lassen sich anschließend beliebige Kommentare auf ihre Hass-Wahrscheinlichkeit bewerten.
Wir verwenden ein "Bag-of-Words"-Modell. Dieses Modell reduziert jeden Kommentar auf seine einzelnen Wörter, so dass Satzstruktur und Grammatik nicht beachtet werden. Durch diese Technik, lässt sich nach Abschluss des Verfahrens auch ermitteln, welchen Einfluss einzelne Wörter auf auf die Hass-Prognose haben. Diese Einflussfaktoren werden Koeffizienten genannt. Wir haben die Koeffizienten extrahiert und ein Hass-Wörterbuch generiert.
Das Wörterbuch wurde auf Basis der bewerteten Kommentare generiert. Dies sind aber weniger als ein Prozent der insgesamt gesammelten Kommentare. Insgesamt gibt es also viele Wörter, die nicht im Wörterbuch aber in den Kommentartexten auftauchen. Da es für diese Wörter keine Bewertungen gibt, ist es nicht möglich einen Koeffizienten zu berechnen.
Um das Wörterbuch dennoch mit diesen Wörter zu ergänzen verwenden wir das Word2Vec Modell (Wort als Vektor). Das von Google entwickelte Verfahren kann auf allen Wörtern trainert werden und ist so in der Lage, ähnliche Wörter zu identifizieren. Dabei wird ein Model anhand von tausenden Kommentaren berechnet, welches jedes Wort in einen Vektor übersetzt. Vektoren von Wörtern mit ähnlicher Bedeutung liegen nah beieinander, z.B. „Merkel“ und „Bundeskanzlerin“. Zu jedem Wort wird die Ähnlichkeit anderer Wörter in Prozent angegeben. Mit Hilfe dieses Verfahrens können wir die Anzahl der Wörter im Wörterbuch erheblich vergrößern, um eine bessere Erklärbarkeit der Algorithmen zu erreichen. Die nachfolgende Grafik beschreibt die Funktionsweise von Word2Vec anhand eines fiktiven Beispiels im Kontext der gesammelten Kommentare.
Wir wenden das Word2Vec Verfahren nach ähnlichen Wörtern für jedes Wort in unserem initialen Wörterbuch an. Dabei wird die Prozentangabe der Ähnlichkeit mit dem Hass-Gehalt des Such-Worts verrechnet. Die ähnlichen Wörter werden mit verrechnetem Wert unserem Wörterbuch hinzugefügt. Als Ergebnis könnenwir die Anzahl der Wörter in unserem Wörterbuch erheblich erhöhen.
Im Supervised Learning beschreibt ein Klassifikationsproblem die Zuordnung von Daten zu vorher definierten Klassen. In diesem Fall handelt es sich um ein 2-Klassen-Problem, da ein Kommentar entweder in unserer Logik Hass oder keinen Hass enthält. Damit ein Computer diese Unterscheidung erkennen kann, muss man ihn „anlernen“.
Hierbei wird ein bewerteter Datensatz verwendet, auf Basis dessen der Computer selbstständig Muster erkennt und Regeln erstellt, welche als Ergebnis möglichst der Zielvariable (Hass oder kein Hass) entsprechen. Das Ergebnis hiervon ist ein Vorhersagemodell, welches Klassifikationen für neue Kommentare erstellen kann. Dem Model kann nun ein unbewerteter Kommentar übergeben werden und es klassifiziert diesen nach der Zielvariable.
In der Forschung ist die Klassifikation von Nutzer-generierten Kurztexten aus dem Internet (Tweets, Kommentare) ein relativ neues Forschungsfeld. Da Algorithmen im Allgemeinen lieber mit Zahlen statt Buchstaben arbeiten, müssen numerische Features aus dem Kommentar extrahiert werden. Die Herausforderung ist es, Features zu identifizieren, die den Inhalt des Kommentars möglichst umfassend abbilden. Bei der Auswahl von Features orientieren wir uns an einer Studie von Forschern der Yahoo Labs, die ähnliche Featuregruppen verwenden. Diese Feature-Gruppen fokussieren verschiedene Aspekte eines Kommentars und werden im folgenden beschrieben.
Die N-Gram Methode splittet Text in Buchstabenfragmente der Länge N. Für 2-Grams bedeutet das, dass der Text in Buchstabenfragmente der Länge Zwei zerlegt wird. Bei einem Alphabet mit 31 verschiedenen Zeichen (26 Buchstaben plus Umlaute plus Leerzeichen) ergeben sich 312 mögliche verschiedene Kombinationen von Zeichen (zb. ‘en’, ‘zx’, ’_d’ , ...).
Für die N-Gram Methode gilt die Hypothese, dass die Verteilung der N-Grams einen Kommentar gut aggregiert darstellt und ähnliche Kommentare, also auch ähnlicher Inhalt, eine ähnliche Verteilung an N-Grams hat. Trotz dieser auf den ersten Blick trivial erscheinender Methode, wurden in der Vergangenheit erstaunlich gute Ergebnisse im Bereich der Textanalyse erzielt.
Die N-Gram Methodik funktioniert sehr gut, solange Wörter eine gewisse syntaktische Ähnlichkeit aufweisen (z.B. „Kanzlerin“ und „Bundeskanzlerin“). Jedoch versagt sie, sobald semantisch gleiche aber syntaktischer vollständig verschiedene Wörter verglichen werden (z.B. „Bundeskanzlerin“ und „Merkel“). Mit dem Word2Vec-Modell können diese Abhängigkeiten berücksichtigt werden.
Um das Verfahren auf das Klassifizierungsproblem anzuwenden, wird für jedes Wort in einem Kommentar seine Vektordarstellung bestimmt. Der Algorithmus versucht nun, ein Muster in den gemittelten Vektoren zu erkennen, um zwischen Hass oder kein Hass zu entscheiden. Anschließend wird der Mittelwert aus allen bestimmten Vektoren ermittelt, um eine Repräsentation für den gesamten Kommentar zu erhalten.
Word2Vec ist ein mächtiges Verfahren, jedoch liegt die Stärke eher auf einzelnen Wörtern anstelle von ganzen Texten. Durch die Mittelung aller Vektoren gehen viele Informationen verloren, insbesondere die Reihenfolge der Wörter.
Doc2Vec (Dokument als Vektor) erweitert nun das Word2Vec Verfahren und erzeugt zusätzlich eine Vektordarstellung für jeden Kommentar als Ganzes. Es gilt die Hypothese, dass dieser Vektor den inhaltlichen Kontext abbildet und demnach Kommentare mit ähnlichem Kontext eine ähnliche Vektordarstellung haben.
Die linguistische Struktur eines Kommentars birgt wertvolle Kennzahlen, welche die eigentliche Aussage oder Inhalte nicht berücksichtigen. Die linguistischen Features1) sollen dies abbilden. Mit Hilfe von regulären Ausdrücken (RegEx) können diese Features mit geringem algorithmischen Aufwand leicht extrahiert werden. Zur Vergleichbarkeit zwischen Kommentaren müssen die Features noch relativ angepasst werden, d.h. die Anzahl von Ausrufezeichen in einem Kommentar mit 120 Zeichen nicht mit der Anzahl in einem Kommentar mit einer Länge von 1000 Zeichen vergleichbar.
Um die Schwächen von Word2Vec und N-Grams zu beheben, wurde im Laufe des Projekts ein weiteres Verfahren entwickelt: Extended N-Grams.
Im ersten Schritt werden dazu für jeden Kommentar wichtige mithilfe des TF-IDF-Maß ermittelt. Anschließend mithilfe des Word2Vec-Models ähnliche Wörter identifiziert, die in den Kommentar künstlich hinzugefügt werden und somit den Kommentar erweitern. Je höher das TF-IDF-Maß, desto mehr ähnliche Wörter werden hinzugefügt. Auf Grundlage des erweiterten Kommentars werden dann erneut N-Grams bestimmt.
Das Aussehen des Klassifikationsmodells ist vom verwendeten Verfahren abhängig. Wir vergleichen hier zwei bekannte Varianten, welche die besten Ergebnisse lieferten.
Statistische Lernverfahren werden üblicherweise in Klassifikations- und Regressionsverfahren unterschieden, welche sich durch eine qualitative oder quantitative Zielvariable unterscheiden. Regression ist ein statistisches Lernverfahren, welches in seiner einfachsten Form einen linearen Zusammenhang zwischen einer oder mehr erklärenden Variablen X und einem quantitativen Ergebnis Y annimmt. Dieses Ergebnis ist bei der logistischen Regression eine Wahrscheinlichkeit, die die Zugehörigkeit zu einer Klasse beschreibt. Aus diesem Grund wird dieses Regressionsverfahren auch zu den Klassifikationsverfahren gezählt.
Dieses Verfahren ist heute sehr populär durch eine einfache Anwendung und vorrangig zwei Eigenschaften: Es kann gut mit gewaltigen Datensätzen umgehen und liefert gute Ergebnisse, wenn die Anzahl der Features die der Samples übersteigt. Zur Trennung der beiden Klassen wird eine Hyperebene durch einen sehr hochdimensionalen Raum gezogen, der auf den übergebenen Features basiert. Die Ebene separiert Datenpunkte beider Klassen bestmöglichst. Durch den sogenannten Kernel-Trick werden die Berechnungen nicht zu aufwändig. Zur Berechnung dieser Ebene werden nur Datenpunkte in einer gewissen Nähe zu dieser benötigt, Diese Datenpunkte werden Support Vectors genannt.
Für das Erstellen des Klassifikationsmodels sollten beide Klassen ungefähr gleich häufig im Datensatz vorkommen. Da die Verteilung zwischen Hass und Nicht-Hass Kommentaren nicht gleichverteilt ist, muss der Datensatz vor dem Erlernen durch den Algorithmus angepasst werden.
Beim Upsampling wird die Menge der Nicht-Hass gelabelten Kommentare als Ausgangsbasis verwendet und aus hasserfüllten Kommentaren Kopien dem Datensatz hinzugefügt, sodass die Mengen gleich groß sind. Beim im Projekt verwendeten Downsampling wird die kleinere Menge (Hass-Kommentare) als Basis verwendet und nur so viele Nicht-Hass-Kommentare verwendet, dass sich ein gleiches Verhältnis ergibt.
Um zu ermitteln, welche Featuregruppen am besten zusammenarbeiten wurden wir die verschiedenen Kombinationen der Featuregruppen getestet und anhand der Genauigkeit (Accuracy), und dem F1-Measure verglichen. Zur Vermeidung von Überanpassung wurde wie schon bei der Wörterbucherstellung ein Trainings- und Testset im Verhältnis 75:25 verwendet.
Ein weit verbreitetes Maß zur Beurteilung von Klassifikatoren ist das F oder F1-Measure. Es berücksichtigt sowohl Präzision, als auch Trefferquote (Engl.: Precision, Recall). Das Ergebnis ist das harmonische Mittel aus den beiden Größen und kann im schlechtesten Fall 0 und im besten Fall 1 betragen.
$\mathbf{F_1 = 2 \cdot \frac{\large \text{Trefferquote} \ \cdot \ \text{Präzision}}{\large \text{Trefferquote} \ + \ \text{Präzision}}}$
Ein sehr einfaches Gütemaß für einen Klassifikator ist seine Genauigkeit (Accuracy). Sie ist das Verhältnis von korrekt klassifizierten Kommentaren zur Gesamtheit der klassifizierten Kommentare. Dem entsprechend wäre eine Genauigkeit von 50% bei zufälligem Raten zu erwarten, 100% immer eine richtige Vorhersage.
Feature-Gruppen können im Klassifikationsverfahren auch kombiniert werden. Die Selektion der Feature-Gruppen wurde daher schrittweise pro verwendetes Verfahren durchgeführt. Gestartet wurde mit nur einer möglichen Feature-Gruppe im Modell. Hier wurde die beste Feature-Gruppe selektiert und als Basis für den zweiten Schritt verwendet. Im zweiten Schritt wurde nun die beste Gruppe aus der ersten Auswahl verwendet und wieder alle übrigen Feature-Gruppen nacheinander durchprobiert und die beste selektiert.
Bei Anwendung der logistischen Regression auf das Hass-Wörterbuch konnten Vorhersagequoten von circa 68% /Accuracy) erreicht werden. Die besten Ergebnisse wurden bei logistischer Regression mit Word2Vec und erweiterten 2-Grams erzielt. Diese insgesamt 911 Features erreichten folgende Messwerte:
Unter Berücksichtigung der Einschränkungen unserer Datenerhebung werten wir
die erreichte Genauigkeit von circa 70% als akzeptables Ergebnis. Die Yahoo-Labs Forscher, an denen
wir uns orientiert haben, erreichten in einem ähnlichen Kontext allerdings deutlich bessere Quoten
mit über 80%. Im Vergleich zum Projekt Cyberhate-Mining, standen bei Yahoo deutlich größere Datenmengen
(> 1 Million) zum Erlernen und Testen der Algorithmen zur Verfügung. Unser Projekt basiert nur auf knapp 2.000 bewerteten
Datensätzen. Dennoch konnte gezeigt werden, dass sich die algorithmischen Verfahren leicht
auf deutsche Texte übetragen lassen. Wir sind zuversichtlich, die Genauigkeit in Zukunft in der Zusammenarbeit
mit anderen Forschern sukzessive zu erhöhen, wenn mehr bewertete Lerndaten zur Verfügung stehen.
Für den Praxiseinsatz ist eine Genauigkeit von 70-80% jedoch problematisch und wird den hohen Qualitätsansprüchen von Zeitungsredaktionen kaum gerecht werden. Um eine möglichst gute Datenbasis zum Erlernen der Algorithmen zu erarbeiten, könnten Vorhersagemodelle möglichst großflächig erarbeitet werden (zum Beispiel im Zusammenarbeit von Medienunternehmen und Forschung). Insbesondere das gemeinsame Arbeiten an möglichst neutralen und belastbaren Datensätzen könnte die Vorhersagequalität verbessern. Es bleibt allerdings schwierig abzuschätzen, welche Qualität letztlich erreicht werden kann.
Es werden täglich neue Artikel zu polemischen Themen veröffentlich und viele Kommentare geschrieben. Für Mit unserer Datenbasis und der manuellen Bewertung konnten wir Vorhersagemodelle trainieren, mit denen sich auch neue Texte bewerten lassen. Um diese Überprüfungen möglichst effizient durchzuführen, wurde im Projekt Cyberhate-Mining auch eine Schnittstelle (API) konstruiert, welche von externen Anwendungen verwendet werden kann.
Die API ermöglicht es auch unsere werwendeten Methoden auf dieser Webseite direkt auszuprobieren. Dazu können Sie weiter unten auf der Webseite einen Text eingeben, für den anschließend getrennt vier verfügbare Modelle angewendet werden. Für größere Kommentarmengen ist auch eine Batch-Analyse möglich, bei der mehrere Kommentare zu einem Job zusammengefasst und parallel analysiert werden. So wäre die Einbindung von externen Datenbanken (beispielsweise in Medienunternehmen) theoretisch möglich.
Das Erstellen der Vorhersage funktioniert relativ schnell, weil wir unsere erstellten Vorhersagemodelle abspeichern und später wieder laden können. Die Modelle müssen nicht mit jeder Anfrage neu trainiert werden, was sehr lange dauern würde. Bei jeder Anfrage wird pro Modell in paralleler Verarbeitung eine Vorhersage getroffen und in einer Datenbank abgespeichert, von wo aus die API Anwendung die Ergebnisse auslesen kann. Selbst für einfache Analysen sind somit eine Vielzahl von Schritten notwendig, die in unterschiedlichen Programmen ausgeführt werden.
An dieser Stelle haben Sie die Möglichkeit interaktiv
Kommentare zu analysieren. In der TextBox unten müssen Sie dazu
einen Kommentar zwischen 200 und 2000 Zeichen
eingeben und anschließend auf Auswerten
klicken. Diese
Einschränkungen bezüglich der Länge sind einerseits nötig, um eine sinnvolle
Klassifizierung zu ermöglichen und andererseits um die Last auf
unseren Servern klein zu halten. Einige Beispiel-Kommentare können Sie
rechts neben der TextBox einfügen lassen.
In den Ergebnissen können Sie bei Klick auf einzelne Wörter, weitere Informationen anzeigen lassen. Dabei wird auch der Koeffizient angezeigt, den das Wort im Hass-Wörterbuch erhalten hat. Außerdem werden zehn ähnlichsten Worte nach der Word2Vec-Methode angezeigt.
Bitte beachten Sie, dass es sich bei der Auswertung um eine automatische Analyse handelt, die fehlerbehaftet ist. Zum einen erreichen unsere verwendeten Verfahren nur circa 70% Genauigkeit. Zum anderen sind die Einschränkungen bei der Datengrundlage zu beachten. Die Algorithmen wurden auf einem spezifischen Text-Korpus mit Bezug zur Flüchtlingskrise trainert und können dementsprechend auch nur für Texte in diesem Kontext aussagekräftig sein. Sie werden zudem bemerken, dass die Verfahren unterschiedliche Ergebnisse liefern. Je mehr Verfahren auf Hass oder Kein-Hass hindeuten, desto größer ist die Wahrscheinlichkeit, dass dies auch die richtige Vorhersage ist. Für weitere Analysen werden zudem alle in die TextBox eingegebenen Kommentare sowie die Analyseergebnisse abgespeichert.
Aufgrund von Nacharbeiten sind derzeit nur Wörterbuch-basierte Verfahren verfügbar.
{{word}}
Bei der Analyse ist ein Fehler aufgetreten. Wir bitten dies zu entschuldigen. Sollte der Fehler dauerhaft auftreten, nehmen Sie bitte Kontakt zu uns auf.
Dies ist ein studentisches Projekt im Rahmen des Master-Seminars Cyberhate-Mining am European Research Center for Information Systems im Fachbereich Wirtschaftsinformatik an der Westfälischen Wilhelms-Universität Münster. Die Seite verfolgt keine kommerziellen oder verurteilenden Absichten und ist nicht im Auftrag konkurrierender Firmen oder Interessengruppen entstanden.
Das Projekt wird betreut durch Steffen Höhenberger, Sebastian Köffer und Dennis Riehle. Die studentischen Projektmitglieder sind Christoph Ahlers, Alexander Brömmer, Daniel Carriola, Oliver Ester, Markus Heuchert, Joschka Hüllmann, Urs Merkel, Matthias Neugebauer, Marco Niemann, Thomas Pfeiffer, Philipp Reiter, Florian Runschke und Johannes Voscort. Das Seminar wurde in freundlicher Kooperation mit dem IFK Münster und MineMyText durchführt. Wir bedanken uns bei Oliver Müller, Julia Offe, Mike Preuß und Sören Schleibaum für das konstruktive Feedback, bei den Kollegen von AirBnb vs. Berlin für die Inspiration und bei Prof. Dr. Jörg Becker für den Freiraum, das Seminar in dieser Form durchzuführen.
Die in diesem Projekt verwendeten Tools und Technologien sind AngularJS, Apache HTTP Server, Bootstrap, Celery, Django, Django REST Framework, Docker, Doctrine, Font Awesome, Gitlab, HeidiSQL, Highcharts, JavaScript, jQuery, MariaDB, MathJax, MineMyText, MongoDB, MySQL, Odometer, Peewee, phpStorm, PyCharm, Python, Redis, Scrapy, Slack, Slick, SQLite, Stellar.js, uWSGI und Zend Frameworks.
Für das Projekt werden mit Hilfe von Web-Scraping Techniken Kommentare von Nachrichtenartikeln zur Flüchtlingsdebatte gesammelt. Dabei werden nur solche Kommentare gesammelt, die öffentlich verfügbar sind und dessen Indexierung durch die Seitenbetreiber nicht untersagt wurde (z.B. durch einen Hinweis in den AGBs oder mit Hilfe von robots.txt). Als Quellen dienen sowohl klassische journalistische Nachrichtenportale als auch alternative publizistische Webseiten. Mehr Details finden sich hier.
Diese Projekt-Webseite (inklusive API) wird niemals die gesammelten Daten gänzlich online verfügbar machen, sondern nur aggregierte Informationen bereitstellen. Bitte kontaktieren Sie uns, falls Sie Interesse an einer weiteren Verarbeitung der Quelldaten zu Forschungs- oder Publikationszwecken haben.
Dieses Werk und die aufbereiteten Daten sind lizenziert unter der Creative Commons Namensnennung 4.0 International Lizenz. Für die verwendeten Hintergrundbilder und Piktogramme bedanken wir uns bei: MichaelGaida, Luis Llerena, tookapic, JavadR, Paweł Kadysz und einem unbekannten Autor.
Wir betonen ausdrücklich, für den Inhalt externer Links nicht verantwortlich zu sein und distanzieren uns ausdrücklich von allen Links.
Falls Sie vermuten, dass von dieser Website aus eines Ihrer Schutzrechte verletzt wird, teilen Sie das bitte umgehend per E-Mail mit, damit zügig Abhilfe geschafft werden kann.
Für diese Seite gilt das Impressum des Instituts für Wirtschaftsinformatik der WWU Münster. Redaktionell verantwortlich für den Inhalt sind Steffen Höhenberger, Sebastian Köffer und Dennis Riehle. Für Anfragen aller Art, erreichen Sie das Projektteam unter der E-Mail .
Diagrammerklärung
Das Diagramm zeigt wo am meisten kommentiert wird. Dazu stellt es die über den Erhebungszeitraum gesammelten Kommentare aggregiert je Plattform dar.