2013/08/11 Andreas Jungherr

Die Vorhersage von Wahlen Twitter-Daten: Die deutsche Bundestagswahl 2009

Langsam kommt der Wahlkampf in Deutschland in Fahrt. Je näher der Wahltermin rückt, desto stärker wächst das Interesse an Datenquellen, die den Ausgang der Wahl mit prophetischer Weitsicht vorhersagen können. Eine beliebte Datenquelle dieser modernen Haruspices sind Daten von Onlinediensten. Besonders Twitter-Daten erfreuen sich hierbei besonderer Beliebtheit, wie nicht zuletzt der Artikel Twitternde Kristallkugel von Karoline Meta Beisel zeigt. Diese hohe Popularität liegt nicht zuletzt daran, da Tweets so leicht zähl- und visualisierbar sind. Vor diesem Hintergrund ist es interessant, sich noch einmal die Beziehung zwischen Twitter-Nachrichten und den Wahlergebnissen der letzten Bundestagswahl anzusehen.

In einem Artikel haben Pascal Jürgens, Harald Schoen und ich bereits letztes Jahr gezeigt, dass die Zahl von Twitter-Nachrichten in denen Parteien erwähnt wurden keine zuverlässige Voraussage des Wahlergebnisses erlaubte. Für den Workshop Politics, Elections and Data – PLEAD2013 im Rahmen der diesjährigen Conference on Information and Knowledge Management (CIKM 2013) habe ich einen Aufsatz geschrieben in dem ich die Beziehung zwischen Twitter-Metriken und dem Wahlergebnis 2009 genauer untersuche.

Hashtag-Nennungen im Vergleich zu Stimmenzahl (2009)

In Tweets and Votes, a Special Relationship: The 2009 Federal Election in Germany zeige ich, dass weder die Zahl der Nennungen einer Partei noch die Zahl der Nutzer, die Parteinamen in ihren Tweets verwendeten eine stabile Voraussage des Wahlergebnis erlaubten. Einzig die Nennungen der Spitzenkandidaten, Angela Merkel und Frank-Walter Steinmeier, entsprachen dem späteren Wahlergebnis. Angela Merkel wurde häufiger genannt als ihr Herausforderer Frank-Walter Steinmeier. Allerdings zeigt die Analyse der Ursachen dieser Nennungen, dass die Nennung einzelner Kandidaten nicht notwendig auf ihren folgenden Wahlerfolg hinweist:

“Hashtags referring to the names of leading candidates were used predominantly in reaction to TV-appearances of the candidates, controversies or staged campaign events. Tweets thus become an indicator of TV-appearances and other related campaign activity. The candidate who is appearing more often on TV, is campaigning more intensely and is creating more controversies thus seems to be the candidate receiving more mentions on Twitter. While all these characteristics might be sufficient conditions for a candidate to win on election day, clearly these are no necessary conditions.”

Insgesamt lässt sich festhalten, dass die bisherige Literatur über das Verhältnis von Tweets zu Wählerstimmen einige grundlegende Fragen zu beantworten hat, bevor wir von einem systematischen Zusammenhang sprechen können:

“As of now, most of the literature focuses on documenting correlations between some measures of the attention a political actor (be they parties or candidates) received on Twitter and some measures of electoral success (be it the number of votes or vote share). The novelty factor of these results stems from the fact that these correlations seem somewhat counterintuitive. Why should there be a systematic relationship between the number of times a political actor was mentioned on a social media service, Twitter, and her later electoral fortunes? Especially, since, as of now, there is no indicator that in any country Twitter’s user base is a representative sample of its whole population. The relevant literature has largely ignored this question. Maybe it would be possible to postpone work on this question if correlations between tweets and votes were shown to be stable. But if, as this paper has shown, these correlations are highly dependent on arbitrary selections by researchers (i.e. on which time intervals to focus or which political actors to include in the analysis) it becomes of crucial importance to address the implicit mechanism that should create a systematic relationship between tweets and votes. In this, research into the relationship between tweets and votes illustrates the limits of an empiricistic, exclusively data driven approach in the social sciences. An approach that recently has gathered some steam under the term big data. Especially in data rich contexts, and thus contexts with a high probability of spurious correlations, research has to be grounded in the theoretical development and data based examination of social mechanisms that lead to the emergence of specific data patterns. The discussion of these mechanisms is largely missing from the literature on the prediction of elections based on Twitter messages. This discussion is necessary before we can claim that showing some correlations between some Twitter messages and some election results is more than a surprising data artefact.”

Andreas Jungherr. 2013. “Tweets and Votes, a Special Relationship: The 2009 Federal Election in Germany.” In Proceedings of PLEAD’13, October 28 2013, San Francisco, CA, USA. New York, NY: ACM.

, , , , , ,