Dealing with the data mess

01 Einführung in OpenRefine

OpenRefine ist ein weiteres Open Source Programm, dass uns bei der Arbeit mit den (Meta-)Daten helfen wird. Der Claim auf der OpenRefine Website finde ich sehr sympathisch:

„ … is a powerful tool for working with messy data: cleaning it; transforming it from one format into another; and extending it with web services and external data.“

Das Tool hilft also beim Zusammenführen, Bereiningen und Konvertieren von Datensätzen aus mehreren Quellen, wenn in den Datensätze unterschiedliche Schreibweisen, Abkürzungen, Zahlenformate und überflüssige Leerzeichen vorkommen. Früher wurde das Tool von Google betrieben und hiess Google Refine. Google gab den Code dann frei in die Open Source Community, die aber erst seit ca. 2017 wieder verstärkt den Code weiterentwickelt.

Von OpenRefine unterstützte Formate

  • Tabellarische Daten (CSV, XLS, XLSX etc.)
  • Einfaches XML (z.B. MARCXML) oder JSON ist einfach zu modellieren (natürlich mit etwas Übung :-)
  • Komplexes XML mit Hierarchien (z.B. EAD) ist zwar möglich, benötigt aber Zusatztools - und Skriptsprachen wie z.B. GREL.
  • Ausserdem kann das Tool generische Daten (ohne Standards) mit Normdaten (z.B. Wikidata oder GND) abgleichen.
  • Der Schwerpunkt von OpenRefine ist auf der Datenanreicherung “Reconciliation” (Versöhnung, Angleich).

Für was und von wem wird es angewendet (lose Aufzählung, basierend auf einer Umfrage von OpenRefine selber):

  • Bibliothekar’innen
  • Semantic Web
  • Forschungszwecke
  • Datenjournalist’innen
  • Beispiel: Ex Libris hat das Tool bzw. die Funktionalitäten auch übernommen und nennt es ALMA Refinder

02 Übungen: CSV nach MARCXML mit OpenRefine

Für die Übungen nutzen wir die Funktion Templating Exporte:

OpenRefine

Aufgabe 1: “Reverse Engineering”

Wir haben eine Vorlagen der Dozenten genutzt (Template-Sprache ist GREL statt XSLT). Im Feld Templating Export werden auf der linken Seite die Daten aus der Vorlage eingegeben und rechts werden dann die Daten entsprechend ausgegeben. Danach ging es darum, die Ausgangsdaten mit dem Ergebnis zu vergleichen und die Transformation der einzelnen Feldern zu beschreiben.

Für mein Verständnis habe ich hier die einzelnen Feldern und die Kommentare mit den Erkenntnissen aus den Gruppen zusammen dargestellt:

Record

Aufgabe 2: Template ergänzen

Bei der 2. Übung erstellten wir in der Gruppen eine eigene Regel, um die Daten aus einer anderen Spalte in MARC21 zu transformieren. Unsere neue Regel besagt, dass der Verlag ausgelesen wird und nichts weiter damit gemacht wird - ausser dem Befehl „escape“:

<datafield tag="260" ind1=" " ind2=" ">

<subfield code="b">

</datafield>

03 Fazit

Nach den OpenRefine-Tutorials (Library Carpentry Lesson) und den gemeinsamen Übungen: OpenRefine ist ein gutes Einstiegstool um den Umgang mit „messy data“ zu üben. Es hat eine grafische (WISIWIG-)Oberfläche, eine einfache Bedienung und bietet aber trotzdem eine gewisse Komplexität (Quote Dozenten).

Quellen:
* https://bain.felixlohmeier.de
* https://openrefine.org/
* https://www.dailymo.de/2014/07/29/ddj-daten-saeubern-mit-openrefine/