Nochmals zusammenfassen, aufräumen und berichtigen, bevor es in den Endspurt geht

01 Nachtrag zu Metadaten modellieren und Schnittstellen nutzen 3/2

XML

Um einem verarbeitenden Programme mitzuteilen, dass es sich bei der Datei, die verarbeitet werden soll, um das Format XML handelt, wird die Datei am Anfang “deklariert”. Die Reihenfolge der Attribute ist festgelegt. Nur die Version ist eine Pflichtangabe, Angaben zum Encoding gehören aber zur guten Praxis. (Bsp.):

<?xml version="1.0" encoding="utf-8" standalone="yes"?>

* ?xml : Die Datei ist eine XML-Datei
* version="1.0" : XML-Standard in Version 1.0
* encoding="utf-8" : Zeichenkodierung ist im Standard Unicode
* standalone="yes"?> : Datei enthält eine Dokumenttypdefinition (DTD)
Validierung von XML

Für eine kleine Übung zur Validierung von XML exportieren wir das Ergebnis aus der vorherigen gemeinsamen Übung als XML in ein neues Verzeichnis und validieren es mit dem Programm xmllint (ist vorinstalliert auf Ubuntu). Bei der Validierung des gemeinsamen Datensatz zeigte sich, dass die Subfields bei 260 und 264 aus den Gruppenarbeiten falsch waren. Bei beiden fehlten die schliessenden Tags. Klein aber oho.

Alternative Software zu OpenRefine für die Metadatentransformation

Generell gilt, die „beste“ Software gibt es nicht, je nach Anwendungsfalls passt eine Software besser - je nach Ausgangslage, Ziel und Vorwissen der beteiligten Personen: Hier ein paar Beispiele: * Catmandu (Sprache: Perl) * Metafacture (Sprache: Java) * MarcEdit (für MARC21) —> konnten wir schon ausprobieren (ist eher ein bisschen altmodisch, wird aber noch oft gebraucht).

Nutzung von JSON-APIs

Die Schnittstellen, die wir bis jetzt angeschaut haben, sind sehr bibliotheks- und archivspezifisch. Es gibt aber noch Unmengen an „normalen“ Internet-Schnittstellen. Oft werden die Daten bei modernen Schnittstellen im JSON-Format (JavaScript Object Notation) ausgeliefert - alternativ zu XML wie z.B. bei OAI-MPH). JSON kann ebenfalls im Web-Browser angeschaut werden.

Metadatenstandard LIDO

Der Metadatenstandard LIDO (Lightweight Information Describing Objects) wird hauptsächlich in Museen zur Beschreibung von Kulturobjekten verwendet. LIDO unterscheidet sich stark von den anderen Metadatenstandards, die wir bis jetzt kennengelernt haben. Anders als die meisten dokumentenzentrierten Standards, geht LIDO vom Ereignis aus. Für ein Kulturobjekt im Museum wäre die Ausgangslage als z.B die Ausgrabung oder der Zeitpunkt, zu dem das Gemälde erstellt wurde. Im Gegensatz zu den dokumentenzentrierten Standards, die vom Werk selber aussgehen (z.B. dem Gemälde selber oder klassischerweise dem Buch oder der Autor’in). Trotzd der anderen Herangehensweise ist der Standard nicht komplexer, schlussendlich sind es auch “einfach” XML-Daten. Allerdings ist ein Datenaustausch mit anderen Institutionen die dokumentenzentriert arbeiten natürlich aufwendiger, weil die “Übersetzung” bzw. der Crosswalk komplexer ist.

02 Suchmaschinen und Discovery-Systeme 1/2

Heute geplant:

  • Installation und Konfiguration von VuFind
  • Funktion von Suchmaschinen am Beispiel von Solr

Zum Theorieteil über die Funktionen von Suchmaschinen sind wir heute aus Zeitgründen leider nicht mehr gekommen. Die Installation des Discovery-Systems VuFind konnten wir aber zusammen ausführen - und die Konfiguration war dann Aufgabe fürs Selbststudium anhand eines Einführungsvideos.

VuFind

VuFind ist ein bibliothekarisches Suchsystem - ein sogenanntes Discovery-System. Discovery-Systeme stellen die Nutzeroberfläche für die Recherche, also die Rechercheportale, dar. Dahinter steckt eine Datenbank oder eine Suchmaschine, die die Daten zur Verfügung stellt.

Auch VueFind ist eine Open-Source-Software, welche 2010 von der Villanova Universität (Pennsylvania, USA) entwickelt wurde - und gehört zu den international am häufigsten genutzten Suchsystemen in Bibliotheken und Verbundsystemen. VuFind stellt dem Benutzer eine einfache Suchmaske bereit. Ausserdem kann das Discovery-System den traditionellen OPAC (Online Public Access Catalogue) ablösen - bzw. auch mehrere Kataloge und andere Quellen zusammenfassen.

Exkurs swissbib.ch: swissbib verwendet als Benutzeroberfläche VuFind und im Hintergrund die Suchmaschine Apache Solr. 2019 machte swissbib das Update auf VuFind Version 5. VuFind 5 ist schneller als seine Vorgängerversion und ausserdem mit dem neuen Datenschutzgesetz (DSGVO) kompatibel. Auch ist VuFind 5 vollständig kompatibel mit der Bibliotheksverwaltungssoftware ALMA von ExLibris(Alma ist bereits heute z.B. bei der Nationalbibliothek (Verbund Alexandria) im Einsatz und wird von SLSP ab Dez. 2020 in den meisten wissenschaftlichen Bibliotheken eingeführt).

Installation von VuFind

VuFind (Version 7.0.1) haben wir gemeinsam installiert nach offizieller Anleitung für VuFind in Ubuntu. Die Installation war nicht ganz ohne, deshalb sind wir jeden Schritt zusammen durchgegangen und die Dozenten haben uns die Kommentare in der Anleitung erklärt („für Normalsterbliche übersetzt“). Dies war für mich sehr hilfreich, um den Ablauf und auch die Funktionen der Unix Shell zu verstehen.

Erwähnt wurde nochmals: „Best Practice“-Vorgehen wäre es, pro Server eine Anwendung zu installieren, um Abhängigkeiten („dependency hell“) zu vermeiden. Dies lässt nicht mit virtuellen Maschinen und Containern einfach lösen. Die Anwendungen, die wir aktuell brauchen (ArchiveSpace, DSpace, VuFind etc. ) laufen aber gut zusammen auf Ubuntu 20.04.

Die Installation hat bei mir beim ersten Mal nicht funktioniert, es gab irgendeine Anmelde/Passwort-Problem. Ich habe dann das ganze System heruntergefahren und am nächsten Tag von Schritt 0 wieder begonnen und dann hats geklappt (vielleicht überlastung des Servers, weil die ganze Klasse drauf war?).

Quellen:
* https://bain.felixlohmeier.de
* https://de.wikipedia.org/wiki/VuFind
* https://swissbib.blogspot.com/search/label/vufind