CLICS: Weltweit größte Datenbank sprachvergleichender Kolexifikationen
Neuste Version von CLICS setzt innovative Standards für reproduzierbare Forschung und schafft verlässliche Basis für Forschungsfragen in der quantitativen Linguistik
Ein internationales Forschungsteam unter Leitung von Wissenschaftlern des Max-Planck-Instituts für Menschheitsgeschichte hat eine neue Version von CLICS (Database of Cross-Linguistic Colexifications), einer Datenbank für sprachübergreifende lexikalische Assoziationsmuster (sogenannte „Kolexifizierungen“), veröffentlicht. CLICS umfasst in der neusten Version Kolexifizierungen zu über 3100 Sprachvarietäten und beinhaltet neben beispiellosen lexikalischen Datenpunkten auch detaillierte Informationen zur reproduzierbaren Datenaggregation, um Wissenschaftlerinnen und Wissenschaftlern auf der ganzen Welt zu ermöglichen, einen Beitrag zur Erweiterung der Daten zu leisten und die Weiterverwendung der Daten zu garantieren.
In jeder Sprache gibt es Wörter, die sich trotz gleicher Form auf unterschiedliche Konzepte beziehen können. So kann das englische Wort fly sowohl das Verb fliegen als auch das Insekt Fliege bezeichnen. Durch den Vergleich dieser sogenannten Kolexifizierungen und ihrer charakteristischen Verteilung können Linguisten Einblicke in verschiedenste Aspekte gewinnen, darunter in die menschliche Wahrnehmung, Sprachevolution und Sprachkontaktsituationen. Die dritte Version von CLICS erhöht dabei die Anzahl an Datenpunkten (Sprachen, Konzepte, Datenquellen) im Vergleich zu vorangegangenen Versionen signifikant und erlaubt es, Kolexifizierungen global und in noch nie da gewesener Tiefe untersuchen zu können.
Dank detaillierter computerunterstützter Arbeitsschritte fördert CLICS die Standardisierung linguistischer Datensätze und bietet damit Lösungsvorschläge für eine Vielzahl wiederkehrender Herausforderungen in der linguistischen Forschung. „Während Datensammlung in der Vergangenheit häufig mittels ad-hoc Lösungen realisiert worden ist, leisten unsere vorgeschlagenen Arbeitsschritte und Richtlinien einen wichtigen Beitrag zur Langlebigkeit und Nachnutzbarkeit linguistischer Forschung und Forschungsresultate“, sagt Tiago Tresoldi.
Effizienz von CLICS demonstriert in praktischer Forschung
Das Vermögen von CLICS, einen Beitrag zu aktuellen Forschungsfragen in der Psychologie und der Kognitionswissenschaft leisten zu können, wurde bereits in einer erst kürzlich veröffentlichten Studie in Science gezeigt. Diese Studie untersuchte die weltweite Verteilung von Kolexifizierungsnetzwerken von Wörtern, die Emotionskonzepte ausdrücken und es konnte gezeigt werden, dass die Bedeutung bestimmter Ausdrücke die Emotionen beschreiben stark zwischen verschiedenen Sprachfamilien variiert.
„CLICS wurde in dieser Studie verwendet, um gezielt Unterschiede in der lexikalischen Kodierung von Emotionen in den Sprachen der Welt aufzuzeigen. Das Potenzial der Datenbank ist dabei aber nicht auf dieses Feld beschränkt und viele weitere spannende Forschungsfragen können mit CLICS in der Zukunft bearbeitet werden“, sagt Johann-Mattis List.
Neue Standards und Richtlinien erlauben nachhaltiges Aggregieren lexikalischer Informationen
Aufbauend auf den neuen Richtlinien für eine standardisierte Datenstruktur für die Verwendung in Sprachvergleichenden Studien, zuerst vorgestellt im Jahre 2018, war das Team um CLICS in der Lage, die Anzahl an Datenpunkten von 300 Sprachen und 1200 Konzepten in der ersten Version von CLICS auf nunmehr 3156 Sprachvarietäten und 2906 Konzepte in der aktuellen Version von CLICS zu erhöhen. Die neuste Version garantiert dabei auch die Reproduzierbarkeit der Datensammlung sowie Auswertung gemäß aktueller Leitfäden und den Richtlinien zur guten wissenschaftlichen Praxis. „Dank der neuen Standards und den von uns entwickelten Arbeitsschritten sind unsere Daten nicht nur FAIR (auffindbar, zugänglich [accessible], interoperabel, wiederverwendbar [reusable]), sondern es wird künftig auch wesentlich einfacher sein, bestehende Daten in unsere Prozesse zu integrieren“, sagt Robert Forkel.
Die Effizienz der Arbeitsschritte mittels derer Daten für CLICS aufbereitet werden können, konnte in einer Reihe von Experimenten und Tests gezeigt werden, wobei eine Vielzahl internationaler Forschender und Studierender involviert war. Dies führte zugleich zur Vorbereitung neuer Daten sowie der Verbesserung bestehender Daten. In einer Studie beispielsweise wurden Arbeitspakete für Studierende höherer Semester vorbereitet, welche alle Schritte der Datensammlung und Datenaufbereitung umfassten (Datengewinnung, Verknüpfung zu Referenzkatalogen, Quellinformationen zusammenstellen). „Für uns war es sehr wichtig, dass Personen außerhalb des Kernteams unsere Werkzeuge verwenden und testen. So konnten Prozesse und Arbeitsschritte weiter optimiert und zugänglicher gemacht werden“, sagt Christoph Rzymski.
Durch die verbesserte Zugänglichkeit von CLICS und aller involvierten Abläufe können Menschen, die Forschung betreiben, künftig nicht nur leichter einen Beitrag zu CLICS selbst leisten, sondern auch mittels der etablierten und erprobten Prozesse selbst Studien und Sammlungen basierende auf Kolexifizierungen vorbereiten. „Die Zahl von Menschen, die unsere Standards und Arbeitsschritte aktiv in ihrer Forschung nutzen, wächst stetig. Wir hoffen, dass diese mit der neuen Version von CLICS eine noch weitere Verbreitung finden“, sagt Simon Greenhill.
Publikation: Scientific Data
DOI: 10.1038/s41597-019-0341-x