Methoden
Forschungsfrage
Was passiert mit Wissen, wenn es durch eine LLM-gestuetzte Pipeline fliesst? Dieser systematische Review untersucht 326 Publikationen zu feministischen AI Literacies im Feld der Sozialen Arbeit und vergleicht maschinelle mit menschlicher Wissensklassifikation.
Pipeline
326 Publikationen durchlaufen fuenf Verarbeitungsstufen. Jede Stufe transformiert das Material und produziert messbare Verluste.
Gesamtverlust: 77/326 (23.6%), ueberwiegend in der PDF-Akquise.
Kategorie-System
Jedes Paper wird nach 10 binaeren Kategorien bewertet. Inklusion erfordert mindestens eine Technik- UND eine Sozial-Kategorie.
| Kategorie | Dimension | Definition |
|---|---|---|
| AI Literacies | Technik | KI-Kompetenzen, Faehigkeiten, kritisches Verstaendnis von KI-Systemen |
| Generative KI | Technik | LLMs, ChatGPT, Bildgeneratoren, generative Modelle |
| Prompting | Technik | Prompt-Engineering, Prompt-Strategien, Eingabegestaltung |
| KI Sonstige | Technik | ML, algorithmische Entscheidungssysteme, Predictive Analytics, Robotik |
| Soziale Arbeit | Sozial | Praxis, Theorie, Ausbildung, Zielgruppen Sozialer Arbeit |
| Bias & Ungleichheit | Sozial | Algorithmischer Bias, Diskriminierung, soziale Ungleichheit |
| Gender | Sozial | Expliziter Gender-Fokus, Geschlechterperspektive, Gender-Bias-Analyse |
| Diversitaet | Sozial | Inklusion, Repraesentation verschiedener Gruppen |
| Feministisch | Sozial | Feministische Theorie/Methodologie, implizite feministische Ansaetze |
| Fairness | Sozial | Algorithmische Fairness, Fairness-Metriken, faire ML-Systeme |
Duale Bewertung
Zwei unabhaengige Bewertungspfade klassifizieren nach identischem Schema:
- LLM (Claude Haiku 4.5) -- 326/326 Papers, automatisiert, $1.44 Gesamtkosten
- Expert:innen -- 291/326 Papers, manuelle Bewertung durch Fachwissenschaftler:innen
Die Schnittmenge (291 Papers mit beiden Bewertungen) bildet die Benchmark-Basis.
Kernergebnis
| Metrik | Wert |
|---|---|
| LLM Include-Rate | 71.5% (208/291) |
| Human Include-Rate | 46.0% (134/291) |
| LLM-Include / Human-Exclude | 108 Faelle |
| Human-Include / LLM-Exclude | 34 Faelle |
| Cohen's Kappa | 0.056 (Prevalence-Bias-Artefakt) |
Cohen's Kappa (0.056) ist bei stark ungleichen Basisraten kein valider Indikator fuer Uebereinstimmung (Byrt et al. 1993). Primaere Metriken sind die Konfusionsmatrix und die Basisraten.
Divergenz-Klassifikation
142 Faelle, in denen LLM und Expert:innen unterschiedlich entscheiden, wurden in drei epistemische Muster klassifiziert:
- Semantische Expansion (51%) -- Das LLM interpretiert Kategorien breiter. Es erkennt Relevanz, wo disziplinaeres Fachwissen engere Grenzen zieht.
- Implizite Feldzugehoerigkeit (30%) -- Das LLM ordnet Papers einem Feld zu, das implizit mitschwingt, aber nicht explizit adressiert wird.
- Keyword-Inklusion (19%) -- Das LLM schliesst von Schluesselwoertern auf Relevanz, ohne den inhaltlichen Kontext zu pruefen.
Transparenz
| Komponente | Kosten |
|---|---|
| Wissensextraktion (249 Papers) | ~$7.00 |
| LLM Assessment 5D (325 Papers) | $1.15 |
| LLM Assessment 10K (326 Papers) | $1.44 |
| Vault v2 (Konzepte + Divergenzen) | ~$1.00 |
| Gesamt | ~$10.59 |
Alle LLM-Aufrufe sind im Repository gecacht (.vault_cache/) und reproduzierbar. Prompts sind versioniert (prompts/CHANGELOG.md). Der gesamte Quellcode ist offen: github.com/chpollin/FemPrompt_SozArb
Limitationen
- 23.6% Verlustrate bei PDF-Akquise (Zugangsbarrieren)
- LLM-Bewertung basiert auf extrahiertem Wissen, nicht auf Volltexten -- doppelte Vermittlung
- Human-Bewertung umfasst 291/326 Papers (nicht vollstaendig)
- Konzept-Extraktion ist LLM-abhaengig und nicht extern validiert
- Divergenz-Muster-Klassifikation ist LLM-gestuetzt (Claude Sonnet)
Nachnutzung
Die 249 Wissensdokumente und der vollstaendige Obsidian Vault koennen als Kontext fuer eigene Forschung mit LLMs genutzt werden.
Obsidian
Vault-ZIP herunterladen und entpacken. In Obsidian als Vault oeffnen. 505 verlinkte Dokumente (Papers, Konzepte, Divergenzen, Pipeline-Stufen). Graph View zeigt das Wissensnetz.
Claude Code
Im Korpus Papers filtern und per "Markdown-Export" herunterladen. Im Exportordner claude starten. Der Export enthaelt einen System-Prompt in der README.md.
Beispiel-Prompts:
- "Welche Papers behandeln Gender Bias in Large Language Models?"
- "Vergleiche die Methodik von Paper X und Paper Y."
- "Fasse die Hauptargumente zum Thema Algorithmic Fairness zusammen."
NotebookLM (Google)
Markdown-Export herunterladen und die .md-Dateien als Quellen in NotebookLM hochladen. Automatische Zusammenfassung und Q&A ueber den Korpus.
ChatGPT, Gemini und andere Frontier-LLMs
Markdown-Export herunterladen und Dateien als Kontext hochladen. System-Prompt aus der README.md in Custom Instructions oder System Prompt einfuegen.
System-Prompt (Vorlage)
Du bist ein Forschungsassistent fuer einen systematischen Literature Review zu feministischen AI Literacies in der Sozialen Arbeit. Dir liegen Wissensdokumente vor, die aus wissenschaftlichen Papers extrahiert wurden. Jedes Dokument enthaelt: Kernbefund, Forschungsfrage, Methodik und Hauptargumente. Beantworte Fragen auf Basis dieser Dokumente. Zitiere immer die Quelle (Autor, Jahr). Wenn eine Information nicht in den Dokumenten steht, sage das explizit.