Satzadverbien: Korpusmethoden
Klíčová slova: Satzadverbien: Beschreibung, Korpuslinguistik, Kookkurrenzanalyse, Satzadverbien, Satzadverbien: Korpus & Methoden, Wörterbucheinträge
Klíčové pojmy: Wähle heterogene Vergleichspaare zur Überprüfung methodischer Robustheit, Prüfe stets die Korpuszusammensetzung auf Textsortenverzerrungen, Generiere Kookkurrenzlisten und bewerte Signifikanz (z. B. LLR), Ergänze automatische Analysen durch reziproke und manuelle Stichproben, Interpretation muss Kontext- und Domänenabhängigkeit berücksichtigen, Achte auf häufige Begleiter mit einschränkender Bedeutung (z. B. niemand, nicht, nur), Vergleiche korpusbasierte Befunde kritisch mit Wörterbucheinträgen, Verwende Befunde praktisch: Lexikographie, Sprachdidaktik, Textmining, Kleine Fallzahlen reduzieren die Aussagekraft statistischer Werte, Unspezifische Kollokationsprofile deuten auf satzweite Kommentarfunktion hin, Passivische Prädikate können durch Korpusdomäne verstärkt vorkommen, Manuelle Validierung ist entscheidend für kontexttreue Schlussfolgerungen
## Einführung
Dieser Lernzettel fasst die methodischen Erkenntnisse und praktischen Auswertungen zusammen, die aus einer korpusgestützten Untersuchung zweier Illustrationsbeispiele gewonnen wurden. Ziel ist es, die eingesetzten Verfahren, die gewonnenen Befunde zu verstehen und anzuwenden — ohne die bereits separat behandelten Beschreibungen zu wiederholen.
> Definition: Dieser Text fokussiert auf methodische Einsichten und Befundvergleiche aus korpusbasierten Studien zu bestimmten Wortbelegen.
## Aufbau und Vorgehen in kleinen Schritten
### 1) Auswahl von Beispielen
- Zielgerichtete Paarwahl: Ein bewusst heterogenes Wortpaar erlaubt Rückschlüsse auf Methodenstärken und -schwächen.
- Vorteil: Vergleich von kontrastierenden Gebrauchsprofilen zeigt methodische Empfindlichkeiten.
### 2) Analysephasen (übersichtlich)
- Kookkurrenzauswertung: Identifikation häufiger Kollokate und deren statistische Relevanz.
- Kookkurrenzprofil: Visualisierung / Zusammenstellung signifikanter Partner.
- Reziprokanalyse: Untersuchung wechselseitiger Beziehungen (z. B. typische syntaktische Muster im Belegkorpus).
> Definition: Reziprokanalyse bezeichnet hier die Analyse des gemeinsamen Auftretens von Strukturen oder Wortgruppen zur Untersuchung typischer Kombinationen.
### 3) Interpretation der Ergebnisse
- Trennung von robusten Befunden (z. B. stabile Kombinationsmuster) und schwächeren Trends (z. B. unspezifische Kollokationsprofile).
- Kontextabhängigkeit beachten: Domänenverteilung (z. B. Zeitungsanteil im Korpus) beeinflusst Häufigkeiten.
## Praktische Beispiele und Anwendungen
- Beispielbefund A: Ein Lexem zeigt starke Präferenzen für bestimmte Domänen und häufige syntaktische Muster in Verbindung mit restriktiven Elementen.
- Anwendung: Einsatz zur automatisierten Textklassifikation nach Themen (z. B. Unfallberichte).
- Beispielbefund B: Ein anderes Lexem weist geringe Affinität zu autosemantischen Kollokaten und keine ausgeprägten Gebrauchstypen auf.
- Anwendung: Verwendung als Indikator für satzübergreifende Kommentarfunktionen, z. B. Segmentierung von Kommentaren in Korpustexten.
> Definition: Domänenpräferenz bezeichnet die Häufung eines Wortes in bestimmten Textsorten oder Themenbereichen.
Fun fact: Wusstest du, dass die Zusammensetzung eines Korpus (z. B. hoher Zeitungsanteil) starke Verzerrungen in Häufigkeitsanalysen hervorrufen kann und so typische Verwendungsweisen eines Ausdrucks prägt?
## Typische methodologische Beobachtungen (konkret)
- Signifikante Kollokate liefern Hinweise auf prototypische Verwendungsweisen.
- Häufigkeit allein ist kein Beleg für funktionale Spezialisierung; Kontextanalyse ist nötig.
- Passivische Strukturen oder unbenannte Agenten treten in bestimmten Kontexten häufiger auf — dies kann eine Korpuszusammensetzung widerspiegeln.
- Kombinatorische Einschränkungen (z. B. seltene Koauftreten zweier Prädikate) sind relevant für Verwendungsregeln.
### Tabellenvergleich: robuste vs. unspezifische Befunde
| Merkmal | Robuste Befunde | Unspezifische Befunde |
|---|---:|---:|
| Kookkurrenzstärke | hohe LLR/Signifikanz | niedrige LLR-Werte |
| Domänenpräferenz | deutlich (z. B. Unfallberichte) | keine klare Präferenz |
| Syntaktische Muster | wiederkehrend (z. B. passivisch) | keine typischen Verbindungen |
| Kollokate mit Autosemantik | häufig | selten |
## Leitfaden: So wendest du die Methoden an
1. Korpuszusammensetzung prüfen: Welche Textsorten dominieren? Welche Zeitspanne?
2. Kookkurrenzliste generieren und nach Signifikanz ordnen.
3. Kookkurrenzprofil visualisieren (z. B. Häufigkeiten, LLR-Werte) und interpretieren.
4. Reziprokanalyse: Prüfen, welche syntaktischen Konstruktionen gemeinsam auftreten.
5. Kontextuelle Verifikation: Stichprobenhafte Durchsicht von Belegstellen zur Validierung automatischer Befunde.
6. Vergleich mit lexikographischen Einträgen (kritisch): Prüfen, wo Wörterbuchangaben verallgemeinern oder fehlen.
> Definition: LLR-Wert (Log-Likelihood Ratio) ist ein statistisches Maß