Text Mining #
Definition #
Prozess der
- Zusammenstellung und
- Organisation,
- formalen Strukturierung und
- algorithmischen Analyse
grosser Dokumentensammlungen zur
- bedarfsgerechten Extraktion von Informationen und zur
- Entdeckung versteckter inhaltlicher Beziehungen zwischen Texten und Textfragmenten
Methodik #
- Auswahl von geeignetem Datenmaterial
- Aufbereitung des Datenmaterials
- Analyse des Datenmaterials
- Ergebnispräsentation
Datenmaterial #
- Datenmaterial sollte gewisse Ähnlichkeiten hinsichtlich der Grösse, Sprache und Thematik aufweisen, weisen aber in der Regel keine einheitliche Datenstruktur auf (“freies Format”)
Datenaufbereitung #
- Überführung der Dokumente in ein einheitliches Format (heute meist XML)