Die Corpuslinguistik ist ein recht breiter Zweig der Linguistik bzw. der Computerlinguistik; im Gegensatz - oder besser gesagt: komplementär - zur theoretischen Linguistik befaßt sich die Corpuslinguistik mit Methoden der Extraktion von Informationen aus Texten und Sprachaufnahmen. Diese Methoden können symbolisch oder numerisch sein und die Aufgaben der Corpuslinguistik umfassen eine Vielzahl von Bereichen:
Ob die Corpuslinguistik wirklich eine eigenständige Teildisziplin, oder eher ein Dachbegriff für bestimmte empirische Methoden darstellt, ist trotz jahrzehntelanger Diskussion zwar noch eine interessante, aber nicht wirklich eine zentrale Fragestellung.
Die Einführung von Carstensen, Ebert, Endriss, Jekat, Klabunde und Langer enthält eine Fülle von Informationen über corpuslinguistische Fragestellungen. Das heutige Ressourcen-Paradigma, das sich mit der Erstellung hochwertiger empirischer Materialien - Texte, Sprachaufnahmen, Lexika, Grammatiken - für die linguistische Forschung und die sprachtechnologische Forschung und Entwicklung, geht letztlich zu einem großen Teil auf die Corpuslinguistik zurück.
Die Corpuslinguistik erfordert schon wegen der Notwendigkeit, große Datenmengen zu verarbeiten, den Einsatz von Computermethoden und kann sogar als Geburtsdisziplin der Computerlinguistik angesehen werden. Heute ist der wichtigste Methodenbereich der Corpuslinguistik die Annotation, also systematische Indizierung von Elementen eines Corpus zum Zweck der Archivierung und des späteren Information-Retrieval, der Informationssuche in Texten usw. Die Annotationen eines annotierten Textes werden oft als markup bezeichnet.
Das bekannteste Markup-System ist HTML, mit dem Dokumente für den praktischen Einsatz in den Hypertextkontexten des World-Wide-Web annotiert werden und eine Spezialanwendung der allgemeinen Markup-Sprache SGML darstellt. Das World-Wide-Web baut unmittelbar auf diesen, der Corpuslinguistik sehr nahestehenden Entwicklungen auf.
Im Laufe der Jahre wurden viele Programmiersprachen für die Entwicklung von corpuslinguistischen Werkzeugen eingesetzt. In den 1970er Jahren wurde Snobol verwendet; in den 1990er Jahren TuStep was quite frequently used in Germany; in den 1980er und 1990er Jahren wurde (und wird) awk verwendet, und seit Anfang der 1990er Jahre ist Perl zu einem Standard geworden. Ein für Programmiersprachen nichtklassisches Merkmal dieser Sprachen besteht darin, daß sie Strings (Buchstabenketten) verarbeiten können. Dies wird durch die Bereitstellung eines internen Mechanismus gewährleistet, die garbage collection heißt und dafür sorgt, daß Strings, die nicht mehr benötigt werden, gelöscht werden, damit der von ihnen beanspruchte Speicher weitergenutzt werden können. Ohne die garbage collection würde der Speicher mit unbenutzten alten Strings langsam volllaufen.