Codebase list hkgerman / HEAD
HEAD

Tree @HEAD (Download .tar.gz)

-------------------------------------------------------------------------
			     hk2-deutsch
	  Ein deutsches W"orterbuch zur Rechtschreibkontrolle
		       mit dem Programm ispell
			     (Version 2)
-------------------------------------------------------------------------

Bei einer automatischen Rechtschreibkontrolle sollen Schreibfehler in
einem Text von einem Pr"ufprogramm gefunden werden. Die korrekte
Schreibweise wird dazu in einem W"orterbuch hinterlegt. 

Bei der Zusammenstellung des W"orterbuchs sind jedoch die drei
folgenden Kriterien zu ber"ucksichtigen.

1) Voraussetzung f"ur zuverl"assige Ergebnisse ist, da"s das
W"orterbuch selbst m"oglichst keine Fehler enth"alt. 

2) Das W"orterbuch mu"s einen breiten Wortschatz abdecken. Andernfalls wird
das Pr"ufprogramm viele korrekte W"orter eines Textes als falsch
abweisen, die nicht in dem W"orterbuch enthalten sind. Dieses Verhalten
ist l"astig und versperrt den Blick auf die wahren Fehler.

3) Es ist notwendig, da"s ein W"orterbuch nicht zu viele W"orter
enth"alt. Zum einen kann ein selten verwendetes Wort gerade so
geschrieben werden wie ein falsch geschriebenes Wort in dem zu
pr"ufenden Text, welches dann nicht als fehlerhaft erkannt wird. Zum
anderen belastet ein sehr gro"ses W"orterbuch den Arbeitsspeicher eines
Computers evtl. so sehr, da"s die Pr"ufung unertr"aglich lange dauert.

Eigenschaften
-------------

Ich habe dieses W"orterbuch hk2-deutsch unter den oben genannten Kriterien
zusammengestellt. Besonderen Wert habe ich auf die Punkte 2 und 3
gelegt.

Um Fehler auszumerzen, habe ich zum einen durch Suchen nach falsch
klingenden Zeichenketten bzw. regul"aren Ausdr"ucken die zu
betrachtenden W"orter eingegrenzt. Zum anderen habe ich gro"se Teile
Wort f"ur Wort durchgesehen. Hilfreich waren auch die zahlreichen
R"uckmeldungen, die ich zur 1. Version dieses W"orterbuchs erhalten
habe.

Dieses W"orterbuch liegt nicht als eine gro"se Datei vor, sondern die
W"orter sind nach verschiedenen Kriterien in einzelne Dateien
aufgeteilt. Dadurch wird es m"oglich, ein relativ kleines W"orterbuch
zusammenzustellen, das den individuellen Anforderungen leichter
gen"ugt.

Inhalt der Teilw"orterb"ucher
-----------------------------

Es folgt eine Beschreibung der einzelnen Dateien und der Kriterien,
nach denen die Aufteilung der Worte vorgenommen wurde.

gross		gro"s geschriebene Worte, hoffentlich nur noch Substantive
verben		Verbformen, keine Befehlsformen
adjektive	Adjektive
klein           Zahlworte, F"urworte, ...
imperat         gebr"auchliche Befehlsformen
abkuerz         gebr"auchliche Abk"urzungen
vornamen        gebr"auchliche Vornamen
geographie	gebr"auchliche geographische Begriffe
latein          lateinische Redewendungen (et cetera)
oesterreich	in "Osterreich gebr"auchliche Worte
informatik      Fachbegriffe aus dem Bereich der Datenverarbeitung
infoabk         gebr"auchliche Abk"urzungen aus dem EDV Bereich
elektronik      Fachbegriffe und Abk"urzungen aus dem Bereich Elektronik
alphabeta	einige griechische Buchstaben
roemisch	einige r"omische Zahlen
orgabk          Abk"urzungen als Bezeichnung von Organisationen 
marken          Namen von Firmen und Produkten
worte2		weitere Substantive (noch unvollst"andig)
zusammen        zusammengesetzte Begriffe (sehr gemischt und wenig gepr"uft)
technik         teilweise merkw"urdige technische Begriffe 
compeng         Computer-Englisch, insbesondere deutsch-englische Mischw"orter
geogra2         weitere geographische Begriffe
vornam2         weitere Vornamen
namen           Nachnamen bekannter Personen, G"otter, Sagengestalten, ...
abkuerz2        weitere Abk"urzungen
seltenes        wirklich seltene Worte, ungebr"auchliche Beugungsformen

Die Dateien gross, verben, adjektive, klein, imperat und abkuerz
dienen als Grundlage f"ur ein W"orterbuch, das evtl. mit weiteren
Teilw"orterb"uchern angereichert werden mu"s.

Installation
------------

Ich empfehle, folgende Worte in ein W"orterbuch aufzunehmen:

worte           immer
verben          immer
adjektive       immer
klein           immer
imperat         eher ja
abkuerz         eher ja
vornamen        eher ja
geographie      eher ja
latein          eher ja
oesterreich	bei Bedarf
informatik      bei Bedarf
infoabk         bei Bedarf
elektronik      bei Bedarf
alphabeta       bei Bedarf
roemisch        bei Bedarf
orgabk          bei Bedarf
marken          bei Bedarf
worte2		f"ur ein gro"ses W"orterbuch
zusammen        f"ur ein gro"ses W"orterbuch
technik         eher nicht
compeng         eher nicht
geogra2         eher nicht
vornam2         eher nicht
namen           eher nicht
abkuerz2        nicht
seltenes        nicht


F"ur das Programm ispell wird eine Datei `deutsch.hash'
ben"otigt. Diese erstellt man am einfachsten durch Eingabe von `make',
nachdem man in dem beiliegenden `Makefile' die Variable `WORTE' an die
eigenen Bed"urfnisse angepa"st hat.

Die Datei `deutsch.aff' in der ispell Distribution ist nicht kompatibel zu den
hier verwendeten Affixen. Daher ist unbedingt das beiliegende
`deutsch.aff' zu verwenden!

F"ur ispell sind keine besonderen Parameter notwendig.
Der Defaultwert `#define MASKBITS 32' ist ausreichend.

Nach der Installation der Dateien `deutsch.aff' und `deutsch.hash' an
geeigneter Stelle (siehe `ispell -vv|grep LIBDIR')
ruft `ispell -d deutsch' das deutsche W"orterbuch auf.

Verbesserungsvorschl"age
------------------------

Ich bin an einer weiteren Verbesserung dieses W"orterbuchs
interessiert. Dazu geh"oren beispielsweise 
- Hinweise auf fehlerhafte Worte oder Beugungsformen, 
- Aufteilung in weitere Fachw"orterb"ucher, z. B. Medizin
- Aufteilung in gebr"auchliche und weniger gebr"auchliche Worte,
- Erg"anzungen um fehlende gebr"auchliche Worte.
Sendet Eure Vorschl"age bitte an die unten angegebene E-mail Adresse.

Vorarbeiten
-----------

Dieses W"orterbuch basiert auf Dateien von Martin Schulz, die man
z.B. in
/ftp.th-darmstadt.de:/pub/dicts/ispell/dictionaries/deutsch.tar.gz
finden kann. Bereits dort wurde die Idee der Teilw"orterb"ucher
verfolgt. Wesentliche "Anderungen zu dem urspr"unglichen W"orterbuch
von Martin Schulz und zu der ersten Version dieses W"orterbuchs
(hk-deutsch) habe ich in der Datei `Changes' dokumentiert.

Ispell
------

Das Programm ispell ist verf"ugbar in /ftp.cs.ucla.edu:pub/ispell-3.1.
Diese W"orterbuch wurde mit den Versionen ispell-3.1.18 und
ispell-3.1.20 verwendet. 

Um Ispell auf Texte mit deutschen Umlauten anwenden zu k"onnen, ist es
je nach Kodierung mit der Option -Ttex oder -Tlatin1
aufzurufen. Weitere Codierungen sind in der Datei `deutsch.aff'
erl"autert. Falls haupts"achlich deutsche Texte gepr"uft werden, so
sollte man die Environment-Variable `DICTIONARY' auf den Wert
`deutsch' setzen. Dann braucht die Option `-d deutsch' beim Aufruf von
ispell nicht mehr angegeben zu werden.
   

Viel Spa"s mit fehlerfreien Texten w"unscht

--Heinz

Heinz Knutzen                    E-mail: hk@informatik.uni-kiel.d400.de
Lange Reihe 14c, 24244 Felm