Automatyczne wykrywanie nominalnych zależności referencyjnych w polskich tekstach współczesnych – PDF

Maciej Ogrodniczuk

Autor: Ogrodniczuk Maciej

Data wydania: 2019-03-18

Wydawca: Wydawnictwa Uniwersytetu Warszawskiego

Open access
Pobierz

Dodaj publikację do ulubionych Dodaj do porównania

Wydanie:	1
Miejsce i rok wydania:	Warszawa 2019
Język publikacji:	polski
ISBN/ISSN:	978-83-235-3630-7
EAN:	9788323536307
Liczba stron:	192
Wielkość pliku:	4,41 MB
Typ publikacji:	Praca naukowa , Open access
DOI:	https://doi.org/10.31338/uw.9788323536307

Książka powstała w wyniku badań lingwistyczno-informatycznych nad automatycznym dekodowaniem relacji referencyjnych w tekstach polskich.

Autor przedstawia propozycję taksonomii relacji tego rodzaju i wykorzystuje ją w procesie budowy reprezentatywnego, ręcznie anotowanego korpusu zależności referencyjnych, który powstał na bazie tekstów Narodowego Korpusu Języka Polskiego. Dane korpusu używane są do wytrenowania kilku systemów do wykrywania wzmianek i koreferencji reprezentujących różne metodologie algorytmiczne – regułową, statystyczną, algorytm sita, głębokie sieci neuronowe – oraz integrujących bogate zasoby lingwistyczne i z zakresu wiedzy ogólnej: rozszerzenia formalnej gramatyki języka polskiego, dane słownika walencyjnego czy bazę wyrażeń omownych.

Przetestowanych zostaje kilkaset cech wzmianek do wykrywania koreferencji oraz kilka konfiguracji sieci neuronowej. Powstaje także prototypowa konfiguracja metody wykrywania relacji agregacyjnych, kompozycyjnych i predykatywnych. Formalna ewaluacja powstałych systemów wykazuje wyniki porównywalne z systemami tego typu dla innych języków.

Publikacja na licencji Creative Commons Uznanie autorstwa 3.0 PL (CC BY 3.0 PL) (pełna treść wzorca dostępna pod adresem: http://creativecommons.org/licenses/by/3.0/pl/legalcode).

*********

Automatic detection of nominal coreference in contemporary Polish texts

The book features the findings of computational linguistics research on the automatic decoding of referential relations in Polish texts. The author presents a specific definition of coreference, constructs a representative corpus of coreference using texts from the National Corpus of Polish, implements systems for detecting mentions and coreferences, and evaluates them, achieving results comparable with systems of this kind for other languages.

Keywords: reference, coreference resolution, anaphora, association, Polish language processing, National Corpus of Polish.

Bibliografia