CLARIN

– Wspólne zasoby językowe
i infrastruktura technologiczna

Decyzja: FENG.02.04-IP.04-0004/24
Program: Fundusze Europejskie dla Nowoczesnej Gospodarki 2021-2027
Priorytet: Środowisko sprzyjające innowacjom
Beneficjent programu: Wydział Komunikacji Społecznej i Mediów Uniwersytetu Wrocławskiego
Czas realizacji: 1.01.2025—31.12.2027

free responsive site templates
Mobirise

Cele programu  

Prace w projekcie są realizowane przez pięć jednostek naukowych z konsorcjum CLARIN-PL (Politechnika Wrocławska – lider, Instytut Podstaw Informatyki PAN, Uniwersytet Łódzki, Instytut Slawistyki PAN, Uniwersytet Wrocłąwski) w ramach pięciu zadań projektowych. 

Zadanie 1. Infrastruktura badawcza generatywnych technologii językowych dla nauk humanistycznych i społecznych – część PWr 

Zadanie 2. Infrastruktura badawcza generatywnych technologii językowych dla nauk humanistycznych i społecznych – część IPI PAN 

Zadanie 3. Infrastruktura badawcza generatywnych technologii językowych dla nauk humanistycznych i społecznych – część UŁ 

Zadanie 4. Infrastruktura badawcza generatywnych technologii językowych dla nauk humanistycznych i społecznych – część IS PAN 

Zadanie 5. Infrastruktura badawcza generatywnych technologii językowych dla nauk humanistycznych i społecznych – część UWr.

Zadania WKSiM jako partnera

Planowane w projekcie prace konsorcjanta dotyczą konstrukcji korpusów tekstów (Korpusu prasy polskiej ChronoPress – lata 1969-1972), anotacji semantycznej i analizy danych językowych. Działania te obejmują tok przetwarzania, na który składa się: pozyskanie danych ze źródeł drukowanych i/lub cyfrowych, kuracja danych, wstępne przetworzenie obejmujące m.in. tagowanie morfosyntaktyczne, dodanie metaopisów i integracja z bazą danych. Najbardziej innowacyjnym modułem przetwarzania będą oryginalne narzędzia text-miningowe, pozwalające na eksplorację danych i wydobywanie z nich informacji przedstawianej w formie wizualizacji graficznych i danych wynikowych w formatach tabelarycznych. Dane te będą także wykorzystywane w trenowaniu wielkiego modelu generacyjnego PLLUM, opartego na zasobach języka polskiego, administrowanego przez Politechnikę Wrocławską.

Mobirise