korpusy referencyjne, korpusy równoległe, ekwiwalencja
TRANSCRIPT
KORPUSY REFERENCYJNE, KORPUSY RÓWNOLEGŁE,
EKWIWALENCJA FRAZEOLOGICZNAPiotr Pęzik
Uniwersytet Łódzki
POTRZEBY TŁUMACZY• http://forum.mlingua.pl/archive/index.php/t-12612.html
• “Witam, od pewnego czasu szukam jakiegokolwiek słownika internetowego dot. kolokacji w j. polskim, czy ktoś mógłby mi pomóc? Czy taki słownik w ogóle istnieje? Myślę,że byłby on bardzo przydatny przy tłumaczeniu na język polski :) niekiedy tłumaczy się teksty nie wiedząc wcale, że dana kolokacja nie istnieje…” (KarolinaS)
• Kolokator pojawił się już właśnie na podanej wcześnien stronie: Narodowy Korpus Języka Polskiego.Wspaniała rzecz! KOLOKATOR (http://nkjp.uni.lodz.pl/collocations.jsp)
• Cudowna strona, właśnie czegoś takiego szukałam! Dziękuję:D (Joanna Ch.)
• “A nie wystarczyłby słownik frazeologizmów?” (Adriano)
• “Smutne, że tzw. tłumacze z tego forum nie widzą różnicy pomiędzy kolokacją a frazeologizmem…” (Janko Muzykant)
• “Istnieją dwa poglądy na temat tego czym są kolokacje. Dla jednych są to wyłącznie połączenia wyrazowe, które nie są idiomami, inni natomiast dzielą je na DWIE grupy: na połączenia utrwalone semantycznie (frazemy) należące do frazeologii i połączenia doraźne (syntaktyczne, gramatyczne), zwane też produktami języka. Mam nadzieję, że nieścisłość została już wyjaśniona”. Jo_asia
ROLA PAMIĘCI W UŻYCIU JĘZYKA• “The central fact to which any significant linguistic theory must address itself is this:
a mature speaker can produce a new sentence of his language on the appropriate occasion, and other speakers can understand it immediately, though it is equally new to them.” (Chomsky 1964:1)
• “It is evident that rote recall is a factor of minute importance in ordinary use of language, that a minimum of the sentences that we utter is learnt by heart as such -- that most of them, on the contrary, are composed on the spur of the moment and that one of the fundamental errors of the old science of language was to deal with all human utterances, as long as they remain constant to the common usage, as if something merely reproduced from memory” (Chomsky 1964:8), (Paul 1886).
• Sentences appear "for the first time in the history of the universe” (Pinker 2007:9).
• “Speakers do at least as much remembering as they do putting together.” (Bolinger 1979)
• “All the evidence points to an underlying rigidity of phraseology, despite a rich superficial variation” (Sinclair 1991)
ROLA PAMIĘCI W UŻYCIU JĘZYKA
FUNKCJE FRAZEOLOGII W JĘZYKU
• Użycie gramatyczne nie zawsze jest użyciem idiomatycznym
• Sen czterolatka: “Potwór spadł z wysoka i zrobiła mu się krew.”
• Frazem i syntagma
ROZWÓJ KOMPETENCJI JĘZYKOWYCH
FUNKCJE FRAZEOLOGIIPhrasemes(
Referen,al(
,(
((
Textual(
Complex(preposi,ons,(Complex(
conjunc,ons,(Linking(adverbials,(Textual(sentence(stems,(lexical'
bundles((
Communica,ve(
Speech(act(&(aA,dunal(formulae,(
Proverbs,(Commonplaces,(Slogans,(Idioma,c(
sentences,(Quota,ons,(Jokes,'Internet'memes,'
Prayers(
(Burger 1998), (Granger & Paquot 2004)
FRAZEMATYKA• Frazematyka Chlebdy jako syntetyczne ujęcie “ścierania się czynników twórczych i
odtwórczych” w języku
• „Co w naszych wypowiedziach jest cudze, przywoływane z zewnątrz, przejmowane od kogoś czy powtarzane za kimś (a więc co jest odtwarzane, reprodukowane), co zaś naprawdę własne, tj. indywidualne, niepowtarzalne? ” (Chlebda 1991)
• „Kierunek postępowania badawczego jest we frazematyce odmienny niż w teorii standardowej: do języka i jego jednostek wielowyrazowych dociera się poprzez analizę zespołu wielkich kontekstów – historycznych, kulturowych, społecznych – w których nieustannie ścierają się z sobą czynniki odtwórcze (przejmowane) i twórcze (tworzone). Frazematyka jest organicznie w ten zespół kontekstów wpisana, stanowiąc werbalną, realizującą się w tekstach ludzkich wypowiedzi, kondensację procesów i mechanizmów odtwórczości/twórczości wszelkich działań człowieka.” (Chlebda 1991)
DWIE ZAGADKI• Bez uwzględnienia roli formuliczności nie można zrozumieć, w
jaki sposób osiągamy:
• “Native-like fluency”: do kilku słów na sekundę w języku konwersacyjnym
• “Native-like selection”: selekcja nielicznych kombinacji idiomatycznych z licznego zbioru kombinacji gramatycznych
(Pawley & Syder 1983)
FRAZEOLOGIA JAKO PAMIĘĆ PODRĘCZNA
• Locality Principle: “People gather the most useful objects close around them to minimize the time and work of using them.” (P. Denning)
• Użycie frazemu jako “cache hit”.
• Z punktu widzenia nadawcy jest to również użycie łatwiejsze, bo wymaga mniej wysiłku włożonego w kompozycyjne generowanie języka. Komunikat jest też bardziej odporny na zakłócenia.
• Odbiorca zaś wkłada mniej wysiłku w interpretację komunikatu, ponieważ frazemy mają zazwyczaj skonwencjonalizowane znaczenia i pojawiają się w typowych dla siebie kontekstach.
• Użycie syntagmy można opisać jako przypadek “cache miss”.
ROZMIARY PAMIĘCI PODRĘCZNEJ
• Tysiące idiomów czystych i figuratywnych zaświadczonych w słownikach
• Dziesiątki tysięcy kolokacji z wyrazem uwięzionym oraz kolokacji ograniczonych (restricted collocations, por. Mielczuk 1998)
• Setki tysięcy kolokacji otwartych i tzw. “open-ended collocations” (Cowie, Mackin, and McCaig 1993)
HASK
• pelcra.clarin-pl.eu/hask_pl
• pelcra.clarin-pl.eu/hask_en
PAMIĘĆ TŁUMACZA
• Tłumacz komponuje/generuje/produkuje tekst tłumaczenia
• Na poziomie fraz, a także tzw. łańcuchów kolokacyjnych tłumacz poszukuje i przywołuje z pamięci gotowe frazemy, których następnie używa jako translatów dla napotkanych w oryginale translandów (por. Bogusławski 1988, Chlebda 2011)
• W ten sposób zapewnia minimalny poziom ekwiwalencji frazeologicznej pomiędzy oryginałem a tłumaczeniem
PAMIĘTANIE A PRZYPOMINANIE
• Tłumacz, jako rodzimy użytkownik języka docelowego “pamięta” miliony frazemów
• Tłumacz inaczej niż działający w innych kontekstach użycia użytkownicy języka docelowego musi również przypominać sobie niektóre z milionów frazemów jako potencjalne ekwiwalenty frazemów z oryginału
TOROWANIE FRAZEOLOGICZNE
PRZYPOMINANIE
• Tłumacz inaczej niż działający w innych kontekstach użycia użytkownicy języka docelowego musi również przypominać sobie niektóre z milionów frazemów
• W procesie tłumaczenia brakuje istotnej części językowego i niejęzykowego kontekstu użycia frazemów
ADJ + NOS• http://pelcra.clarin-pl.eu/hask_pl/browser?
eh=11893b6a18cd0838e62d6b4cdd0b27c3
FRAZEM—SYNTAGMA
• Istnieje ryzyko odwzorowania frazemu z oryginału na syntagmę w tłumaczeniu
• Pojedyncze odwzorowania frazem-syntagma są niegroźne, czasem wręcz nieuniknione
NIEDOSTATECZNY POZIOM EKWIWALENCJI
• W oryginale występują liczne frazemy przetwarzane przez odbiorców tekstu w trybie “cache-hit”
• W tłumaczeniu występują gramatyczne ale nie idiomatyczne syntagmy
• W dużych ilościach syntagmy znacząco obniżają komunikatywność tłumaczenia, zwiększają wysiłek kognitywny potrzebny do zrozumienia tekstu
• Czytelnicy muszą operować w trybie “cache-miss”
ROLA KORPUSÓW• K. referencyjny może wspomagać proces przywoływania z pamięci
tysięcy kontekstów użycia związków wyrazowych o bardzo różnym stopniu kompozycyjności i utrwalenia, od idiomów czystych po otwarte kolokacje
• KRef i ich pochodne pomagają weryfikować translaty (Chlebda 2011) słownikowe
• Korpusy Równoległe i tzw. pamięci tłumaczeniowe. pomagają weryfikować translaty słownikowe i tekstowe. Nie tylko wspomagają, ale też zastępują pamięć tłumacza
FRAZEM — FRAZEM
• https://www.youtube.com/watch?v=SBvmKwnGufI&feature=youtu.be&t=190
• “just blew my mind”
• “powaliło mnie na kolana”
BLOW ONE’S MINDCOCA Corpus
1 This is the painting that blew everyone 's mind
. [CBS_Morning]
2 His expression at the finale indicates a lot more than the fact
that you completely
blew his mind , say experts . [Cosmopolitan]
3 as many numbers on a square of unit side as there are on the side ,
so -- and that
blew his mind . [NPR_Science]
4 And a word blew into my mind , blew as a fire does , fierce and crackling hot : <Kara.> And an answering word formed in my mind
[Flight of the Dragon Kyn]
5 She 's @ @ @ @ @ @ @ @ @ @ what really
blew my mind was when I walked out -- because we could n't stay there .
[Ind_Geraldo]
POWALIĆ KOGOŚ NA KOLANA
1 Górnicze Marklowice chcą
powalić Europę na kolana . Trybuna Śląska
2Zamiast więc
błysnąć przed prezesem i
powalić go na kolana
, bo przecież miał taki zamiar , to sam oberwał w szczękę i robił wielkie oczy ze zdziwienia , że powalon został .
Blog Polonka54
3
O przyszłości gminnego
zakładu zdecyduje to , czy
powali na kolana i zaproponuje ceny poniżej kosztów świadczonej usługi . Gazeta Poznańska
4Agnieszka
zapytana o to , czy trudno było
powalić na kolana
takiego kolosa jak Petertil , wesoło odpowiada – A jak pan myśli …
Gazeta Wrocławska
5
Wątpię , by współczesnych
czytelników jakakolwiek
powalić na kolana . Gazeta Wyborcza
NKJP
FRAZEM — SYNTAGMA
http://www.economist.com/node/14966227
FRAZEMY W ORYGINALE
FRAZEMY W ORYGINALE
PRZYKŁAD TŁUMACZENIA
• O: Why political orthodoxy must not silence scientific argument.
• T: Dlaczego ortodoksja polityczna nie może uciszyć kłótni naukowej.
POLITICAL ORTHODOXYCOCA
1 the intellectual foundation that would later enable him to challenge the
political orthodoxy of both the left and the right . [Houston
Chronicle]
2 slightly uneasy about it because he could be perceived as following a
political orthodoxy rather than thinking for himself . [Too Soon to
Tell]
3 Defining political orthodoxy
as exclusively liberal has brought a pleasant bonus to the sort of
[Too Soon to Tell]
4hey were used to help motivate troops and maintain a high level of combat readiness
and
political orthodoxy .
[Armed Forces & Society (Transaction Publishers)]
5 should be measured as a normative matter by a person 's adherence to a particular
political orthodoxy .
[Harvard Journal of Law & Public Policy]
ORTODOKSJA POLITYCZNA
NKJP
NAUKOWE KŁÓTNIE• “- Co roku spotykamy się - my, właściciele
ośrodków wczasowych, i władze samorządowe. Od kilku lat trwają badania, dyskusje i naukowe kłótnie na temat tego, jak zwalczyć sinice - dziwi się Joachim Gorus.” (NKJP, Nowa Trybuna Opolska, 2006)
• 1 wystąpienie na 1.5 miliarda słów. Syntagma?
SPÓR/DEBATA NAUKOWA
FRAZEM — ?
DROGOWY GNIEW
GNIEW NA DRODZE
AGRESJA NA DRODZE
• Ekwiwalent tekstowy, czy słownikowy?
ROAD RAGE
KIEDY KORPUS NIE NADĄŻA
• Product placement
• Kryptoreklama (783 wystąpienia w NKJP)
• Audycja zawiera(ła) lokowanie produktu (0 wystąpień w NKJP)
KORPUSY RÓWNOLEGŁE• Pełnią rolę pamięci tłumaczeniowych
• Faktyczne, a nie tylko możliwe translaty
• Powinny umożliwiać dużo bardziej zaawansowaną analizę lingwistyczną danych niż zwykłe pamięci tłumaczeniowe
• Możliwość definiowania przeszukiwanych zbiorów
NARZĘDZIA
• http://pelcra.clarin-pl.eu/
• Wyszukiwarka PELCRA dla NKJP (nkjp.uni.lodz.pl)
• Wyszukiwarka SlopeQ dla NKJP: http://pelcra.clarin-pl.eu/NKJP
• Słowniki kombinatoryczne HASK PL i HASK EN
• Wyszukiwarka SlopeQ dla BNC: http://pelcra.clarin-pl.eu/SlopeqBNC/
• Wyszukiwarka Paralela http://paralela.clarin-pl.eu/
SLOPEQ DLA NKJP• http://pelcra.clarin-pl.eu/NKJP
• Nowa wyszukiwarka dla danych NKJP (nkjp.uni.lodz.pl)
• Bogatsza składnia, lepsze wizualizacje, lepsze wyszukiwanie metadanych
• Fasety wyszukiwania
• Eksport danych, dostęp programistyczny
KONKORDANCJE
KWIC• KeyWords In Context
• Liczba trafień podana w zdaniach
• Dokładna liczba wystąpień liczona na pobranej próbce
• Domyślny zestaw kolumn metadanych może być zmieniony
• Do 10 tys. konkordancji na stronie lub w formacie JSON, do 100 tys. w arkuszu Excela
• Pełne wyniki dostępne przez stronnicowanie
EXCEL# Left Match Right Source Text Id Nkjp Id
1Do pół litra wody wsypać po łyżeczce różnych aromatycznych przypraw , takich jak : " Jarzynka " albo " Vegeta " , sól , pieprz ziołowy ,
tymianek albo oregano , kilka suszonych grzybków , 2 - 3 ząbki czosnku drobno pokrojone i wszystko
Wegetariańskie okruchy 5eGx9 IJPPAN_k1235
39
2We wróżeniu według dawnej wiedzy druidów pomocne były : byli - ca pospolita , cykoria podróżnik , jałowiec , jesion , krwawnik pospolity ,
tymianek . Kod druidów i sekrety celtów 4BMEg IJPPAN_k1232
85
3Gdy mięso będzie rumiane , dorzucić czosnek nie obrany , cebule poćwiartowane ,
tymianek i pokruszony liść laurowy . Panorama Mazurska 4j9nz PWN_1202900
000728
4 • kwaśne owoce , tymianek , lipa , lukrecja , imbir – herbata naturalna Trybuna Śląska 4pqon IJPPAN_PolPr_
TS01156
5Wsypać do garnka z większą ilością wody , dosypać pół szklanki kaszy , ryżu lub makaronu , przyprawić czosnkiem i ziołami ( np . ziołowy
tymianek , albo majeranek , listek laurowy i angielskie ziele ) .
Wegetariańskie okruchy 5eGx9 IJPPAN_k1235
39
650 dag łopatki wołowej • 50 dag łopatki baraniej • 50 dag łopatki wieprzowej • 1 kg ziemniaków • 25 dag cebuli • czosnek • pieprz • sól •
tymianek • natka pietruszki • 1 / 2 l białego wina • mąka • woda Polityka 6zRoA IJPPAN_p0000
2620046
7 Z przypraw - szałwia i tymianek . Dziennik Polski 6npgLq IPIPAN_1301920020921
8 Majeranek , tymianek czy bazylia poprawiają smak zarówno góralskiej kwaśnicy jak i włoskiego spaghetti .
Trybuna Śląska 6RMrE IJPPAN_PolPr_TS00250
9 Dodać tymianek , pietruszkę , liść laurowy i listki selera , po czym przykryć i gotować 1 / 2- 1 godziny – aż groszek będzie
Trybuna Śląska 8Ryey IJPPAN_PolPr_TS00902
FASETY
• Pełne wyniki są agregowane po metadanych
• Podawane są wielkości całkowite każdej kategorii
• Istnieje możliwość filtrowania kolejnych wyników po fasetach
• Aktualnie wyświetlane fasety: kanał, typ funkcjonalny, auto kategorie wiki
AUTO KATEGORIE
AUTO KATEGORIE
AUTO KATEGORIE
WIZUALIZACJA FASET
OPCJE WYSZUKIWANIA
• Składnia DisMax dla metadanych• Wielostopniowe sortowanie (głębokie)• Podkorpus• Grupowanie/próbkowanie
WIZUALIZACJA FASET
• Na wykresach podane są częstości znormalizowane (w tabeli również zwykłe)
• Możliwe jest pobranie wykresu w formacie wektorowym
• Możliwe kolejne fasety (słowa kluczowe, autorzy, itd.)
SKŁADNIA
• Zapytania o formy
• Zapytania o lematy
• Zapytania o części mowy
WARIANTYWNOŚĆ FRAZEMÓW
• JJ+EST EVER TO WALK THE EARTH
ADJ:SUP + SUBST + KIEDYKOLWIEK <LEMMA=CHODZIĆ> PO ZIEMI
ZAPYTANIA
• (ever to walk earth|planet)=3
• (kiedykolwiek po ziemi)=4
• (kiedykolwiek <lemma=chodzić> po ziemi)=2
• (kiedykolwiek <pos=verb.+> po ziemi)=4
JJ+EST EVER TO WALK THE EARTH
(KIEDYKOLWIEK PO ZIEMI)=4
OPEN-ENDED COLLOCATIONS
• (Cowie, Mackin, and McCaig 1993), walencja
• O: The SMOS spacecraft launched on Monday to study the Earth’s water cycle has passed a key mission milestone.
• T: Wystrzelony w poniedziałek statek kosmiczny SMOS (ang. Soil Moisture and Ocean Salinity) mający na celu obserwację obiegu wody na Ziemi osiągnął już najważniejszy etap swej misji.
MIEĆ NA CELU• <lemma=mieć> na celu
• mieć** na celu
• poprawka, zmiana, ustawa, projekt, działanie, nowelizacja, akcja, przedsięwzięcie, rozwiązanie, spisek, ćwiczenia, spotkanie
• działanie/czynność
HASK• słowniki kombinatoryczne wygenerowane z BNC i NKJP
• Przykłady zapytań:
• kawa
• herbata
• straszny, przerażający (kolozaurus)
• zamożny, majętny (kolozaurus)
• francuski, rosyjski, niemiecki, grecki (kolozaurus)