Transcript Wykład 2

Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation)

1

dr inż. Agenor Hofmann-Delbor Techniki lokalizacji oprogramowania – wykład 2

1 / 19

Plan wykładu •Omówienie technologii pamięci tłumaczeń •Czym jest technika wyszukiwania rozmytego •Jak działają algorytmy wyszukiwania rozmytego •Czym są pliki bilingwalne

2

•Najistotniejsze komercyjne i darmowe narzędzia CAT Techniki lokalizacji oprogramowania – wykład 2

2 / 19

Tłumaczenie maszynowe MT a pamięć tłumaczeń    Oryginalny tekst angielski ze strony dużej korporacji: „Read the official press release“

3

Tłumaczenie przy użyciu programu tłumaczącego: „Przeczytany osoba urzędowa (oficjalny) ścisk (prasa) zwolnienie“ Techniki lokalizacji oprogramowania – wykład 2

3 / 19

Pamięć tłumaczeń •Baza danych przechowująca tzw. segmenty, czyli fragmenty tekstu w języku źródłowym powiązane z odpowiadającym im fragmentom w języku docelowym •Mają z reguły ściśle określony „kierunek” językowy, wyszukiwanie odbywa się zwykle w języku źródłowym •Jak każda baza wymaga operacji administracyjnych, reorganizacji itp..

•Pamięć tłumaczeń to kapitał firm i organizacji •Korzystanie z pamięci tłumaczeń umożliwia wycenę projektu i ocenę jego czasochłonności przed jego rozpoczęciem Techniki lokalizacji oprogramowania – wykład 2

4 / 19

Pamięć tłumaczeń – c.d.

5

Techniki lokalizacji oprogramowania – wykład 2

5 / 19

Czas tłumaczenia a wielkość pamięci tłumaczeń

Czas 1 rok Dokument 6 Tłumaczenie Publikacja 2 rok Dokument Tłumaczenie Publikacja 3 rok Dokument Tłumaczenie Publikacja

Techniki lokalizacji oprogramowania – wykład 2

6 / 19

Typowy model pracy z pamięciami tłumaczeń

Pamięć tłumaczeń Baza terminologii 7 Każdy tłumacz dostaje podpowiedzi z całej bazy (tłumaczenia swoje i innych tłumaczy)

Techniki lokalizacji oprogramowania – wykład 2

7 / 19

Przeszukiwanie pamięci tłumaczeń Wyszukiwanie podobnych segmentów Pamięć tłumaczeń (baza TM)

8

Wyświetlenie najbardziej trafnych podpowiedzi Fragment tekstu do tłumaczenia. Techniki lokalizacji oprogramowania – wykład 2

8 / 19

Tłumaczenie z użyciem pamięci tłumaczeń

Podpowiedzi terminologii z bazy terminologii (słownika) 9 Zdanie oryginalne wraz z tłumaczeniem zostaje wstawione do pamięci jako segment

Techniki lokalizacji oprogramowania – wykład 2

9 / 19

Wyszukiwanie rozmyte •Segmenty w obrębie pamięci tłumaczeń są indeksowane, co umożliwia ich szybkie wyszukiwanie •Idea pamięci tłumaczeń (TM – Translation Memory) zakłada zwracanie wyników także o częściowej zgodności •Zgodnie z zasadami logiki rozmytej dane są przyporządkowywane do odpowiedniej klasy, tutaj zwane klasami podobieństwa. Oznaczają one procentową zgodność tekstu w dokumencie z najbardziej podobnym tekstem znalezionym w pamięci tłumaczeń.

•Najbardziej pożądany przypadek to tzw. 100% match – pełna zgodność •Na podstawie liczby słów w danej klasie podobieństwa budowana jest ważona liczba słów i przygotowywana wycena Techniki lokalizacji oprogramowania – wykład 2

10 / 19

Analiza dokumentów

11

Przedstawia faktyczną liczbę słów do przetłumaczenia i korekty w dokumencie lub jego zaktualizowanej wersji Techniki lokalizacji oprogramowania – wykład 2

11 / 19

Tworzenie modelu rozliczeń

12

Techniki lokalizacji oprogramowania – wykład 2

12 / 19

Wyszukiwanie w praktyce

13 93% podobieństwa: „częściowa zgodność”

Techniki lokalizacji oprogramowania – wykład 2

13 / 19

Konkordancja – wyszukiwanie kontekstowe

14

Techniki lokalizacji oprogramowania – wykład 2

14 / 19

Pliki bilingwalne •Pliki bilingwalne powstają w sytuacji, gdy edytujemy dokumenty za pomocą narzędzi CAT. Większość aplikacji tego typu zapisuje dokument w swoim formacie lub modyfikuje obecny format poprzez dodanie odpowiednich znaczników (tagów), dzięki którym możliwe jest bezpieczne powiązanie, ale i rozgraniczenie tekstu źródłowego i wynikowego •Obecnie większość plików bilingwalnych jest oparta na XML, standardem staje się powoli format XLIFF

15

•Pliki bilingwalne można w łatwy sposób zapisywać w docelowym formacie, można także wprowadzać automatycznie ich zawartość do pamięci tłumaczeń.

•Pliki bilingwalne pozwalają zidentyfikować format źródłowy oraz języki dokumentu.

Techniki lokalizacji oprogramowania – wykład 2

15 / 19

Przykład pliku bilingwalnego

16

Techniki lokalizacji oprogramowania – wykład 2

16 / 19

Najważniejsze i najpopularniejsze narzędzia CAT •SDL Trados •WordFast •IBM Translation Manager •OmegaT

17

•STAR Transit •LogoPort •MemoQ •Idiom Techniki lokalizacji oprogramowania – wykład 2

17 / 19

Przydatne linki http://pl.wikipedia.org/wiki/T%C5%82umaczenie_przy_u%C5%BCyciu_komputera http://en.wikipedia.org/wiki/Computer-assisted_translation http://en.wikipedia.org/wiki/Translation_memory

18

http://www.issco.unige.ch/ewg95/node149.html

Techniki lokalizacji oprogramowania – wykład 2

18 / 19

Pytania, kontakt [email protected]

19

Techniki lokalizacji oprogramowania – wykład 2

19 / 19