spis treści -1 - mimuw.edu.pljsbien/slajdy/jsb-ptj03-s.pdf · kodowanie tekstów w komputerze...
TRANSCRIPT
Spis treści -1
LXI Zjazd PTJ, Tarnów12-13.09.2003
Teksty i dokumenty
Teksty i dokumenty
Teksty i dokumenty
Teksty i dokumenty
Kodowanie tekstów wkomputerze
Kodowanie tekstów wkomputerze
Kodowanie tekstów wkomputerze
Kodowanie tekstów wkomputerze
Kodowanie tekstów wkomputerze
Kodowanie tekstów wkomputerze
Kodowanie tekstów wkomputerze
Unicode 4.0
Unicode Consortium(www.unicode.org)
Terminologia Unicode
Unicode 4.0
Alfabety i symbole
Alfabety i symbole
Zunifikowane znaki hanowskie
Spis treści 0
Koreańskie znaki sylabiczne
Koreańskie znaki sylabiczne
Terminologia Unicode
Terminologia Unicode
Kodowanie tekstów wkomputerze
Reprezentacja struktury tekstu
SGML
SGML/XML
Emblem Project Utrecht
GNU Emacs (psgml, xxml)
SGML w Polsce
T. Piotrowski, Z. Saloni
Uwagi końcowe
LXI Zjazd PTJ, Tarnów 12-13.09.2003 1
Janusz S. Bień
Adekwatnareprezentacja elektroniczna
tekstów pisanych
12.09.2003
Teksty i dokumenty 2
Inny słownikjęzyka polskiego PWN:
tekstciąg zapisanych słów i zdań,zwłaszcza tworzących pewną całośćartystyczną lub logiczną
Teksty i dokumenty 3
Wielki słownikwyrazów obcych PWN:
dokument3. «plik komputerowy,w szczególności tekstowy,zawierający informacje zapisanew odpowiednim formacie»
Teksty i dokumenty 4
J. S. Bień
dokument (elektroniczny)Traktowany jako jedna całość — w szczególnościopublikowany lub przeznaczony do opublikowaniaw sposób tradycyjny lub za pomocą Internetu np.na stronach WWW— plik lub zbiór plików kompu-terowych zawierających pewną informację, w szcze-gólności tekstową, w odpowiednim formacie, np.HTML.
Teksty i dokumenty 5
Nietekstoweskładniki dokumentów:
• ilustracje• formuły matematyczne• formuły chemiczne• . . .
Kodowanie tekstów w komputerze 6
Rodzaje kodowania:• akustyczne• wizualne• symboliczne• technologiczne
Kodowanie tekstów w komputerze 7
Kodowanie akustyczne:
książka mówiona
DAISY (Digital Accessible Information SYstem)Dostępny [dla niewidomych]cyfrowy system informacyjnyhttp://www.daisy.orgnorma amerykańska od 2002 r.
Kodowanie tekstów w komputerze 9
Kodowanie wizualne:
skanowanieProces dokładnej i systematycznej analizy pewnychdanych wejściowych przez program lub urządzenie.Mówi się o skanowaniu obrazu przez kamery telewi-zyjne i skanery, . . .Ang. to scan – dawn. wchodzić, robić coś krok pokroku.
Kodowanie tekstów w komputerze 10
Kodowanie wizualne:
Przykład tekstu wskanowanego
Polska Akademia NaukSłownik języka polskiegopod redakcjąWitolda DoroszewskiegoWiedza PowszechnaPaństwowe Wydawnictwo Naukowe1958-1969
Kodowanie tekstów w komputerze 11
Litterae s.c.dla Wydawnictwa Naukowego PWN:
Przedruk elektroniczny(1997)
Koordynator:Janusz S. Bień
Redaktor prowadzący:Jadwiga Linde-Usiekniewicz
Kodowanie tekstów w komputerze 13
Kodowanie technologiczne:
PostScriptPDF Portable Document FormatRTF Rich Text Format
format Microsoft Word
i inne
Kodowanie tekstów w komputerze 14
Kodowanie symboliczne:
• czysty tekst(plain text)
• tekst adiustowany(marked-up text)
Kodowanie tekstów w komputerze 15
Czysty tekstkodowany symbolicznie:
• ciąg znaków piśmiennych• znaki piśmienne (characters)reprezentowane przez liczby naturalne
Kodowanie tekstów w komputerze 16
Kodowe zestawy znaków(strony kodowe):
CP 852 (DOS)CP 1250 (MS Windows)Latin 2 (Unix i Linux)
Różne repertuary!
Unicode 4.0 23
96 246 znaków:alfabety i symbole ok. 14 000zunifikowane znaki hanowskie ok. 20 000dodatkowe znaki hanowskie ok. 50 000koreańskie znaki sylabiczne ok. 11 000
Zunifikowane znaki hanowskie 26
Unified Han Ideographs
dynastia hanowskadynastia Hanod 206 r. p.n.e.
pismo hanowskie:Chiny – wersja tradycyjnaChiny – wersja uproszczona
JaponiaKorea
Koreańskie znaki sylabiczne 28
Pismo koreańskie(hangul)
alfabetyczne
aleznaki są wpisywane w prostokąt!
Terminologia Unicode 30
LATIN SMALL LETTER AWITH OGONEK
ą ą ą ą ąą ą ą ą ąą ą ą ą ą
261(heksadecymalnie 0105)
Terminologia Unicode 31
Glify (glyphs)ą ą ą ą ąą ą ą ą ąą ą ą ą ą
Znak piśmienny (abstract character)
261(heksadecymalnie 0105)LATIN SMALL LETTER AWITH OGONEK
Kodowanie tekstów w komputerze 33
Kodowanie symboliczne:
• czysty tekst(plain text)
• tekst adiustowany(marked-up text)
SGML 35
ISOInternational Organisation for Standarization
Information processingText and office systemsStandard Generalized Markup Language (SGML)
ISO 8879:1986ISO 8879:1986/Cor 1:1996ISO 8879:1986/Cor 2:1999ISO 8879:1986/Amd 1:1988
SGML/XML 37
W3CWorld Wide Web Consortium
Tim Bray, Jean Paoli, C. M. Sperberg-McQueen, Eve Maler
Extensible Markup Language (XML) 1.0Second Edition
W3C Recommendation6 October 2000
http://www.w3.org/TR/REC-xml
SGML/XML 38
Sperberg-McQueen, C.M.. and Burnard, L. (eds.)
TEI P4:Guidelines for Electronic TextEncoding and Interchange.Text Encoding Initiative Consortium.XML Version
Oxford, Providence, Charlottesville, Bergen2002
Dwa tomy: 590 i 498 stron.http://www.tei-c.org/Guidelines2/index.html
Emblem Project Utrecht 39
<TEI.2><teiHeader><fileDesc><titleStmt><title>Emblemata Amatoria 1608</title><author><name>Daniël Heinsius</name></author><editor><name id="jb">Jan de Boer</name></editor><editor><name>Els Stronks</name></editor><editor><name>Peter Boot</name></editor><respStmt><resp>Translations by </resp><name>Jan Bloemendal</name><resp> in cooperation with </resp><name>Boukje Thijs and Pim van Tent</name></respStmt></titleStmt><editionStmt><edition>a web edition</edition></editionStmt><publicationStmt><pubPlace>Utrecht</pubPlace><date>January 2002</date><publisher>Emblem Project Utrecht</publisher></publicationStmt><sourceDesc><p>Het door ons gebruikte exemplaar komt uitUtrecht (LBKUN: RAR LMY Heinsius 2 Conv 1), en verscheen gebundeld met’Spiegel van de doorluchtige, eerlicke, cloucke, deuchtsame ende verstandegevrouwen’.</p></sourceDesc>
SGML w Polsce 42
INCO–COPERNICUS PL96–113
STEELSpecialised Translation/foreign language understanding toolsfor Eastern Europe Languages
Specjalistyczne narzędzia do tłumaczenia i rozumieniatekstów obcojęzycznych dla języków Europy Wschodniej
1997–1999
Uwagi końcowe 44
Kontakt:[email protected]
Adres strony domowej:http://www.mimuw.edu.pl/~jsbien/
Niniejsze slajdydostępne pod adresem:http://www.mimuw.edu.pl/~jsbien/slajdy/JSB-PTJ03-s.pdfReferat z poprzedniego zjazdu PTJ:http://www.mimuw.edu.pl/~jsbien/publikacje/JSB-BPTJ02e.pdf