Dlaczego cyfrowo?
Dlaczego wa?ne s? technologie cyfrowe, skanowanie i digitalizacja dokumentów i ksi??ek i innych obiektów? Jakie jest uzasadnienie ogromnego wysi?ku przekszta?cania spu?cizny kulturowej w posta? cyfrow?? Cz?sto s?ysz? takie pytania - od historyków, którzy preferuj? zapach i dotyk oryginalnych dokumentów lub archiwistów, którzy twierdz?, ?e mikrofilmy s? wystarczaj?co dobre. Czy cyfryzacja to tylko moda, która wkrótce przejdzie, czy te? ma to g??bsze uzasadnienie?
“Cyfrowe” jest wa?ne - dla archiwów, bibliotek, muzeów (GLAM) oraz dla wszystkich producentów i konsumentów dóbr kultury. Omówimy tu trzy powody przechodzenia do cyfrowego przetwarzania informacji: Zabezpieczanie, Znajdywalno?? (discoverablity) i Dost?p.
Zabezpieczanie
Uk?ad cyfrowy jest tylko jedn? z wielu implementacji dyskretnych systemów przechowywania i obróbki informacji. Wi?kszo?? sygna?ów, które docieraj? do naszych zmys?ów, np. widok t?czy, symfonia lub zapach ró?y, mo?na uzna? za analogowe. Sygna? analogowy mo?e przyj?? dowoln? warto??, na przyk?ad d?wi?ku lub koloru. Zakres jest zazwyczaj ograniczony jedynie mo?liwo?ciami naszych zmys?ów - nie widzimy podczerwieni, ani s?yszymy ultrad?wi?ków itp. Ale sygna? optyczny, po tym jak wpadnie do naszego oka lub kamery cyfrowej, nie jest dalej przetwarzany jako sygna? ci?g?y. Czujniki ?wiat?a w siatkówce (czopki i pr?ciki) dzia?aj? na zasadzie “wszystko albo nic”, podobnie dzieje si? w kamerze gdzie ka?dy element czujnika rozk?ada ?wiat?o na ograniczon? liczb? poziomów. Sygna? zostaje zmieniony w informacj? - wkraczamy tu w sfer? dyskretno?ci. W uk?adzie dyskretnym tylko ograniczona, przeliczalna liczba stanów jest dozwolona, nie ma nic pomi?dzy. W nowoczesnych komputerach cyfrowych podstawow? jednostk? informacyjn? jest bit, który mo?e posi??? tylko dwa stany (zwyczajowo zwane 0 i 1). Matematyczna teoria informacji, po raz pierwszy zaproponowana przez Claude E. Shannona, równie? u?ywa jako jednostki binarnego bitu, z implikacj?, ?e informacja w naturze swojej jest dyskretna. W komputerach, pojedyncze bity s? zazwyczaj u?o?one w grupy: 8 bitów w okre?lonej kolejno?ci nazywa si? bajtem. W celu utrzymania ogólnego charakteru dyskusji, najmniejsza jednostk? systemu dyskretnego b?dziemy dalej nazywa? znakiem, a ci?g znaków s?owem.
W dalszym ci?gu przyjrzymy si? kilku systemom dyskretnym i na ich przyk?adzie tym ich cechom, które s? s? wa?ne w zabezpieczeniu i zachowaniu zasobów: bezstratnemu kopiowaniu, czytelno?ci maszynowej i korekcji b??dów.
Dyskretne systemy informacyjne
Pierwsze komputery zosta?y zbudowane w czasie II wojny ?wiatowej, dzi? informatyka obchodzi swoje 75 - lecie. Nie jest to jednak pierwszy przyk?ad dyskretnego schematu przekazywania informacji. Ludzie opracowali wiele takich systemów, od sygna?ów dymnych (znak dwu-stanowy, dym albo brak dymu) do kodu Morse'a (znak sze?cio-stanowy). Najwi?kszym ludzkim wynalazkiem dyskretnego przechowywania i przekazywania informacji jest jednak alfabet. Powszechnie uznaje si?, ?e najwcze?niejszy alfabet zosta? wynaleziony przez Sumerów ok. 5200 lat temu. Sam j?zyk jest oczywi?cie o wiele starszy, mi?dzy 2 miliony a 200,000 lat.
Liczba ró?nych znaków zale?y od j?zyka, od oko?o 26 w alfabecie ?aci?skim do tysi?cy w chi?skim. Na przyk?adzie alfabetu ?aci?skiego spróbujmy oszacowa? liczb? stanów, jakie mo?e przyj?? jeden znak. Jest 26 ma?ych liter, 26 du?ych, 10 cyfr arabskich, ró?ne symbole, takie jak $, &, §, odst?p, znaki interpunkcyjne, itp. W sumie, znak podstawowego alfabetu ?aci?skiego mo?e przyj?? jeden z oko?o 120 do 150 stanów. D?ugo?? s?owa jest zmienna, ale w j?zyku potocznym rzadko przekracza 20 znaków. Nie ma górnej granicy d?ugo?ci s?owa - nowe konwencje nazewnictwa technicznego, np. w chemii, pozwalaj? na budowanie dowolnie d?ugich ci?gów znaków, tyle, ile potrzeba aby utworzy? nazw?.
Bezstratne kopiowanie
Wynalezienie alfabetu, dyskretnej reprezentacji j?zyka, umo?liwi?o przechowywanie, kopiowanie i przekazywanie informacji na skal? uprzednio nie do pomy?lenia przy komunikacji ustnej. Mo?liwo?? bezstratnego kopiowania jest jedn? z najwa?niejszych konsekwencji tego wynalazku. Sygna?y analogowe szybko ulegaj? degradacji przy kopiowaniu, tak jak w grze w g?uchy telefon. Rozprzestrzenianie plotek we wsi, lub wielokrotne kopiowanie z ta?my magnetycznej wykazuj? ten sam efekt. Dzi?ki ograniczonej liczbie stanów, ci?gi znaków mog? by? kopiowane dok?adnie (za wyj?tkiem b??dów ludzkich).
No?nik, na którym teksty zosta?y zapisane mo?e czasami przetrwa? setki lub tysi?ce lat. Fragmenty glinianych tabliczek sumeryjskich i papirusów egipskich dotrwa?y do dzi?. Na ogó? jednak opieranie si? na trwa?o?ci no?nika nie prowadzi do trwa?o?ci informacji. Ogie? mo?e zniszczy? bibliotek? lub archiwum, co wida? na przyk?adzie Biblioteki Aleksandryjskiej dwa tysi?ce lat temu czy archiwów Imperium Osma?skiego w Sarajewie 7 lutego 2014 roku. “Epos o Gilgameszu”, jedno z najwcze?niejszych zachowanych dzie? literatury, mo?na przeczyta? dzi? tylko dlatego, ?e zosta? skopiowany wiele razy. Praktyka kopiowania tekstu przez mnichów, a pó?niej przez zawodowych skrybów, rozkwit?a w 13 i 14 wieku i przyczyni?a si? do przetrwania staro?ytnych tekstów. Kopiowanie by?o dok?adne, z systemem recenzentów i kontroli jako?ci, ale w praktyce pojawia?y sie nieuniknione b??dy. Liczba omy?ek jest jednak o wiele rz?dów wielko?ci mniejsza ni? w kopiowaniu analogowym.
Czytelno?? maszynowa
Diagram ilustruje znak binarny, bit i ci?g bitów - bajt. Przy zastosowaniu konkretnego kodowania (ASCII), ci?g ten odpowiada literze a.
Innym aspektem zapisanych tekstów jest zdolno?? odczytania informacji przez maszyn?, w tym wypadku komputer (machine readability). Pisanie jest w swej istocie dyskretne, polegaj?c na zapisywaniu liter tworz?cych dalej s?owa, zdania, akapity itp. Jednak do niedawna teksty by?y przechowywane jako znaki na no?niku (takim jak kamie?, glina, papirus lub papier) - czytelne dla ludzi, którzy znaj? j?zyk, lecz nie dla komputerów. Istniej? techniki, takie jak OCR (Optical Character Recognition), które mog?, cho? nadal z mieszanym powodzeniem, dokona? automatycznej konwersji tekstu drukowanego w posta? czyteln? dla maszyny. W ogólno?ci proces ten wymaga jeszcze wiele pracy ludzkiej. Po przekszta?ceniu w form? czyteln? dla maszyny, komputery mog? robi? te wszystkie “magiczne” operacje które robi? z informacj? w ogólno?ci, tworzy? indeksy, kategoryzowa?, t?umaczy?, przekszta?ca? w inne formy i wiele innych.
Inne dzie?a kultury ludzkiej, zawieraj?ce na przyk?ad obrazy lub d?wi?ki, maj? charakter analogowy i nie daj? si? tak ?atwo zamieni? w czytelne maszynowo. Jest to cz??ciowo mo?liwe w przypadku d?wi?ku, poprzez zakodowanie ka?dej sk?adowej z?o?onego d?wi?ku. Metadane, które zawieraj? informacje o obiekcie równie? posiadaj? zwykle czytelno?? maszynow?.
Korekcja b??dów
Alfabet jest starym wynalazkiem, ale nie jest to najstarszy znany cz?owiekowi dyskretny system informacji. Aby zlokalizowa? powstanie najstarszego, musimy cofn?? si? o oko?o 3,5 miliardów lat wstecz. ?eby umie?ci? t? liczb? w perspektywie, wiek Ziemi szacuje si? na 4,5 miliardów lat a wiek Wszech?wiata w którym ?yjemy na 13,8 miliardów lat. Najstarszy system informacji ma znak o czterech stanach, s?owo o dok?adnie 3 znakach i pozostaje bez zmian oko?o 3,500,000,000 lat dzi?ki bezstratnemu kopiowaniu i korekcji b??dów. Systemem tym jest kod genetyczny. Cztery stany maja posta? 4 ró?nych zwi?zków chemicznych, skrótowo oznaczanych literami A, C, G, T. S?owo, ci?g 3 takich znaków koduje jeden z oko?o 20 cz?steczek zwanych aminokwasami. Aminokwasy nawleczone po kolei razem tworz? bia?ka, których jest niezliczona ró?norodno?? - 10 mln. lub wi?cej.
No?nik chemiczny kodu genetycznego - DNA - nie jest zbyt trwa?y. Prze?ywa w komórkach organizmu, kopiowany wielokrotnie, ale niezbyt d?ugo po ?mierci osobnika. Informacje zawarte w DNA s? jednak ogromnie trwa?e. Losowe b??dy, które naturalnie wyst?puj? w organizmach ?ywych s? naprawiane przez zestaw z?o?onych mechanizmów biologicznych. Wyniki dzia?ania komórkowych systemów naprawy DNA daje poziom b??dów rz?du jeden na miliard lub dziesi?? miliardów kopiowa?. Dobór naturalny dzia?a jako kolejna warstwa sprawdzania b??dów. Rzadkie b??dy wymykaj? si? tym mechanizmom, inaczej nie by?oby nas tutaj ?eby przeczyta? ten blog, ale s? one o wiele rzadsze od b??dów w systemach komputerowych. Informacja trwa, poniewa? jest kopiowana, bardzo wiernie, z pokolenia na pokolenie.
Korekcja b??dów oraz weryfikacja jest równie? cech? nowoczesnych komputerów cyfrowych, aktywnie wykorzystywana w kopiowaniu informacji.
Zabezpieczanie
Wracaj?c do zabezpieczenia dziedzictwa kulturowego cz?owieka: nie mo?emy liczy? na trwa?o?? no?nika dla d?ugoterminowego zachowania informacji. Lekcje z naszej w?asnej kultury i z biologii s? jednoznaczne - tylko kopiowanie informacji, z tworzeniem wielu kopii i z najlepsz? mo?liw? korekcj? b??dów mo?e zachowa? dziedzictwo kultury dla przysz?ych pokole?.
Znajdywalno??
W pracy w archiwum, bardzo cz?sto spotykamy si? z pytaniami: "Mój dziadek bra? udzia? w bitwie pod (...), co si? z nim dalej dzia?o?" Za ka?dym razem staramy si? wyja?ni?, ?e informacja ta mog? by? gdzie? w?ród 1,5 mln stron dokumentów w naszym archiwum. W krótkim czasie, w jakim istnieje Internet, ludzie nauczyli si? polega? na Google czy Wikipedii, aby znale?? cokolwiek. W rzeczywisto?ci Internet ju? teraz spe?nia funkcje naszej "pami?ci zewn?trznej", przeszukiwalnej szybciej ni? informacja w naszych g?owach. Znajdowanie informacji w Internecie jest wspomagane przez zwi?kszenie dop?ywu metadanych, jak równie? przez wyszukiwarki ogólnego przeznaczenia.
Co w epoce ksi??ek papierowych nazwa?o si? tworzeniem indeksów uzyska?a teraz now? nazw?, "metadane". Organizacje przechowuj?ce zasoby kulturowe coraz szerzej udost?pniaj? metadane w Internecie, niezale?nie od tego, czy sam zasób jest swobodnie dost?pny czy nie. By? mo?e trzeba jeszcze przyj?? do biblioteki, aby wypo?yczy? ksi??k?, ale przynajmniej mo?na szybko znale??, w której ksi??ce znajduje si? poszukiwany cytat.
Istniej? dwie tendencje, obie obiecuj?ce o wiele lepsze wyniki w znajdywaniu informacji w przysz?o?ci. Jedn? jest udoskonalanie przetwarzania j?zyka naturalnego, co pomaga Google i innym wyszukiwarkom lepiej zrozumie? zarówno nasze pytania jak odpowiedzi ukryte w z?o?onych zdaniach. Wyszukiwanie w Internecie ju? teraz wykracza poza proste has?a, daje lepsze odpowiedzi na proste pytania w j?zyku angielskim (inne j?zyki, jak polski, nadal pozostaj? w tyle) i mo?na si? spodziewa? rosn?cego wyrafinowania takich narz?dzi. Drug? tendencj? jest rosn?ca poda? informacji ustrukturyzowanej, czyli metadanych. Pisa?em wcze?niej o Linked Data, idei która zak?ada, ?e je?li oznakujemy dane i relacje mi?dzy przedmiotami, chmura Internetowa b?dzie w stanie udzieli? odpowiedzi na znacznie bardziej skomplikowane pytania. Je?li tylko informacja istnieje w postaci cyfrowej, b?dziemy w stanie do niej dotrze?.
Dost?p
Dwudziestowieczny model dost?pu do zasobów kulturowych zmieni? si? drastycznie w ci?gu ostatnich dziesi?cioleci. Przed Internetem by?y ksi??ki, ksi?garnie i biblioteki. Je?li by?e? kolekcjonerem, mog?e? budowa? w?asn? bibliotek?, a je?li nie mog?e? sobie na to pozwoli? lub brak?o ci miejsca, mog?e? pój?? do biblioteki - zwykle otwartej dla publiczno?ci. Sztuka, obiekty historyczne lub archeologiczne by?y do obejrzenia w muzeach (lub przechowywane w ich podziemiach). Tylko najbardziej popularne ksi??ki by?y powszechnie czytane, starsze, o wyczerpanym nak?adzie, znika?y z obiegu. W 21 wieku, na skutek kolizji nowych technologii cyfrowych i starego prawa autorskiego, nadal mo?na kupi? ksi??k? papierow?, ale opcje dla wersji cyfrowej s? bardzo ograniczone. Nie mo?na kupi? e-ksi??ki, mo?na tylko uzyska? ograniczon? licencje na jej u?ywanie. Biblioteki zaczynaj? wypo?ycza? e-ksi??ki, ale istniej? du?e ograniczenia. Powstanie Internetu zmieni?o krajobraz w sposób dramatyczny. Stare ksi??ki, stare filmy i sztuka s? dzi? o wiele bardziej dost?pne i przechodz? renesans. Jest segment ludzkiego dzia?alno?ci kulturalnej, który jest swobodnie dost?pny, i segment który na skutek ogranicze? praw autorskich pozostaje w tyle. Nowa generacja opiera si? prawie wy??cznie na Internecie w dost?pie do informacji i dóbr kultury.
Gdy jaki? zasób jest "umieszczony w Internecie", mo?na do niego dotrze? z dowolnego miejsca na ?wiecie. Wzrost dost?pno?ci jest osza?amiaj?cy. Google ma rz?du 500 milionów wyszukiwa? dziennie, artyku?y w Wikipedii s? czytane miliony razy w ci?gu dnia. Niewielka cz??? zasobu archiwum Instytutu Pi?sudskiego, która zosta?a do tej pory zdigitalizowana i jest dost?pna przez Internet cieszy si? oko?o 200 - krotnym wzrostem liczby odwiedzaj?cych (ok 40 tysi?cy rocznie). Wzrost ten jest nie tylko w warto?ci bezwzgl?dnej, ale tak?e w zasi?gu geograficznym. Bez konieczno?ci podró?owania, trafienia w stron? archiwów internetowych Instytutu w poszukiwaniu informacji pochodz? z oko?o 2,500 ró?nych miejsc na ca?ym ?wiecie. Jest to mo?liwe, poniewa? zasoby s? zdigitalizowane, zindeksowane i dost?pne w sposób otwarty. Przysz?o?ci? dost?pu do tekstu, zdj??, muzyki, obrazów ruchomych i innych wytworów ludzkiej kultury jest niezaprzeczalnie technologia cyfrowa.
Czytaj wi?cej
- Manuscript Culture - artyku? w Wikipedii o kulturze manuskryptowej w ?redniowieczu.
- Naprawa DNA - artyku? o mechanizmach komórkowych naprawy DNA.
- Search Engines Change How Memory Works - artyku? w Wired.
- Google Search scratches its brain 500 million times a day - artyku? w CNET.
- Paper Rules: Why Borrowing an e-book from your library is so difficult - artyku? w Digital Trends.
- Semantic Search - artyku? w Wikipedii o przeszukiwaniu z u?yciem zda? j?zyka naturalnego.
Marek Zieli?ski
Artyku? ukaza? si? 4 kwietnia 2014 Blogu archiwistów i bibliotekarzy Instytutu Pi?sudskiego
Mo?e Ci? te? zainteresowa?
- Czy jeste? GLAM?
- Projekty digitalizacji
- Wst?p do Linked Data
- Digitalizacja a cyfryzacja
- Wst?p do standardów metadanych
{plusone}
Poprawiony (piÄ…tek, 04 kwietnia 2014 02:41)





