Internet w bibliotekach II - łączność, współpraca, digitalizacja, Wrocław, 23-26 września 2003 roku |
- Spis treści
- Poprzedni - Następny
WprowadzenieW większości dużych i średnich bibliotek w Polsce, posiadających katalogi elektroniczne książek, istnieje problem niekompletności tych katalogów. Zazwyczaj są one kompletne począwszy od pewnej daty, np. od lat osiemdziesiątych lub dziewięćdziesiątych, natomiast zbiory starsze obejmują w niepełnym zakresie lub wcale. Uzupełnianie katalogów o pozycje wcześniejsze poprzez tradycyjne katalogowanie okazuje się być poważnym problemem dla bibliotek, wymaga bowiem dużego nakładu pracy bądź poniesienia znacznych kosztów w przypadku zlecenia jej na zewnątrz. Z konieczności katalogi są uzupełniane stopniowo, co jest procesem powolnym, nawet w przypadku współpracy bibliotek (np. w NUKAT), mogącym trwać dziesiątki lat.
W takiej sytuacji wyszukanie odpowiedniej pozycji często wymaga od użytkownika skorzystania zarówno z katalogu elektronicznego, jak i z kartkowego. Obserwuje się, że użytkownicy coraz mniej chętnie i mniej sprawnie korzystają z katalogów kartkowych, natomiast chętnie posługują się katalogami elektronicznymi. Dotyczy to w znacznej mierze studentów wyższych uczelni, zwłaszcza technicznych. Niezależnie od przyczyn tego zjawiska, grozi nam sytuacja, kiedy informacja o zbiorach, której nie można wyszukać w katalogu elektronicznym, dla wielu (większości?) użytkowników będzie bezużyteczna, a ta część zbiorów pozostanie niemal zupełnie niewykorzystana - tak jakby w bibliotece ich w ogóle nie było. Tego rodzaju opinie są coraz częściej wypowiadane nie tylko przez bibliotekarzy z krajów zachodnich, ale i w Polsce. Kwestia polityki uzupełniania katalogu elektronicznego danej biblioteki - czy odbywa się to systematycznie według roczników, czy wyrywkowo, np. zależnie od zainteresowania poszczególnymi pozycjami, czy i tak, i tak - ma oczywiście znaczenie dla użytkowników, ponieważ jeśli wiedzą oni, że katalog jest kompletny w zakresie konkretnych lat, mogą na przykład sprawdzić, czy jakiejś pozycji wydanej w tym okresie na pewno nie ma w bibliotece. Niemniej jeśli uzupełnianie informacji jest powolne, to następuje tylko złagodzenie problemu, który nadal pozostaje nierozwiązany. Jednym z podejść stosowanych w bibliotekach jest uzupełnianie katalogów elektronicznych na podstawie informacji zawartych w kartach katalogowych zamiast tworzenia opisu z autopsji. Może to polegać na udostępnieniu samych cyfrowych obrazów kart, które mogą być przeglądane przez użytkownika na ekranie komputera, tak jakby znajdowały się w szufladce. Znacznie dogodniejszy dla użytkownika wariant polega na uzupełnieniu obrazów kart o informację tekstową, umożliwiającą ich sortowanie i wyszukiwanie. Zakres informacji tekstowej może być różny: minimalny to tylko informacja z nagłówka karty; maksymalny to formalny opis w takim zakresie, na jaki pozwala cała informacja zapisana w karcie. W wariancie pośrednim może wystąpić np. tytuł i autor, ewentualnie rok wydania, sygnatury. Pozostaje problem utworzenia obrazów cyfrowych (digitalizacji) kart i przygotowania powiązanej z nimi części tekstowej. Różne firmy i organizacje oferują usługi tworzenia opisów bibliograficznych na podstawie obrazów graficznych kart katalogowych. Technika pracy jest różna: od ręcznego tworzenia opisów (niekiedy zlecanego krajom, w których siła robocza jest tania), poprzez różne poziomy odczytu automatycznego i wspomagania prac na podstawie dostępnej, możliwie dużej bazy opisów bibliograficznych (m.in. OCLC). Korzystanie z takich ofert to kwestia kosztów i jakości prac. W Uniwersytecie Humboldta w Berlinie problem komputeryzacji katalogów kartkowych rozwiązano, zlecając wybranej firmie dołączenie podstawowych informacji tekstowych (tytuł, autor). W niektórych bibliotekach zleca się podobne prace pracownikom bez kwalifikacji bibliotekarskich (np. studentom). W warunkach polskich na pierwszy plan wydaje się wysuwać sprawa kosztów związanych ze spodziewaną jakością prac. Koncepcja podejścia przyjętego w Bibliotece Głównej Politechniki WarszawskiejW Bibliotece Głównej Politechniki Warszawskiej (BG PW) także istnieje problem niekompletności katalogu elektronicznego. Obejmuje on wszystkie pozycje począwszy od lat osiemdziesiątych, natomiast niewiele pozycji starszych. Jest uzupełniany zgodnie z zainteresowaniami użytkowników, to znaczy katalogowane są przede wszystkim te pozycje, które ktoś pragnie wypożyczyć lub choćby skorzystać z nich w czytelni, natomiast nie prowadzi się uzupełniania systematycznego na większą skalę. Ostatnio podjęto prace przygotowawcze zmierzające do utworzenia katalogu pomocniczego, zawierającego obrazy kart katalogowych uzupełnione o podstawowe informacje tekstowe. Katalog taki miałby zawierać jedynie te pozycje, których brakuje w podstawowym katalogu, obejmującym oprócz zbiorów Biblioteki Głównej także zbiory kilku innych bibliotek uczelni. Tworzony katalog byłby udostępniony w systemie ALEPH, podobnie jak katalog podstawowy. Będzie się dążyć do tego, by użytkownik mógł przeszukiwać jednocześnie oba katalogi tak jakby to był jeden katalog. Użytkowany w BG system ALEPH daje taką możliwość. Względnie duża część kart katalogowych w BGPW jest wypełniona pismem maszynowym. Zdecydowano się podjąć próbę odczytania przy użyciu odpowiednich programów komputerowych choćby części informacji z obrazów tych kart. Oprócz elementów opisu bibliograficznego postanowiono przede wszystkim odczytywać sygnatury. Znajomość sygnatur zapisanych na karcie pozwala na sprawdzenie, czy dana pozycja znajduje się już w katalogu BG. Jeśli odczytywanie informacji rozpocznie się od odczytania sygnatury, to przy pozytywnym wyniku sprawdzenia można pozostałej informacji z danej karty nie odczytywać (a jeżeli, to w celach testowych). W przypadku kart wypełnionych pismem ręcznym odczytanie informacji i wprowadzenie do tworzonego katalogu wykonane byłoby ręcznie. Poddano testom niektóre komercyjne programy OCR, jednak jakość odczytu informacji z kart wypełnionych pismem maszynowym pozostawiała wiele do życzenia. Wynikało to ze złego stanu kart oraz z trudności, jaki programom OCR sprawiał układ graficzny tekstu samej karty i drukowane elementy formularza (linie ciągłe i kropkowane, symbole graficzne). Zły stan kart i mało kontrastowe, a czasem i zatarte pismo maszynowe powodowało dużą ilość błędów. Niekiedy najlepiej odczytanym fragmentem informacji z karty był napis umieszczony na formularzu karty w rodzaju: "Karta katalogowa wydawnictw ciągłych i zwartych Pu-B-144" wraz z symbolem zamówienia, drukarni itp. Dodatkową trudność sprawiał zmienny język tekstu, bo wprawdzie programy OCR wspomagały rozpoznawanie tekstu korzystając ze słownika, ale tylko jednego języka i źle rozpoznawały tekst z języka innego (wstępne sortowanie kart wymagałoby dodatkowej pracy z udziałem człowieka). Trudności potęgowała sama technika pisma maszynowego, w tym typowe sposoby tworzenia akcentów, np. znak umlaut przez nadrukowanie cudzysłowu, i częste stosowanie znaków zastępczych, np. małej litery l (L) zamiast cyfry 1 (jeden), dużej litery O zamiast cyfry 0, itp. Wreszcie sporą trudność sprawiał układ graficzny tekstu, w którym liczba wierszy zawierających sygnatury jest zmienna, a cały zapis nie zawsze mieści się w polu sygnatur. Nawet programy OCR przystosowane do analizy formularzy miały z tym trudności.
Po analizie podjąć próbę choć częściowego rozwiązania problemów, których nietypowość sprawia trudności programom OCR. Zakłada się, że odczytane informacje będą sprawdzane przez bibliotekarzy, ale niekoniecznie z wszystkich kart jednakowo. Program odczytujący informacje powinien scharakteryzować jakość odczytu informacji z karty jako całości i ewentualnie poszczególnych jej elementów, np. sygnatur. Pożądane jest, żeby umiał określić jakość rozpoznawania przynajmniej w trzech kategoriach:
W okresie testowym zbadana zostanie prawidłowość rozróżniania tych trzech kategorii. Jeśli będzie odpowiednia, to bibliotekarz będzie mógł skupić uwagę przede wszystkim na tych kartach, w których występuje "odczyt niepewny", by móc skorygować wyniki. Karty z dużą pewnością odczytu będą poddawane bardziej powierzchownej kontroli, być może jedynie wyrywkowej. Karty odczytane nieprawidłowo zostaną przeznaczone do wprowadzenia ręcznego. Oczekuje się, że będą to karty wypełnione pismem ręcznym oraz pewna ilość kart w złym stanie technicznym (pismo maszynowe, ale blade, zatarte itp.). Nie oznacza to, że trzeba będzie wprowadzić dane z wszystkich takich kart, ponieważ wprowadzanie można poprzedzić sprawdzeniem (np. na podstawie sygnatur), czy tych danych nie ma już w katalogu bądź, czy pozycje nie zostały skreślone z inwentarza. Zależnie od liczby kart, które zostaną przypisane do poszczególnych kategorii, można będzie podejmować dalsze prace programistyczne, np. usprawnianie metody odczytu w stosunku do części kart, lub na przykład zdecydować o ręcznym wprowadzeniu danych z wszystkich pozostałych kart. W każdym razie będzie możliwe oszacowanie nakładu pracy i ewentualnych kosztów. Spodziewamy się, że prace te przyczynią się do szybkiego i znaczącego uzupełnienia katalogów elektronicznych oraz istotnego skrócenia czasu pozostałych prac mających na celu osiągnięcie stanu kompletności informacji w katalogach elektronicznych. Etap wstępny - rozpoznawanie sygnaturW początkowym okresie skupiono się na odczytywaniu sygnatur. Za główny problem uznano ich właściwe wyodrębnienie na podstawie analizy graficznej karty. Samo rozpoznanie zapisów na takich "wyciętych" fragmentach karty powinno być proste choćby dlatego, że liczba znaków występujących w sygnaturach jest niewielka. Założono, że program ma rozpoznać ponadto obecność linii ukośnej w polu sygnatury oraz sytuację, gdy pole to w ogóle nie jest wypełnione; są to przypadki, w których dana karta odsyła do innych pozycji katalogu kartkowego, więc można ją odseparować i nie wprowadzać informacji na niej zawartychdo katalogu pomocniczego. Uznano, że jeśli ten etap prac się powiedzie pod względem pewności odczytu, to będzie zasadne podjęcie próby odczytywania także informacji bibliograficznej. Prace te są zawansowane. W tabeli 1 podano wyniki testu na próbie 200 kart o różnym charakterze i stanie. Zakres kart wybrany był w sposób przypadkowy i proporcje kart w materiale próbnym nie odpowiadają proporcjom w katalogu, tak więc wyniki mają charakter jakościowy:
Przypadki niepewnego rozpoznania sygnatury obejmują;
Przypadki błędnego rozpoznania sygnatury obejmują:
Wskazywanie niewłaściwej sygnatury występuje w dwóch przypadkach:
W większości przypadków nieprawidłowego odczytania sygnatury w wyniku otrzymuje się sygnaturę o nieprawidłowej budowie, co często umożliwia skorygowanie wyniku, gdy błąd jest oczywisty (w tym celu przy rozpoznawaniu znaków zapamiętywany jest nie tylko najlepszy, lecz także drugi w kolejności), bądź skłania do zakwalifikowania wyniku rozpoznania jako nieprawidłowy, wymagający interwencji człowieka; jednak niekiedy wynik pozostaje formalnie prawidłowy, np. gdy zniekształcona cyfra została odczytana jako inna cyfra. Nieprawidłowe stwierdzenie braku sygnatury wynika głównie z dwóch przyczyn:
Przewiduje się, że pewną poprawę można uzyskać dzięki stosowaniu w uzasadnionych przypadkach istotnie różnych algorytmów binaryzacji i porównywanie przez program efektów ich działania (rys. 6). W tym celu wprowadzona zostanie ogólna ocena stanu karty pod względem zakłóceń, a być może także algorytm oceniający np. grubość linii znaku (by wykryć zaczernienie całych obszarów). Ponadto zostanie zmodyfikowany algorytm określający jakość rozpoznawania poszczególnych znaków. Przypadki trudności z prawidłową segmentacją obszaru sygnatury będą poddawane dodatkowym testom, tak by stwierdzenie braku sygnatury w tym obszarze było wiarygodne.
W wyniku wymienionych działań powinna zmniejszyć się także liczba sygnatur niepewnych. Ponadto uzupełnienie i dopracowanie wzorców pisma może wpłynąć na zwiększenie stopnia pewności odczytu. W rezultacie zmniejszy się prawdopodobnie liczba kart, które obecnie kwalifikowane byłyby jako niepewne - z jednej strony na rzecz odczytanych w sposób pewny, z drugiej na rzecz uznanych za nieprawidłowe. Zmniejszony więc zostałby zakres niezbędnej pracy ludzkiej nad korygowaniem sygnatur. Sytuacja, w której odczyt zostałby uznany "z pewnością" za nieprawidłowy nie wymaga od razu interwencji człowieka, lecz co najwyżej dalszych testów; odczytanie tekstu z całej karty może wykazać, że był to tekst prawidłowy, nie będący sygnaturą, który z jakichś względów znalazł się w analizowanym obszarze (jest to dość częsta sytuacja w przypadku kart zapisywanych na papierze gładkim, kiedy miejsce na sygnaturę nie jest oddzielone liniami formularza). Pomimo opisanych usterek program już na obecnym etapie rozwoju wypada korzystnie w porównaniu z programami komercyjnymi. Przeanalizowano przy ich użyciu zarówno obrazy całych kart, jak i same wycinki sygnatur. W przypadku obrazów mało kontrastowych lub ciemnych programy komercyjne znacznie częściej dawały złe wyniki. Ponadto niemal zawsze miały kłopot z formularzem, w którym element graficzny rozpoznawały jako duże J (w rezultacie zdarzało im się pominąć sygnaturę). Miały znacznie większy problem z prawidłowym wydzieleniem linii tekstu, a nawet z objęciem nią całej sygnatury (mogły pominąć początkowe lub końcowe znaki. Ponadto nie były w stanie określić sytuacji braku sygnatury lub występowania ukośnej kreski w jej obszarze. Dodatkowa analiza otrzymywanych odpowiedzi pozwoliłaby wprawdzie na wykrycie przypadków, kiedy odczytany tekst nie spełnia wymagań związanych z budową sygnatury, ale w rezultacie człowiek musiałby kontrolować zdecydowaną większość kart, co czyniłoby cały proces mało sensownym. Kwestia celowości odczytu sygnatur
Czytelnikowi przy wyszukiwaniu informacji nie jest potrzebna znajomość sygnatury, jeżeli będzie miał tytuł i autora (ewentualnie także rok wydania). A gdy znajdzie taki uproszczony opis, to sygnatury może odczytać z karty.
Dalsze prace planowane w BG PW
Niebawem zostanie przeprowadzona digitalizacja katalogu kartkowego w 256 stopniach szarości (8 bitów na piksel). Sprzęt skanujący jest na tyle szybki, że skanowane będą wszystkie karty z szufladek (znacznie mniejsze jest wtedy ryzyko pomieszania kolejności kart), a i omyłkowego pominięcia jakiejś karty. Konieczne jest jeszcze przeprowadzenie ostatnich testów, które wykażą, czy pozostać przy rozdzielczości 300 dpi, czy przejść na 400 dpi (sprawdzenie, czy nastąpiłaby wyraźna poprawa jakości odczytu). Wstępna ocena wskazuje na celowość pozostania przy 300 dpi, gdyż różnica jakości odczytu wydaje się być trudna do zauważenia, a szybkość skanowania i dalszego przetwarzania znacznie by się zmniejszyła (potrzebne byłyby też większe dyski). Nie podjęto jeszcze decyzji, czy przygotowane wstępnie obrazy kart z usuniętymi sygnaturami i przeszkadzającymi w odczycie graficznymi elementami formularzy będą poddawane analizie przez komercyjny program OCR, czy też przez odpowiednio zmodyfikowany własny program odczytujący sygnatury. Jest to kwestia jakości odczytu (w przypadku programów komercyjnych powinna być lepsza niż ta, którą osiągnąłby własny program) oraz kosztów, gdyż programy OCR działające w wersji batch'owej (tzw. engine) są drogie. Wkrótce powstanie w systemie ALEPH baza testowa - oczywiście jeszcze niekompletna. Zostanie przetestowana jakość obrazów, które będą zamieszczone w katalogu. Zapewne zostanie wybrany format JPG; nie wiadomo jeszcze, czy będą to obrazy w 256 stopniach szarości, czy czarno-białe (które zajmowałyby mniej miejsca na dysku i docierałyby szybciej do komputera użytkownika); zostanie sprawdzona sugerowana w literaturze rozdzielczość ok. 75 dpi. Zostaną przetestowane pozostałe procedury dotyczące tworzenia uproszczonego opisu na podstawie odczytanego z kart tekstu. Chodzi zwłaszcza o to, żeby nie ograniczyć opisu w bazie pomocniczej do względnie łatwego do odczytania tekstu z nagłówka karty, lecz by przeanalizować cały tekst i wybrać oraz rozróżnić tytuł i autora (autorów), a być może także inne elementy opisu. Prace nad tym zagadnieniem są zaawansowane. Uzyskano zaskakująco dobre wyniki na analizowanej próbie 100 kart z ponad 90-procentową poprawnością (tekst był wprowadzany ręcznie). Szczegółowe omówienie tego tematu wykracza poza ramy niniejszego referatu. Ponadto trzeba będzie powtórzyć testy dla tekstów otrzymywanych z programów OCR. Utworzone opisy książek (a dalej zeszytów specjalnych) zostaną porównane z opisami zawartymi w katalogu. Zostanie zastosowana taka sama procedura, jaka jest stosowana w Bibliotece Głównej w przypadku łączenia katalogów bibliotek. Chodzi o wyszukiwanie opisów podobnych. Wyszukanie opisów identycznych jest trywialne, natomiast w stosowanej w BG PW metodzie wyszukiwane są także opisy podobne, ale różne. Metoda jest odporna na drobne błędy literowe, co może być szczególnie ważne w przypadku tekstów pochodzących z OCR, a także na niektóre różnice indywidualne przy tworzeniu opisów bibliograficznych przez bibliotekarzy. Co więcej, podawana liczbowa miara różnicy między opisami stanowi ważną wskazówkę dla bibliotekarza dokonującego ostatecznej oceny zgodności (lub niezgodności) opisów. Ta metoda pozwoli sprawdzić, czy w katalogu nie ma opisów podobnych, np. dotyczących innych wydań, albo opisów zgodnych, wprowadzonych do katalogu centralnego PW przy dodawaniu katalogów innych bibliotek i mających przypisane inne sygnatury niż odczytana z danej karty. Jest tu więc także pewna szansa na wykrycie "niewykrywalnych" błędów w odczycie sygnatury. Stosowana w BG PW metoda porównywania opisów była prezentowana na konferencji Info Bazy 2002 i została opublikowana w TASK. WnioskiWyniki dotychczasowych prac wskazują na celowość ich kontynuowania. Kwestia praktyczna dotyczy zachowania równowagi nakładu pracy, czasu i kosztów potrzebnych do wykonania całego zadania. Dalsze prace nad programem zmierzają do poprawienia jakości odczytu informacji z kart, w szczególności do lepszego wykrywania pewnych sytuacji. Ostatecznym celem jest oszczędzenie pracy ludzkiej przy przenoszeniu informacji z kart do nowego katalogu - zarówno takiej pracy, w której są konieczne kwalifikacje bibliotekarskie, jak i tej wykonywanej bardziej "mechanicznie". W jakimś sensie chodzi też o uszanowanie i wykorzystanie w możliwie dużym stopniu pracy bibliotekarzy już włożonej w tworzenie katalogu kartkowego i zmniejszenie zakresu prac, w którym to samo zadanie wykonywane byłoby ponownie. Jednak rozbudowa programu nie może być nadmierna, by nie doszło do takiego spowolnienia jego działania, które ograniczałoby znacząco tempo wykonywania całości prac. Jeżeli opisana metoda wspomagania retrokonwersji się sprawdzi, to będzie mogła służyć także innym bibliotekom znajdującym się w podobnej sytuacji (mających karty wypełnione pismem maszynowym). Nie chodzi przy tym o takie szczegóły, jak sprzęt zastosowany do skanowania czy związana z tym kwestia wstępnej selekcji kart, lecz o samo przetwarzanie obrazów kart, mające wspomóc pracę bibliotekarzy i przyspieszyć udostępnienie użytkownikom możliwie kompletnej informacji o zasobach bibliotek. Bibliografia
|
- Spis treści
- Poprzedni - Następny
(C) 2003 EBIB
Dygitalizacja katalogu kartkowego jako metoda wspomagania retrokonwersji / Grzegorz Płoszajski // W:Internet w bibliotekach II [Dokument elektroniczny] : łączność, współpraca, digitalizacja : Wrocław, 23-26 września 2003 roku. - Dane tekstowe. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich, K[omisja] W[ydawnictw] E[lektronicznych], Redakcja "Elektronicznej Biblioteki", 2003. - (EBIB Materiały konferencyjne). - Tryb dostępu : http://www.ebib.pl/publikacje/matkonf/iwb2/ploszajski.php . - Internet w bibliotekach II. - ISBN 83-915689-5-4