Internet w bibliotekach II - łączność, współpraca, digitalizacja, Wrocław, 23-26 września 2003 roku


- Spis treści - Poprzedni - Następny

   
 

Grzegorz Płoszajski

Politechnika Warszawska
Biblioteka Główna
Instytut Automatyki i Informatyki Stosowanej

Dygitalizacja katalogu kartkowego jako metoda wspomagania retrokonwersji

Wprowadzenie

W większości dużych i średnich bibliotek w Polsce, posiadających katalogi elektroniczne książek, istnieje problem niekompletności tych katalogów. Zazwyczaj są one kompletne począwszy od pewnej daty, np. od lat osiemdziesiątych lub dziewięćdziesiątych, natomiast zbiory starsze obejmują w niepełnym zakresie lub wcale. Uzupełnianie katalogów o pozycje wcześniejsze poprzez tradycyjne katalogowanie okazuje się być poważnym problemem dla bibliotek, wymaga bowiem dużego nakładu pracy bądź poniesienia znacznych kosztów w przypadku zlecenia jej na zewnątrz. Z konieczności katalogi są uzupełniane stopniowo, co jest procesem powolnym, nawet w przypadku współpracy bibliotek (np. w NUKAT), mogącym trwać dziesiątki lat.

W takiej sytuacji wyszukanie odpowiedniej pozycji często wymaga od użytkownika skorzystania zarówno z katalogu elektronicznego, jak i z kartkowego. Obserwuje się, że użytkownicy coraz mniej chętnie i mniej sprawnie korzystają z katalogów kartkowych, natomiast chętnie posługują się katalogami elektronicznymi. Dotyczy to w znacznej mierze studentów wyższych uczelni, zwłaszcza technicznych. Niezależnie od przyczyn tego zjawiska, grozi nam sytuacja, kiedy informacja o zbiorach, której nie można wyszukać w katalogu elektronicznym, dla wielu (większości?) użytkowników będzie bezużyteczna, a ta część zbiorów pozostanie niemal zupełnie niewykorzystana - tak jakby w bibliotece ich w ogóle nie było. Tego rodzaju opinie są coraz częściej wypowiadane nie tylko przez bibliotekarzy z krajów zachodnich, ale i w Polsce.
Wynika stąd potrzeba szybkiego rozwiązania problemu niekompletności informacji o zbiorach w katalogach elektronicznych.

Kwestia polityki uzupełniania katalogu elektronicznego danej biblioteki - czy odbywa się to systematycznie według roczników, czy wyrywkowo, np. zależnie od zainteresowania poszczególnymi pozycjami, czy i tak, i tak - ma oczywiście znaczenie dla użytkowników, ponieważ jeśli wiedzą oni, że katalog jest kompletny w zakresie konkretnych lat, mogą na przykład sprawdzić, czy jakiejś pozycji wydanej w tym okresie na pewno nie ma w bibliotece. Niemniej jeśli uzupełnianie informacji jest powolne, to następuje tylko złagodzenie problemu, który nadal pozostaje nierozwiązany.

Jednym z podejść stosowanych w bibliotekach jest uzupełnianie katalogów elektronicznych na podstawie informacji zawartych w kartach katalogowych zamiast tworzenia opisu z autopsji. Może to polegać na udostępnieniu samych cyfrowych obrazów kart, które mogą być przeglądane przez użytkownika na ekranie komputera, tak jakby znajdowały się w szufladce. Znacznie dogodniejszy dla użytkownika wariant polega na uzupełnieniu obrazów kart o informację tekstową, umożliwiającą ich sortowanie i wyszukiwanie. Zakres informacji tekstowej może być różny: minimalny to tylko informacja z nagłówka karty; maksymalny to formalny opis w takim zakresie, na jaki pozwala cała informacja zapisana w karcie. W wariancie pośrednim może wystąpić np. tytuł i autor, ewentualnie rok wydania, sygnatury. Pozostaje problem utworzenia obrazów cyfrowych (digitalizacji) kart i przygotowania powiązanej z nimi części tekstowej.

Różne firmy i organizacje oferują usługi tworzenia opisów bibliograficznych na podstawie obrazów graficznych kart katalogowych. Technika pracy jest różna: od ręcznego tworzenia opisów (niekiedy zlecanego krajom, w których siła robocza jest tania), poprzez różne poziomy odczytu automatycznego i wspomagania prac na podstawie dostępnej, możliwie dużej bazy opisów bibliograficznych (m.in. OCLC). Korzystanie z takich ofert to kwestia kosztów i jakości prac. W Uniwersytecie Humboldta w Berlinie problem komputeryzacji katalogów kartkowych rozwiązano, zlecając wybranej firmie dołączenie podstawowych informacji tekstowych (tytuł, autor). W niektórych bibliotekach zleca się podobne prace pracownikom bez kwalifikacji bibliotekarskich (np. studentom). W warunkach polskich na pierwszy plan wydaje się wysuwać sprawa kosztów związanych ze spodziewaną jakością prac.

Koncepcja podejścia przyjętego w Bibliotece Głównej Politechniki Warszawskiej

W Bibliotece Głównej Politechniki Warszawskiej (BG PW) także istnieje problem niekompletności katalogu elektronicznego. Obejmuje on wszystkie pozycje począwszy od lat osiemdziesiątych, natomiast niewiele pozycji starszych. Jest uzupełniany zgodnie z zainteresowaniami użytkowników, to znaczy katalogowane są przede wszystkim te pozycje, które ktoś pragnie wypożyczyć lub choćby skorzystać z nich w czytelni, natomiast nie prowadzi się uzupełniania systematycznego na większą skalę.

Ostatnio podjęto prace przygotowawcze zmierzające do utworzenia katalogu pomocniczego, zawierającego obrazy kart katalogowych uzupełnione o podstawowe informacje tekstowe. Katalog taki miałby zawierać jedynie te pozycje, których brakuje w podstawowym katalogu, obejmującym oprócz zbiorów Biblioteki Głównej także zbiory kilku innych bibliotek uczelni. Tworzony katalog byłby udostępniony w systemie ALEPH, podobnie jak katalog podstawowy. Będzie się dążyć do tego, by użytkownik mógł przeszukiwać jednocześnie oba katalogi tak jakby to był jeden katalog. Użytkowany w BG system ALEPH daje taką możliwość.

Względnie duża część kart katalogowych w BGPW jest wypełniona pismem maszynowym. Zdecydowano się podjąć próbę odczytania przy użyciu odpowiednich programów komputerowych choćby części informacji z obrazów tych kart. Oprócz elementów opisu bibliograficznego postanowiono przede wszystkim odczytywać sygnatury. Znajomość sygnatur zapisanych na karcie pozwala na sprawdzenie, czy dana pozycja znajduje się już w katalogu BG. Jeśli odczytywanie informacji rozpocznie się od odczytania sygnatury, to przy pozytywnym wyniku sprawdzenia można pozostałej informacji z danej karty nie odczytywać (a jeżeli, to w celach testowych). W przypadku kart wypełnionych pismem ręcznym odczytanie informacji i wprowadzenie do tworzonego katalogu wykonane byłoby ręcznie.

Poddano testom niektóre komercyjne programy OCR, jednak jakość odczytu informacji z kart wypełnionych pismem maszynowym pozostawiała wiele do życzenia. Wynikało to ze złego stanu kart oraz z trudności, jaki programom OCR sprawiał układ graficzny tekstu samej karty i drukowane elementy formularza (linie ciągłe i kropkowane, symbole graficzne). Zły stan kart i mało kontrastowe, a czasem i zatarte pismo maszynowe powodowało dużą ilość błędów. Niekiedy najlepiej odczytanym fragmentem informacji z karty był napis umieszczony na formularzu karty w rodzaju: "Karta katalogowa wydawnictw ciągłych i zwartych Pu-B-144" wraz z symbolem zamówienia, drukarni itp.

Dodatkową trudność sprawiał zmienny język tekstu, bo wprawdzie programy OCR wspomagały rozpoznawanie tekstu korzystając ze słownika, ale tylko jednego języka i źle rozpoznawały tekst z języka innego (wstępne sortowanie kart wymagałoby dodatkowej pracy z udziałem człowieka). Trudności potęgowała sama technika pisma maszynowego, w tym typowe sposoby tworzenia akcentów, np. znak umlaut przez nadrukowanie cudzysłowu, i częste stosowanie znaków zastępczych, np. małej litery l (L) zamiast cyfry 1 (jeden), dużej litery O zamiast cyfry 0, itp. Wreszcie sporą trudność sprawiał układ graficzny tekstu, w którym liczba wierszy zawierających sygnatury jest zmienna, a cały zapis nie zawsze mieści się w polu sygnatur. Nawet programy OCR przystosowane do analizy formularzy miały z tym trudności.

Po analizie podjąć próbę choć częściowego rozwiązania problemów, których nietypowość sprawia trudności programom OCR.
Przede wszystkim przyjęto założenie, że jakość odczytu informacji będzie oceniania przez sam program analizujący obrazy kart; w szczególności uznano za pożądane, by program odczytujący wskazywał na pismo ręczne i inne przypadki utrudniające odczyt. Tego rodzaju samoocena jakości odczytu jest elementem nowym w stosunku do znanych podejść, ponieważ zazwyczaj stopień pewności odczytu nie jest sygnalizowany przez programy OCR, więc przy korzystaniu z nich konieczna jest pełna kontrola odczytanej informacji, a przy tym podejściu jest możliwe częściowe ograniczenie i lepsze wykorzystanie ludzkiego wysiłku i kwalifikacji bibliotekarzy.

Zakłada się, że odczytane informacje będą sprawdzane przez bibliotekarzy, ale niekoniecznie z wszystkich kart jednakowo. Program odczytujący informacje powinien scharakteryzować jakość odczytu informacji z karty jako całości i ewentualnie poszczególnych jej elementów, np. sygnatur. Pożądane jest, żeby umiał określić jakość rozpoznawania przynajmniej w trzech kategoriach:

  1. duża pewność odczytu,
  2. odczyt niepewny,
  3. odczyt nieprawidłowy.

W okresie testowym zbadana zostanie prawidłowość rozróżniania tych trzech kategorii. Jeśli będzie odpowiednia, to bibliotekarz będzie mógł skupić uwagę przede wszystkim na tych kartach, w których występuje "odczyt niepewny", by móc skorygować wyniki. Karty z dużą pewnością odczytu będą poddawane bardziej powierzchownej kontroli, być może jedynie wyrywkowej. Karty odczytane nieprawidłowo zostaną przeznaczone do wprowadzenia ręcznego. Oczekuje się, że będą to karty wypełnione pismem ręcznym oraz pewna ilość kart w złym stanie technicznym (pismo maszynowe, ale blade, zatarte itp.). Nie oznacza to, że trzeba będzie wprowadzić dane z wszystkich takich kart, ponieważ wprowadzanie można poprzedzić sprawdzeniem (np. na podstawie sygnatur), czy tych danych nie ma już w katalogu bądź, czy pozycje nie zostały skreślone z inwentarza.

Zależnie od liczby kart, które zostaną przypisane do poszczególnych kategorii, można będzie podejmować dalsze prace programistyczne, np. usprawnianie metody odczytu w stosunku do części kart, lub na przykład zdecydować o ręcznym wprowadzeniu danych z wszystkich pozostałych kart. W każdym razie będzie możliwe oszacowanie nakładu pracy i ewentualnych kosztów.

Spodziewamy się, że prace te przyczynią się do szybkiego i znaczącego uzupełnienia katalogów elektronicznych oraz istotnego skrócenia czasu pozostałych prac mających na celu osiągnięcie stanu kompletności informacji w katalogach elektronicznych.

Etap wstępny - rozpoznawanie sygnatur

W początkowym okresie skupiono się na odczytywaniu sygnatur. Za główny problem uznano ich właściwe wyodrębnienie na podstawie analizy graficznej karty. Samo rozpoznanie zapisów na takich "wyciętych" fragmentach karty powinno być proste choćby dlatego, że liczba znaków występujących w sygnaturach jest niewielka. Założono, że program ma rozpoznać ponadto obecność linii ukośnej w polu sygnatury oraz sytuację, gdy pole to w ogóle nie jest wypełnione; są to przypadki, w których dana karta odsyła do innych pozycji katalogu kartkowego, więc można ją odseparować i nie wprowadzać informacji na niej zawartychdo katalogu pomocniczego. Uznano, że jeśli ten etap prac się powiedzie pod względem pewności odczytu, to będzie zasadne podjęcie próby odczytywania także informacji bibliograficznej.

Prace te są zawansowane. W tabeli 1 podano wyniki testu na próbie 200 kart o różnym charakterze i stanie. Zakres kart wybrany był w sposób przypadkowy i proporcje kart w materiale próbnym nie odpowiadają proporcjom w katalogu, tak więc wyniki mają charakter jakościowy:

W polu sygnatury jestLiczba wystąpieńRozpoznanie prawidłoweRozpoznanie niepewneRozpoznanie błędne
Ukośna linia272700
Pole puste252500
Sygnatura14891498

Przypadki niepewnego rozpoznania sygnatury obejmują;

  1. sygnatury zapisane ręcznie - 17 przypadków (w tym tylko cztery karty zapisane w całości ręcznie),
  2. sygnatury rozpoznane jako niepewne ze względu na niską ocenę pewności odczytu (18 przypadków),
  3. sygnatury rozpoznane jako nieprawidłowe ze względu na swoją budowę, przy wysokiej pewności odczytu konkretnych znaków.

Przypadki błędnego rozpoznania sygnatury obejmują:

  1. podanie innej sygnatury - o poprawnej budowie - przy jakości rozpoznania kwalifikowanej jako zadowalająca (3 przypadki),
  2. stwierdzenie braku sygnatury, gdy sygnatura znajduje się w polu sygnatury (5 przypadków).

Wskazywanie niewłaściwej sygnatury występuje w dwóch przypadkach:

  • uszkodzenia na karcie deformujące obraz znaków w taki sposób, który czyni je podobnymi do innych znaków, jakie mogą wystąpić w sygnaturze, np. "niepełna" cyfra 8 do 3 lub 9, lub 0 (rys. 1); cyfra 1 z dodatkowym elementem przy końcu ukośnej kreski do 4 (rys. 2),
  • zacienienie wewnętrznych obszarów czcionek (np. wewnątrz cyfry 9 - rys. 3) powodujące nieprawidłowy przebieg ich porównywania z wzorcem.



Rys. 1. Cyfra 8 zostaje odczytana jako 0.



Rys. 2. Cyfra 1 zostaje odczytana jako 4 (z innego zestawu czcionek).



Rys. 3. Cyfra 9 zostaje odczytana jako 5 (na drugim miejscu jako 3).

W większości przypadków nieprawidłowego odczytania sygnatury w wyniku otrzymuje się sygnaturę o nieprawidłowej budowie, co często umożliwia skorygowanie wyniku, gdy błąd jest oczywisty (w tym celu przy rozpoznawaniu znaków zapamiętywany jest nie tylko najlepszy, lecz także drugi w kolejności), bądź skłania do zakwalifikowania wyniku rozpoznania jako nieprawidłowy, wymagający interwencji człowieka; jednak niekiedy wynik pozostaje formalnie prawidłowy, np. gdy zniekształcona cyfra została odczytana jako inna cyfra. Nieprawidłowe stwierdzenie braku sygnatury wynika głównie z dwóch przyczyn:

  1. mały kontrast obrazu powoduje przy binaryzacji zbyt duże "zaśmiecenie" obrazu karty różnymi "plamkami" czy "strzępkami", a nawet liniami, które utrudnia wydzielenie linii tekstu i samych znaków (rys. 4),
  2. nie dość dobre działanie obecnie stosowanego algorytmu segmentacji, gdy na karcie dwie linie sygnatur (chodzi o obraz w rzucie poziomym, a niekoniecznie o same czcionki):
    1. stykają się, nawet nieznacznie (rys. 5),
    2. nachodzą na siebie.



Rys. 4. Utrudnione wyodrębnienie sygnatury.



Rys. 5. Dwie stykające się (w rzucie poziomym) linie sygnatur utrudniają wyodrębnienie poszczególnych sygnatur

Przewiduje się, że pewną poprawę można uzyskać dzięki stosowaniu w uzasadnionych przypadkach istotnie różnych algorytmów binaryzacji i porównywanie przez program efektów ich działania (rys. 6). W tym celu wprowadzona zostanie ogólna ocena stanu karty pod względem zakłóceń, a być może także algorytm oceniający np. grubość linii znaku (by wykryć zaczernienie całych obszarów). Ponadto zostanie zmodyfikowany algorytm określający jakość rozpoznawania poszczególnych znaków. Przypadki trudności z prawidłową segmentacją obszaru sygnatury będą poddawane dodatkowym testom, tak by stwierdzenie braku sygnatury w tym obszarze było wiarygodne.



Rys. 6. Dwa obrazy tej samej sygnatury przy różnych algorytmach binaryzacji (pierwszy jest nieodczytywalny nawet dla człowieka).

W wyniku wymienionych działań powinna zmniejszyć się także liczba sygnatur niepewnych. Ponadto uzupełnienie i dopracowanie wzorców pisma może wpłynąć na zwiększenie stopnia pewności odczytu. W rezultacie zmniejszy się prawdopodobnie liczba kart, które obecnie kwalifikowane byłyby jako niepewne - z jednej strony na rzecz odczytanych w sposób pewny, z drugiej na rzecz uznanych za nieprawidłowe. Zmniejszony więc zostałby zakres niezbędnej pracy ludzkiej nad korygowaniem sygnatur. Sytuacja, w której odczyt zostałby uznany "z pewnością" za nieprawidłowy nie wymaga od razu interwencji człowieka, lecz co najwyżej dalszych testów; odczytanie tekstu z całej karty może wykazać, że był to tekst prawidłowy, nie będący sygnaturą, który z jakichś względów znalazł się w analizowanym obszarze (jest to dość częsta sytuacja w przypadku kart zapisywanych na papierze gładkim, kiedy miejsce na sygnaturę nie jest oddzielone liniami formularza).

Pomimo opisanych usterek program już na obecnym etapie rozwoju wypada korzystnie w porównaniu z programami komercyjnymi. Przeanalizowano przy ich użyciu zarówno obrazy całych kart, jak i same wycinki sygnatur. W przypadku obrazów mało kontrastowych lub ciemnych programy komercyjne znacznie częściej dawały złe wyniki. Ponadto niemal zawsze miały kłopot z formularzem, w którym element graficzny rozpoznawały jako duże J (w rezultacie zdarzało im się pominąć sygnaturę). Miały znacznie większy problem z prawidłowym wydzieleniem linii tekstu, a nawet z objęciem nią całej sygnatury (mogły pominąć początkowe lub końcowe znaki. Ponadto nie były w stanie określić sytuacji braku sygnatury lub występowania ukośnej kreski w jej obszarze. Dodatkowa analiza otrzymywanych odpowiedzi pozwoliłaby wprawdzie na wykrycie przypadków, kiedy odczytany tekst nie spełnia wymagań związanych z budową sygnatury, ale w rezultacie człowiek musiałby kontrolować zdecydowaną większość kart, co czyniłoby cały proces mało sensownym.

Kwestia celowości odczytu sygnatur

Czytelnikowi przy wyszukiwaniu informacji nie jest potrzebna znajomość sygnatury, jeżeli będzie miał tytuł i autora (ewentualnie także rok wydania). A gdy znajdzie taki uproszczony opis, to sygnatury może odczytać z karty.
Jednak rozpoznanie sygnatur jest celowe.
Gdy rozpocznie się analizę kart od sygnatur, to można następnie karty (obrazy kart) rozdzielić przed dalszą obróbką:

  1. Po pierwsze karty, których sygnatury znajdują się w istniejącym katalogu systemu ALEPH, można wyłączyć z dalszego przetwarzania informacji, gdyż one nie wejdą do katalogu pomocniczego. Odczytywanie z nich informacji może być przeprowadzane natomiast w celach testowych, dla ograniczonej liczby kart, żeby ocenić zgodność informacji na kartach z informacją w katalogu, jakość rozpoznawania informacji tekstowej (zwłaszcza w zakresie akcentów) itp.
  2. Możliwe jest szybkie sprawdzenie, czy dana sygnatura nie została skreślona z inwentarza (zakresy sygnatur są dostępne w wersji elektronicznej), i jeżeli tak - szybkie wyłączenie takich kart z dalszego przetwarzania.
  3. Oddzielone zostaną także karty, które w polu sygnatury nie mają sygnatury (pole puste) lub mają ukośną kreskę (karty odsyłaczowe, wskazujące na kartę główną).
  4. Z obrazów pozostałych kart zostaną usunięte rozpoznane sygnatury i linie otaczające obszar sygnatury oraz inne znaki graficzne znajdujące się na formularzu karty (jeżeli do nich bezpośrednio nic nie przylega), i tak przygotowane karty zostaną poddane rozpoznaniu tekstu, przy czym:
    1. w pierwszej fazie zostaną poddane dalszej obróbce jedynie karty z sygnaturami książek; jeżeli zostanie rozpoznane odesłanie do karty głównej, to karta zostanie wyłączona z dalszego przetwarzania,
    2. w drugiej fazie zostaną poddane dalszej analizie karty z opisem zeszytów specjalnych czasopism (odwołujące się do czasopism i wskazujące na ich sygnatury).
  5. Po odczytaniu sygnatur możliwe jest sprawdzenie, ile kart pozostaje do ręcznego odczytu sygnatur.
  6. Po ręcznym wprowadzeniu brakujących sygnatur z kart, dla których rozpoznanie było niepewne albo nieprawidłowe, możliwe jest sprawdzenie kompletności sygnatur poprzez porównanie z inwentarzem.
  7. Przy ręcznym wprowadzaniu sygnatur możliwe jest jednoczesne wprowadzenie opisów. Jest to poniekąd kwestia organizacyjna. Można też podzielić karty na takie, które są:
    1. wypełnione są pismem maszynowym i te pozostawić do rozpoznania przez program komputerowy,
    2. w całości są wypełnione pismem ręcznym i dla tych wprowadzić opisy (w okresie późniejszym lub na bieżąco).

Dalsze prace planowane w BG PW

Niebawem zostanie przeprowadzona digitalizacja katalogu kartkowego w 256 stopniach szarości (8 bitów na piksel). Sprzęt skanujący jest na tyle szybki, że skanowane będą wszystkie karty z szufladek (znacznie mniejsze jest wtedy ryzyko pomieszania kolejności kart), a i omyłkowego pominięcia jakiejś karty. Konieczne jest jeszcze przeprowadzenie ostatnich testów, które wykażą, czy pozostać przy rozdzielczości 300 dpi, czy przejść na 400 dpi (sprawdzenie, czy nastąpiłaby wyraźna poprawa jakości odczytu). Wstępna ocena wskazuje na celowość pozostania przy 300 dpi, gdyż różnica jakości odczytu wydaje się być trudna do zauważenia, a szybkość skanowania i dalszego przetwarzania znacznie by się zmniejszyła (potrzebne byłyby też większe dyski).
Równolegle prowadzone będą prace mające na celu dalsze poprawienie jakości odczytu kart.

Nie podjęto jeszcze decyzji, czy przygotowane wstępnie obrazy kart z usuniętymi sygnaturami i przeszkadzającymi w odczycie graficznymi elementami formularzy będą poddawane analizie przez komercyjny program OCR, czy też przez odpowiednio zmodyfikowany własny program odczytujący sygnatury. Jest to kwestia jakości odczytu (w przypadku programów komercyjnych powinna być lepsza niż ta, którą osiągnąłby własny program) oraz kosztów, gdyż programy OCR działające w wersji batch'owej (tzw. engine) są drogie.

Wkrótce powstanie w systemie ALEPH baza testowa - oczywiście jeszcze niekompletna. Zostanie przetestowana jakość obrazów, które będą zamieszczone w katalogu. Zapewne zostanie wybrany format JPG; nie wiadomo jeszcze, czy będą to obrazy w 256 stopniach szarości, czy czarno-białe (które zajmowałyby mniej miejsca na dysku i docierałyby szybciej do komputera użytkownika); zostanie sprawdzona sugerowana w literaturze rozdzielczość ok. 75 dpi.

Zostaną przetestowane pozostałe procedury dotyczące tworzenia uproszczonego opisu na podstawie odczytanego z kart tekstu. Chodzi zwłaszcza o to, żeby nie ograniczyć opisu w bazie pomocniczej do względnie łatwego do odczytania tekstu z nagłówka karty, lecz by przeanalizować cały tekst i wybrać oraz rozróżnić tytuł i autora (autorów), a być może także inne elementy opisu.

Prace nad tym zagadnieniem są zaawansowane. Uzyskano zaskakująco dobre wyniki na analizowanej próbie 100 kart z ponad 90-procentową poprawnością (tekst był wprowadzany ręcznie). Szczegółowe omówienie tego tematu wykracza poza ramy niniejszego referatu. Ponadto trzeba będzie powtórzyć testy dla tekstów otrzymywanych z programów OCR. Utworzone opisy książek (a dalej zeszytów specjalnych) zostaną porównane z opisami zawartymi w katalogu. Zostanie zastosowana taka sama procedura, jaka jest stosowana w Bibliotece Głównej w przypadku łączenia katalogów bibliotek. Chodzi o wyszukiwanie opisów podobnych. Wyszukanie opisów identycznych jest trywialne, natomiast w stosowanej w BG PW metodzie wyszukiwane są także opisy podobne, ale różne. Metoda jest odporna na drobne błędy literowe, co może być szczególnie ważne w przypadku tekstów pochodzących z OCR, a także na niektóre różnice indywidualne przy tworzeniu opisów bibliograficznych przez bibliotekarzy. Co więcej, podawana liczbowa miara różnicy między opisami stanowi ważną wskazówkę dla bibliotekarza dokonującego ostatecznej oceny zgodności (lub niezgodności) opisów.

Ta metoda pozwoli sprawdzić, czy w katalogu nie ma opisów podobnych, np. dotyczących innych wydań, albo opisów zgodnych, wprowadzonych do katalogu centralnego PW przy dodawaniu katalogów innych bibliotek i mających przypisane inne sygnatury niż odczytana z danej karty. Jest tu więc także pewna szansa na wykrycie "niewykrywalnych" błędów w odczycie sygnatury.

Stosowana w BG PW metoda porównywania opisów była prezentowana na konferencji Info Bazy 2002 i została opublikowana w TASK.

Wnioski

Wyniki dotychczasowych prac wskazują na celowość ich kontynuowania. Kwestia praktyczna dotyczy zachowania równowagi nakładu pracy, czasu i kosztów potrzebnych do wykonania całego zadania. Dalsze prace nad programem zmierzają do poprawienia jakości odczytu informacji z kart, w szczególności do lepszego wykrywania pewnych sytuacji. Ostatecznym celem jest oszczędzenie pracy ludzkiej przy przenoszeniu informacji z kart do nowego katalogu - zarówno takiej pracy, w której są konieczne kwalifikacje bibliotekarskie, jak i tej wykonywanej bardziej "mechanicznie". W jakimś sensie chodzi też o uszanowanie i wykorzystanie w możliwie dużym stopniu pracy bibliotekarzy już włożonej w tworzenie katalogu kartkowego i zmniejszenie zakresu prac, w którym to samo zadanie wykonywane byłoby ponownie. Jednak rozbudowa programu nie może być nadmierna, by nie doszło do takiego spowolnienia jego działania, które ograniczałoby znacząco tempo wykonywania całości prac.

Jeżeli opisana metoda wspomagania retrokonwersji się sprawdzi, to będzie mogła służyć także innym bibliotekom znajdującym się w podobnej sytuacji (mających karty wypełnione pismem maszynowym). Nie chodzi przy tym o takie szczegóły, jak sprzęt zastosowany do skanowania czy związana z tym kwestia wstępnej selekcji kart, lecz o samo przetwarzanie obrazów kart, mające wspomóc pracę bibliotekarzy i przyspieszyć udostępnienie użytkownikom możliwie kompletnej informacji o zasobach bibliotek.

Bibliografia

  1. Yi Lu: Machine printed character segmentation - an overview. Pattern Recognition, vol. 28 (1995), nr 1, str. 67-80.
  2. Il-Seok Oh: Document image binarization preserving stroke connectivity. Pattern Recognition Letters, vol. 16 (1995), str. 743-748.
  3. Win-Long Lee, Kuo-Chin Fan: Document image preprocessing based on optimal Boolean filter. Signal Processing, vol. 80 (2000), str. 45-55.
  4. Płoszajski Grzegorz: Detecting approximately duplicate bibliographic records with text algorithms. An experience of creating a union catalogue of libraries at Warsaw University of Technology. TASK Quarterly, vol. 7 (2003), nr 2, str. 294-297.
   


- Spis treści - Poprzedni - Następny

(C) 2003 EBIB

Dygitalizacja katalogu kartkowego jako metoda wspomagania retrokonwersji / Grzegorz Płoszajski // W:Internet w bibliotekach II [Dokument elektroniczny] : łączność, współpraca, digitalizacja : Wrocław, 23-26 września 2003 roku. - Dane tekstowe. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich, K[omisja] W[ydawnictw] E[lektronicznych], Redakcja "Elektronicznej Biblioteki", 2003. - (EBIB Materiały konferencyjne). - Tryb dostępu : http://www.ebib.pl/publikacje/matkonf/iwb2/ploszajski.php . - Internet w bibliotekach II. - ISBN 83-915689-5-4