W .Klenczon: Indeksowanie zawartości treściowej w bibliograficznych bazach danych

Bibliograficzne bazy danych : kierunki rozwoju i możliwości współpracy
Ogólnopolska konferencja naukowa z okazji 10-lecia bazy danych BazTech
Bydgoszcz, 27-29 maja 2009

Poprzedni - Spis treści - Następny

Wanda Klenczon
Instytut Bibliograficzny, Biblioteka Narodowa

Indeksowanie zawartości treściowej w bibliograficznych bazach danych

Abstrakt

Artykuł prezentuje narzędzia (słowniki haseł przedmiotowych, tezaurusy, klasyfikacje) i metody opracowania rzeczowego w różnych rodzajach bibliografii. Porusza problem przyszłości języków prekoordynowanych oraz zalet i wad słownictwa kontrolowanego w kontekście potrzeb i kompetencji użytkowników. Jako kluczowe dla skutecznego wyszukiwania informacji o treści dokumentów wymienia jakość opracowania rzeczowego, współpracę z użytkownikami (z uwzględnieniem folksonomii i innych narzędzi Web 2.0) i otwartość na nowe technologie, w tym akceptację wyszukiwania pełnotekstowego.

Słowa kluczowe

opracowanie rzeczowe, punkty dostępu do treści dokumentów, bibliografia, język haseł przedmiotowych, klasyfikacja, słowa kluczowe, tagowanie, wyszukiwanie pełnotekstowe

Abstract

The paper presents tools and methods of subject indexing in different kind of bibliographic databases (subject headings, thesauri, classifications). The future of pre-coordinated indexing, pros and cons of controlled indexing versus keywords is also discussed, in the context of users needs and competencies. Quality of indexing, cooperation with end-users (including adaptation of folksonomy and other tools of Web 2.0) and openness to new technologies (full-text search) are the key factors of successful retrieval.

Keywords

subject cataloguing, subject access points, bibliography, subject headings, classification, keywords, social tagging, full-text indexing
prezentacja

Dostarczenie wiarygodnej i wartościowej informacji o zawartości dokumentów jest jednym z kluczowych zadań bibliografii, niezależnie od tego, którą z jej funkcji – informacyjną czy dokumentacyjną (historyczną) – uznamy za dominującą. Punkt dostępu do treści jest istotnym uzupełnieniem podstawowych punktów dostępu, jakimi są: nazwa autora, tytuł czy międzynarodowy znormalizowany numer dokumentu. Znaczenie dostępu treściowego jest różne w zależności od rodzaju bibliografii, jej rozmiaru i potrzeb informacyjnych adresata, od minimalnego w niewielkich bibliografiach osobowych, po fundamentalne w bibliografiach analitycznych zawierających opisy artykułów z prasy.

Opis rzeczowy to metainformacja wyrażona w języku informacyjno-wyszukiwawczym lub języku naturalnym, która dostarcza danych o treści dokumentu. Jakość oferowanych w bibliograficznych bazach danych punktów dostępu do treści dokumentów i efektywność wyszukiwania tych danych przez użytkowników zależy od wielu czynników, z których jako kluczowe należy wymienić:

dobór odpowiedniego narzędzia do opracowania rzeczowego danego zbioru informacji, z uwzględnieniem zarówno jakości samego narzędzia, jak i charakteru i rozmiaru zbioru, kompetencji i oczekiwań użytkowników, możliwości i funkcjonalności systemu, w którym dane są gromadzone i udostępniane;

jakość opracowania rzeczowego, a więc trafna analiza dokumentu, selekcja informacji, tłumaczenie na język informacyjno-wyszukiwawczy lub tekst adnotacji, utrzymanie spójności danych w obrębie całego zbioru[1].

Subject access points – punkty dostępu treściowego[2]

Podstawowe, najbardziej popularne w bibliotekarstwie narzędzia indeksowania to języki opisu rzeczowego dokumentu, służące do formułowania charakterystyk wyszukiwawczych, a wśród nich przede wszystkim języki informacyjno-wyszukiwawcze. Punktów dostępu do treści dokumentu dostarczają także opisy rzeczowe wyrażone w języku naturalnym, takie jak: abstrakty, adnotacje, streszczenia czy słowa pochodzące z tekstu indeksowanych dokumentów.

Języki informacyjno-wyszukiwawcze[3] to języki sztuczne, który pełnią funkcję metainformacyjną (odwzorowują cechy informacji) i wyszukiwawczą (umożliwiają wyszukanie odpowiednich informacji). Należą do nich przede wszystkim: języki haseł przedmiotowych, klasyfikacje, języki deskryptorowe i języki słów kluczowych.

Języki haseł przedmiotowych to języki informacyjno-wyszukiwawcze o notacji paranaturalnej. Jednostki tych języków stanowią tematy (wyrażające najważniejszą cechę dokumentu) i określniki, z nich buduje się hasła przedmiotowe zgodnie z regułami gramatyki pozycyjnej (temat występuje na pierwszym miejscu). Hasła przedmiotowe mogą być w zautomatyzowanych katalogach wykorzystywane dwojako: jako część logicznej całości, jaką jest alfabetyczny indeks przedmiotowy (funkcja browsing) oraz jako pula wyrażeń stanowiąca bazę leksykograficzną w wyszukiwaniu przez słowa lub ich kombinacje (funkcja searching). Języki haseł przedmiotowych są szeroko wykorzystywanym narzędziem opisu rzeczowego w katalogach bibliotek, spisach i bazach bibliograficznych. Nie sposób jednak nie dostrzegać kilku poważnych problemów, które po części są skutkiem przeniesienia pewnego sposobu myślenia rodem z katalogów kartkowych, a po części ignorowania rozwoju technologii.

Źródłem wielu nieporozumień jest pozorna naturalność słownictwa, która powoduje, że użytkownik traktuje hasła jak wyrażenia języka naturalnego, nie zdając sobie sprawy ze sztuczności języka haseł przedmiotowych. Większym jednak problemem jest sztuczna i zbyt skomplikowana gramatyka (składnia): reguły języków prekoordynowanych określają sztywną kolejność poszczególnych elementów w haśle przedmiotowym (np. temat – określnik ogólny – określnik geograficzny – określnik chronologiczny – określnik formalny lub temat – określnik geograficzny – określnik ogólny – określnik chronologiczny – określnik formalny) oraz trudne do wyjaśnienia odstępstwa od tych reguł[4]. Skutkiem tego jest niezrozumienie haseł nie tylko przez użytkowników końcowych, ale i bibliotekarzy czy pracowników informacji naukowej niebędących specjalistami w zakresie opracowania rzeczowego. Obserwacja logów transakcyjnych w systemach bibliotecznych wskazuje, że użytkownicy zadają pytania zawierające jeden, najwyżej dwa elementy hasła, kompletne hasła przedmiotowe formułują jedynie bibliotekarze. W tym kontekście prekoordynacja, której tak przestrzegamy, wydaje się sztuką dla sztuki.

Opracowanie rzeczowe z zastosowaniem języka haseł przedmiotowych jest trudne (nawet dla doświadczonych bibliotekarzy), czasochłonne i kosztowne (najdłuższy etap opracowania dokumentu), a użyteczność haseł jest ostatnio coraz częściej kwestionowana. Prowadzone w katalogach bibliotecznych statystyki wykorzystania indeksów oraz badania logów transakcyjnych, zachowań użytkowników i poziomu ich satysfakcji wskazują na niewielkie wykorzystanie indeksów przedmiotowych (funkcja browsing) i dominującą pozycję wyszukiwania przez słowa lub kombinacje słów (funkcja searching), najchętniej z użyciem jednego wspólnego okienka zapytań jak w popularnych wyszukiwarkach internetowych ("googlizacja")[5].

Znaczna część języków haseł przedmiotowych to języki uniwersalne, o nieograniczonym zakresie tematycznym, tworzone z myślą o opracowaniu piśmiennictwa w bibliografiach narodowych lub katalogach centralnych. Nie uwzględniają potrzeb żadnej konkretnej grupy użytkowników (np. naukowców, studentów, uczniów) i nie dostosowują słownictwa do ich wymagań i kompetencji. Twórcy języków uniwersalnych muszą stale dokonywać wyboru lub szukać kompromisu pomiędzy terminologią naukową a słownictwem potocznym; starać się o rozróżnienie terminów wieloznacznych, które w bazach dziedzinowych, specjalistycznych takiego rozróżnienia zwykle nie wymagają. Język uniwersalny to język adresowany do „uśrednionego”, abstrakcyjnego użytkownika, ze wszystkimi tego konsekwencjami. Aspekt potrzeb grupy docelowej może jedynie wpłynąć na decyzję o głębokości i szerokości indeksowania z użyciem danego języka informacyjno-wyszukiwawczego. W wielu bazach bibliograficznych i katalogowych, aby uzupełnić charakterystyki wyszukiwawcze dokumentów sformułowane w uniwersalnym języku haseł przedmiotowych i ułatwić dostęp do nich różnym kategoriom odbiorców, uwzględnia się w opisach dodatkowe punkty dostępu zaczerpnięte ze specjalistycznych, dziedzinowych języków informacyjno-wyszukiwawczych. Praktykuje to np. Biblioteka Sejmowa, w bazie której wzajemnie uzupełniają się hasła przedmiotowe jhp BN i deskryptory STEBIS (polskiej wersji tezaurusa EUROVOC), ukierunkowane na zagadnienia prawa i polityki europejskiej. W katalogu NUKAT opisy publikacji z zakresu medycyny i nauk pokrewnych obok haseł sformułowanych w uniwersalnym języku KABA otrzymują hasła języka specjalistycznego MeSH[6].

Szczególnie wymownym świadectwem kryzysu języków haseł przedmiotowych jest toczona w ostatnich latach, choć problem nie jest nowy[7], dyskusja amerykańskiego środowiska bibliotekarzy i specjalistów informacji naukowej nad przyszłością i perspektywami rozwoju najstarszego i najbardziej rozpowszechnionego z nich – Library of Congress Subject Headings[8]. Główne zarzuty wobec LCSH, jakie podnoszono w dyskusji, to przede wszystkim: przestarzała, zdezaktualizowana terminologia, trudne i czasochłonne tworzenie haseł przedmiotowych rozwiniętych (zasady gramatyki pozycyjnej szczegółowo określa czterotomowy podręcznik Subject Cataloging Manual), których zrozumienie i wykorzystanie przez użytkowników, w tym również bibliotekarzy, jest znikome. Rekomendacja grupy przygotowującej końcowy raport na temat przyszłości rejestracji bibliograficznej, przewiduje co prawda utrzymanie krytykowanej prekoordynacji, ale zaleca podjąć prace nad weryfikacją terminów, uproszczeniem i uelastycznieniem reguł gramatyki (np. rezygnacja z określników formalnych na rzecz zapisu ich w osobnym polu), adaptację LCSH do wyszukiwania fasetowego (rozwój projektu FAST), udostępnienie zasobu w postaci SKOS (Simple Knowledge Organization System), zbadanie możliwości włączenia funkcji społecznego tagowania i uzupełnienia opisów w LCSH o punkty dostępu pochodzące z innych języków informacyjno-wyszukiwawczych.

Wszystkie te pytania i problemy, które amerykańscy bibliotekarze i specjaliści informacji naukowej stawiają w kontekście rozwoju Library of Congress Subject Headings, muszą postawić sobie dziś twórcy słownictwa i gramatyki innych języków uniwersalnych. Wobec powszechnych nawyków wyszukiwawczych nabytych w korzystaniu z wyszukiwarek internetowych, przyszłość języków prekoordynowanych stoi pod dużym znakiem zapytania. Radykalna zmiana podejścia do budowy haseł przedmiotowych nie jest prosta i łatwa, dysponujemy bowiem wielkimi zasobami kontrolowanego słownictwa, bazami danych bibliograficznych o wielkiej liczbie dokumentów opracowanych już rzeczowo zgodnie z dotychczasową metodyką i wszelkie pochopne decyzje mogą spowodować utratę informacji gromadzonych i porządkowanych przez lata wysiłkiem wielu bibliotekarzy.

W wielu polskich bazach bibliograficznych, w których jako narzędzia indeksacji używa się języka haseł przedmiotowych Biblioteki Narodowej (jhp BN), wprowadza się zmiany zarówno słownictwa i gramatyki, jak i metody opisu, mając na względzie lokalne potrzeby użytkowników i możliwości systemu bibliotecznego[9]. Biblioteki FIDES podjęły inicjatywę opracowania na bazie słownictwa jhp BN tezaurusa, wychodząc z założenia, że kontrolowane słowa kluczowe pozwolą na lepsze wyszukiwanie informacji w bazach bibliograficznych[10]. Niezależnie od tych lokalnych inicjatyw, niezbędna jest głęboka analiza języka i jego gramatyki, zmierzająca do uczynienia z jhp BN narzędzia bardziej elastycznego i łatwiejszego w użyciu, tak dla bibliotekarzy, jak i dla odbiorców końcowych. Prace takie zostały już podjęte przez Zespół ds. rozwoju jhp BN.

Klasyfikacje biblioteczne należą do języków informacyjno-wyszukiwawczych o notacji sztucznej, zwykle numerycznej. Wyrażeniami tych języków są symbole klasyfikacyjne ujęte w tablice. Do tworzenia charakterystyk wyszukiwawczych używa się symboli należących do klas głównych rozbudowywanych o symbole poddziałów analitycznych wspólnych dla wielu tematów, natomiast do organizacji układu bibliografii wystarcza często użycie samych klas głównych. Klasyfikacje mogą obejmować bardzo zróżnicowany zakres i stosownie do tego mogą być zorganizowane w schematy proste, dwu- lub trzystopniowe, jak i kilkunastostopniowe układy klas. W skali światowej popularność zachowuje wciąż kilka klasyfikacji uniwersalnych: Klasyfikacja Dziesiętna Deweya (KDD), Uniwersalna Klasyfikacja Dziesiętna (UKD) i Klasyfikacja Biblioteki Kongresu (KBK). Duże znaczenie w międzynarodowej wymianie informacji naukowej mają też powszechnie znane i akceptowane specjalistyczne klasyfikacje dziedzinowe, takie jak np. – Mathematics Subject Classification (MSC) czy Iconclass.

Niewątpliwym atutem stosowanej notacji numerycznej jest możliwość dostępu do informacji z pominięciem bariery językowej, która utrudnia międzynarodowe wykorzystanie języków informacyjno-wyszukiwawczych o notacji paranaturalnej. Ta sama notacja numeryczna jest jednocześnie poważnym utrudnieniem dla użytkowników, powoduje, iż efektywnie można korzystać z tych charakterystyk wyszukiwawczych jedynie wtedy, gdy wszystkie symbole klasyfikacji zostaną opatrzone odpowiednikami słownymi.

W wielu bazach bibliograficznych, nawet jeśli nie wykorzystuje się żadnej klasyfikacji uniwersalnej, stosuje się własne, na ogół dość proste klasyfikacje służące zwłaszcza do organizacji zrębu bibliografii w wersji edycyjnej, a także do ograniczania wyszukiwania czy uzupełniania innych metod wyszukiwana dokumentów.

Języki deskryptorowe organizowane w tezaurusy to języki informacyjno-wyszukiwawcze o notacji paranaturalnej, co czyni je pozornie podobnymi do języków haseł przedmiotowych. Jednostkami tych języków są deskryptory, gramatyką zaś rządzą reguły indeksowania współrzędnego. Z tego powodu indeksowanie w językach deskryptorowych jest prostsze niż budowa obwarowanych wieloma zasadami gramatyki pozycyjnej haseł przedmiotowych. Tezaurusy poza alfabetycznym spisem deskryptorów zawierają także część systematyczną, porządkującą terminy w strukturze hierarchicznej, co wydatnie pomaga zarówno twórcom tezaurusa rozbudowującym zasób o nowe terminy, indeksatorom poszukującym właściwych deskryptorów, jak i użytkownikom końcowym, którzy nierzadko mają dość ogólnie zakreślony przedmiot poszukiwań.

Spośród ogromnej liczby dostępnych tezaurusów dziedzinowych można przykładowo wskazać kilka o zasięgu międzynarodowym, których powszechne użycie doskonale ułatwia światowy obieg informacji w danej dziedzinie wiedzy czy działalności:

Medical Subject Headings (MeSH), stosowany do opisu dokumentów w większości baz bibliograficznych z dziedziny medycyny i nauk pokrewnych, przede wszystkim w powszechnie wykorzystywanej bazie MEDLINE;

EUROVOC, tezaurus Parlamentu Europejskiego i Biura Wydawnictw Urzędowych Wspólnot Europejskich, stosowany m.in. w portalu EUR-Lex oferującym w 23 językach dostęp do aktów prawnych i innych dokumentów Unii Europejskiej;

Art & Architecture Thesaurus (A&AT) opracowany i utrzymywany przez Getty Research Institute, najbardziej znany zasób słownictwa do opisu zabytków kultury i sztuki;

AGROVOC, wielojęzyczny tezaurus terminów związanych z rolnictwem;

Thesaurus of ERIC Descriptors z zakresu edukacji, pedagogiki i psychologii, stosowany w bazie bibliograficzno-abstraktowej ERIC[11].

Abstrakty, streszczenia, adnotacje zawierają dodatkowe dane o treści dokumentu. Sformułowane w języku naturalnym, w postaci tekstu uzupełniającego zasadniczy opis bibliograficzny lub będące częścią samego dokumentu, stanowią cenne źródło punktów dostępu do treści w bibliograficznych bazach danych, o ile oczywiście ich teksty są przeszukiwane przez system obsługujący bazę i odpowiednio indeksowane. Zwykle uwzględniają informacje o treści i charakterze dokumentu, głównych tezach, przyjętych metodach i uzyskanych wynikach. Zapisy te wydatnie uzupełniają charakterystykę wyszukiwawczą, czasem ją zastępują. Cennych informacji dostarczają także elementy wzbogacające opis bibliograficzny: dołączone spisy treści i zdjęcia okładek, recenzje czy komentarze, należące do nowej przestrzeni informacyjnej związanej z siecią drugiej generacji.

Narzędzia Web 2.0

Mówiąc o punktach dostępu do treści dokumentów nie sposób dziś pominąć problemu współudziału użytkowników, ich współodpowiedzialności za generowanie treści serwisów. Nic nie wskazuje, co prawda, na możliwość tworzenia bibliografii w standardzie 2.0, o ile pragniemy zachować kluczowe cechy spisów bibliograficznych, jakimi są wiarygodność i standaryzacja opisów[12], warto jednak zastanowić się nad perspektywą włączenia niektórych elementów sieci drugiej generacji do baz bibliograficznych udostępnianych w Internecie.

Do najbardziej popularnych narzędzi sieci drugiej generacji należy możliwość społecznego tagowania zasobów, czyli nadawania przez odbiorców metadanych, w których wskazują treści, zawartość, kontekst i swój stosunek do oznaczanego dokumentu za pomocą swobodnych słów kluczowych lub wyrażeń[13]. Są to metadane tworzone przede wszystkim na własne potrzeby, subiektywne, niepodlegające żadnym formalnym ograniczeniom. Ich wartość informacyjną stawiają pod znakiem zapytania m.in. brak rozróżnienia terminów wieloznacznych i homonimów, występowanie synonimów, błędy ortograficzne i niekonsekwencje w zapisie wyrażeń złożonych, nieujednolicone formy gramatyczne (liczba pojedyncza i mnoga), tagi emocjonalne, osobiste, symboliczne, niecenzuralne[14]. Z tagowaniem łączy się pojęcie folksonomii[15] (czasem w literaturze traktowane jako synonimiczne), oddolnego budowania kategorii z tagów.

Tagi użytkowników powoli, ale konsekwentnie wkraczają na teren tradycyjnego bibliotekarstwa, opcja ta pojawia się w niektórych katalogach bibliotecznych i bibliotekach cyfrowych. Potencjał użytkowników można także, choć w ograniczonym zakresie i w sposób kontrolowany, wykorzystywać w bibliograficznych bazach danych. Oczywiście, trudno oczekiwać, by w przewidywalnej przyszłości choćby niewielka część milionowych zasobów katalogów bibliotecznych czy bibliografii ogólnych została oznaczona tagami i byłoby naiwnością sądzić, że w znaczący sposób mogłoby to uzupełnić tradycyjny, sporządzany przez specjalistów opis rzeczowy. Można natomiast pokusić się o próbę implementacji narzędzi Web 2.0, takich jak możliwość oznaczania dokumentów tagami przez użytkowników czy recenzowanie publikacji, w wysoce specjalistycznych bazach dziedzinowych. Użytkownik-specjalista, naukowiec, student czy hobbysta danej dziedziny mógłby dzielić się swoją wiedzą i doświadczeniem z innymi użytkownikami, wnosząc do opisu rzeczywistą wartość dodaną.

Szczególnie wartościowe i pomocne w wyszukiwaniu informacji mogą być znaczniki nadane przez użytkowników tam, gdzie tradycyjne języki informacyjno-wyszukiwawcze są mało skuteczne, jeśli nie bezradne, np. w opisie dokumentów ikonograficznych[16]. Jak pokazują wyniki projektu badawczego „Steve.museum”, blisko 90% słów kluczowych zaproponowanych przez społecznych indeksatorów, historycy sztuki i muzealnicy uznali za ważne i inspirujące, użyteczne do opisu i wyszukania obiektów z ich kolekcji[17].

Dopuszczenie folksonomii jako uzupełnienia języków o słownictwie kontrolowanym wydaje się więc zasadne[18], choć niewątpliwie otwarcie baz bibliograficznych na modyfikacje wymagałoby moderowania, także ze względów etycznych[19]. Tagi mogą być także cennym źródłem informacji o oczekiwaniach i kompetencjach użytkowników, zestawione z punktami dostępu do treści opracowanymi przez bibliotekarza/bibliografa mogą posłużyć do weryfikacji i wzbogacenia stosowanego narzędzia indeksowania i wyznaczania kierunku jego rozwoju. Barierą może być natomiast mała aktywność potencjalnych „współindeksatorów” – wartość informacyjna folksonomii jest tym większa, im więcej osób opisuje ten sam zasób, zaś z dotychczasowych doświadczeń wynika, że użytkownicy chętniej opisują własne materiały (zamieszczane w serwisach społecznościowych typu Flickr, LibraryThing czy del.icio.us) niż instytucjonalne bazy danych.

Ze zjawiskiem tagowania jest związany sposób prezentacji i wyszukiwania punktów dostępu do treści w bazach bibliograficznych znany jako chmura tagów (ang. tag cloud), choć dotyczy on zarówno społecznościowego znaczenia dokumentów, jak i tematów nadawanych przez specjalistów. Jest to znane z wielu serwisów internetowych graficzne przedstawienie zestawu tagów, które opisują zawartość danego zasobu i są jednocześnie linkami do indeksu lub odpowiednich miejsc w serwisie. Tagi są zwykle pozycjonowane poprzez zwiększenie lub pogrubienie czcionki w zależności od ważności lub popularności występowania na stronie. Chmura może zawierać wszystkie lub tylko ważniejsze znaczniki, które mogą być sortowane alfabetycznie, według wagi lub losowo (randomizowane). Chmura tagów może być wygodnym i atrakcyjnym narzędziem wyszukiwania w bazach bibliograficznych, ale jej stosowanie należałoby zawęzić do małych lub średniej wielkości baz dziedzinowych; w dużych, uniwersalnych zasobach, z których korzystają użytkownicy o bardzo zróżnicowanych potrzebach informacyjnych, zestawienia eksponujące najczęściej używane słowa kluczowe byłyby raczej bezwartościowym gadżetem. Dziś niewiele baz bibliograficznych oferuje takie narzędzie wyszukiwawcze, interesujący przykład zastosowania chmury tagów stanowi baza bibliograficzna „European Bibliography of Slavic and East European Studies”[20].

Wyszukiwanie pełnotekstowe

Rozwój technologii umożliwił łatwe tworzenie i udostępnianie baz danych pełnotekstowych, które informację bibliograficzną i faktograficzną integrują z tekstami dokumentów pierwotnych. Niewątpliwe takich baz danych najbardziej oczekują użytkownicy, bardziej niż baz odsyłających, oferujących jedynie metainformacje o obiektach. W kontekście możliwości pełnotekstowego przeszukiwania dokumentów stawiane jest pytane o zasadność, użyteczność i ekonomikę tradycyjnego, manualnego opracowania rzeczowego[21].

Funkcjonujące dziś wyszukiwarki są na tyle zaawansowane technologicznie, że nie stanowi dla nich problemu nie tylko selekcjonowanie najbardziej adekwatnych słów kluczowych, obliczanie trafności zapytania i zwracanie najbardziej trafnych odpowiedzi na czołowych pozycjach wyników, ale również automatyczny przekład dokumentu czy generowanie streszczeń[22]. Indeksowanie automatyczne jest przyszłością opracowania rzeczowego, zapewne bliższą niż się tego spodziewamy. W pierwszym rzędzie obejmie dokumenty elektroniczne dostępne sieciowo, których liczba wyklucza wszelkie próby opracowania manualnego, i dokumenty pełnotekstowe udostępniane w bibliotekach cyfrowych i bazach dziedzinowych. Perspektywa całkowitego zastąpienia ręcznego indeksowania dokumentów bibliotecznych działaniem maszynowym jest w tej chwili trudna do wyobrażenia, nie tyle ze względów technicznych (cały zasób dokumentów należy najpierw zdigitalizować), co prawnych (ochrona prawem autorskim i prawami pokrewnymi uniemożliwia publiczny dostęp do większości nowszych publikacji).

Podsumowując rozważania o wyszukiwaniu informacji w środowisku cyfrowym, Piotr Gawrysiak tak wyobraża sobie przyszłość katalogerów-indeksatorów: Można zatem przypuszczać, że profesjonalną rolą bibliotekarzy w przyszłości będzie aktywne uczestniczenie w procesie wyszukiwania informacji, w tworzeniu algorytmów wyszukiwawczych i w edukacji użytkowników, a katalogowanie, tematowanie i klasyfikowanie publikacji, zajmujące dziś ważne miejsce w ich zawodowych zadaniach, zostanie w pełni przejęte przez serwery wyszukiwarek sieciowych[23]. Nawet jeśli nie do końca zgadzamy się z przytoczoną wizją, zwłaszcza mając na względzie nie tylko informacyjną, ale też historyczną, dokumentacyjną funkcję bibliografii, której powinnością jest udostępnianie danych kompletnych i wiarygodnych, warto, byśmy mieli przez oczami tę perspektywę. Warto zadbać zawczasu o dobrą współpracę z informatykami, architektami informacji, która pozwoli rozbudować funkcjonalności systemu informacyjno-wyszukiwawczego tak, by siły i środki zainwestowane w opracowanie rzeczowe dokumentów, w naszym przekonaniu ważne i potrzebne, były dobrze wykorzystane i by efekty tej pracy przynosiły pożytek różnym kategoriom użytkowników bibliografii.

Punkty dostępu treściowego w bibliografiach

Wybór narzędzia opisu rzeczowego dla danej bibliografii powinien uwzględniać wiele czynników: jej rodzaj, docelową zasobność, ale przede wszystkim zakres. Bibliografie o nieograniczonym zakresie, które rejestrują dokumenty o różnej tematyce, takie jak: bibliografie narodowe, regionalne czy bibliografie określonych form wydawniczych lub piśmienniczych, posługują się uniwersalnymi językami informacyjno-wyszukiwawczymi. Bibliografie o ograniczonym zakresie, dziedzinowe czy osobowe, stosują zazwyczaj języki specjalistyczne, uwzględniające specyfikę danej dyscypliny czy obszaru wiedzy i działalności.

Bibliografie narodowe, zgodnie z międzynarodowymi zaleceniami, zapewniają dwa rodzaje punktów dostępu do zawartości treściowej – najczęściej hasła przedmiotowe/deskryptory zaczerpnięte z lokalnie stosowanego słownika/tezaurusa (zwykle tworzonego w bibliotece narodowej lub przez nią adaptowanego) oraz symbole jednej z uniwersalnych międzynarodowych klasyfikacji[24].

Najbardziej rozpowszechnionym językiem haseł przedmiotowych jest Library of Congress Subject Headings, rozwijany od ponad stu lat w Bibliotece Kongresu Stanów Zjednoczonych, poza Stanami Zjednoczonymi stosowany w wersji oryginalnej w katalogach i bibliografiach narodowych krajów anglojęzycznych, w wielu innych tłumaczony, adaptowany lub uwzględniany jako wzorzec, punkt odniesienia czy uzupełnienie lokalnego narzędzia indeksowania[25]. Własne, krajowe słowniki haseł przedmiotowych lub tezaurusy stosują m.in. bibliografie narodowe Kanady (RVM – Répertoire des. vedettes- matieres), Francji (RAMEAU – Répertoire d'authorité de matieres encyclopédique unifié, stosowany również w bibliografiach krajów frankofońskich, np. Afryki Północnej), krajów niemieckojęzycznych (RSKW – Regeln für den Schlagwortkatalog, opracowywany przez Deutsche Nationalbibliothek, stosowany również w Austrii i Szwajcarii), Włoch (Nuovo Soggetario), Chorwacji, Słowenii, Węgier, Estonii, Holandii, Chin czy Japonii[26]. W Polsce od lat 50. ubiegłego wieku bibliografia narodowa zawiera hasła przedmiotowe formułowane zgodnie z podręcznikiem Adama Łysakowskiego, które były systematycznie uzupełniane, a w latach 80. zweryfikowanych i opracowanych jako Słownik języka haseł przedmiotowych Biblioteki Narodowej. Hasła w języku haseł przedmiotowych Biblioteki Narodowej nadawane są wszystkim typom dokumentów rejestrowanych w bieżącej bibliografii narodowej: wydawnictwom zwartym, ciągłym, artykułom z czasopism, dokumentom elektronicznym, dźwiękowym, kartograficznym.

W narodowych bibliografiach starych druków i w bibliografiach retrospektywnych stosuje się zazwyczaj uproszczone słownictwo i reguły opracowania rzeczowego. Na ich potrzeby – jeśli w ogóle punkty dostępu do treści są używane – tworzy się proste klasyfikacje (własne lub wybrane działy główne klasyfikacji uniwersalnych) lub wybiera z uniwersalnego języka informacyjno-wyszukiwawczego tematy klasowe i formalne[27].

Klasyfikacje stosowane w bibliografiach narodowych stanowią nie tylko dodatkowy punkt dostępu treściowego, ale służą do organizacji zrębu głównego w edycyjnych wersjach bibliografii (druk tradycyjny lub elektroniczny). Najczęściej stosowane to Klasyfikacja Dziesiętna Deweya, Uniwersalna Klasyfikacja Dziesiętna, Klasyfikacja Biblioteki Kongresu) i klasyfikacja wydawnicza UNESCO. Polska bibliografia narodowa wydawnictw zwartych od lat 80. stosuje układ działowy według UKD, od 2009 r. układ według głównych działów UKD wprowadzono również do bibliografii wydawnictw ciągłych, dokumentów kartograficznych i elektronicznych. Własne klasyfikacje służące do organizacji zrębu głównego stosuje polska „Bibliografia Dokumentów Dźwiękowych” i „Bibliografia poloników zagranicznych”.

Praktyki udostępniania bibliografii narodowych, a co za tym idzie, oferowane punkty dostępu do treści i możliwości wyszukiwania dokumentów, są zróżnicowane. Opisy pozycji rejestrowanych w bibliografii narodowej z reguły zasilają katalog główny zbiorów biblioteki narodowej i są wyszukiwane zgodnie z ogólnymi procedurami przewidzianymi w danym OPAC-u, za pośrednictwem wspólnego interfejsu i ogólnych indeksów (hasło przedmiotowe, słowo kluczowe). Stosunkowo niewiele bibliotek narodowych oferuje dostęp do bibliografii narodowych w postaci oddzielnej bazy/baz danych, w których można zapewnić dodatkowe opcje przeszukiwania zbioru dokumentów, zależnie od charakterystyki i potrzeb (takie bazy bywały udostępniane odbiorcom np. na CD-ROM-ach, ostatnio obserwuje się odchodzenie od tej formy publikacji danych, którą – ze względu na powszechny dostęp on-line –zainteresowanych jest niewielu odbiorców). Bibliografie narodowe, które zaprzestano ogłaszać drukiem, są zwykle udostępniane w wersji edycyjnej: drukowanej lub elektronicznej (PDF, HTML), dostępnej w witrynie biblioteki narodowej[28]. Wersje te nie oferują przeszukiwania według indeksu haseł przedmiotowych (ta opcja jest dostępna w bazie katalogowej lub bazie bibliograficznej), zapewniają natomiast przeszukiwanie zbioru według głównych działów klasyfikacji. Można więc mówić o uzupełniających się, komplementarnych w zakresie wyszukiwania informacji o treści dokumentu, postaciach bibliografii: jedna zapewnia dotarcie do szczegółowo przedstawionego tematu dokumentu (indeksowanie wyszczególniające), druga daje szersze pole wyszukiwania (indeksowanie uogólniające). Bibliografie prezentowane jako pliki HTML są mało atrakcyjne pod kątem wyszukiwania treści, na ogół pozbawione wewnętrznych linków, pozwalających na dotarcie do interesujących użytkownika działów czy pozycji indeksowych, natomiast bibliografie udostępniane jako pliki PDF oferują wiele możliwości wyszukiwania, włącznie z przeszukiwaniem pełnotekstowym, co pozwala na wyszukanie informacji zawartych w adnotacjach i innych nieindeksowanych w bazie danych polach opisu.

Bibliografie regionalne – bibliografie terytorialne obszarów mniejszych niż państwo często traktowane są jako komplementarne wobec bibliografii narodowej[29], więc i opis rzeczowy nawiązuje do standardów przyjętych w bibliotece narodowej danego kraju. Uniwersalny język informacyjno-wyszukiwawczy zwykle w takim przypadku jest modyfikowany zgodnie z lokalnymi potrzebami (a nierzadko nawykami), uzupełniany o dodatkowe punkty dostępu do treści, najczęściej własną klasyfikację. Polskie bibliografie regionalne w większości wykorzystują w mniejszym lub większym stopniu jhp BN, poddając jego słownictwo i gramatykę różnym, nie zawsze uzasadnionym i korzystnym z punktu widzenia wyszukiwania informacji, zabiegom[30], w wielu stosuje się indeksowanie uogólniające. Bazy bibliograficzne zazwyczaj oferują wyszukiwanie z indeksów haseł przedmiotowych (czasem również osobnych indeksów nazw osobowych i geograficznych) oraz/lub poprzez symbole danej klasyfikacji regionalnej, w wielu brakuje, niestety, opcji wyszukiwania słów, zwłaszcza wyszukiwania zaawansowanego, z użyciem operatorów logicznych. Skutkiem tych ograniczeń bywa, niestety, dotkliwa cisza informacyjna, gdy nie znajdujemy dokumentów na poszukiwany temat, mimo iż są one zarejestrowane w bazie bibliograficznej.

Byłoby ze wszech miar wskazane, choć trudne do osiągnięcia, by bibliografie regionalne stosowały wspólny język opisu treści dokumentów i ujednoliconą metodę opracowania, a niezbędne uzupełnienia uwzględniały w dodatkowych, lokalnych punktach dostępu. Pozwoliłoby to na wspólne przeszukiwanie tych zasobów, tak jak to ma miejsce np. w niemieckiej Virtuelle Deutsche Landesbibliographie[31], metawyszukiwarce zasobów niemieckich bibliografii regionalnych. Przeszukiwanie zbioru uwzględnia słowa kluczowe ze standaryzowanego opisu rzeczowego, natomiast każdą bibliografię z osobna można przeszukiwać, wykorzystując przyjęte w poszczególnych bibliografiach klasyfikacje.

Bibliografie dziedzinowe z reguły opisują dokumenty za pomocą specjalistycznych, dziedzinowych narzędzi indeksowania, zwykle tezaurusów i klasyfikacji. Uniwersalne języki haseł przedmiotowych oferują słownictwo, które nie pozwala na satysfakcjonujące dla specjalisty z danej dziedziny wskazanie treści dokumentów.

Bibliografie artykułów z czasopism – wybór narzędzia indeksowania uzależniony jest przede wszystkim od zakresu bibliografii, jej zasobności w dokumenty i możliwości zespołu opracowującego[32]. Bibliografie ogólne lub wielodziedzinowe zwykle stosują uniwersalny język informacyjno-wyszukiwawczy, modyfikowany pod kątem szczególnych potrzeb. Polska Bibliografia Zawartości Czasopism i baza PRASA, współtworzona przez Bibliotekę Narodową i biblioteki publiczne, stosują w opisie rzeczowym jhp BN. H.W. Wilson Company do indeksowania artykułów z czasopism używa LCSH, poddając go odpowiednim modyfikacjom[33]. Często obok haseł w języku uniwersalnym autorzy bibliografii dodają inne punkty dostępu do treści, np. własną kontrolowaną listę słów kluczowych czy słowa z adnotacji i streszczeń[34]. W wielu bazach oferujących dostęp do metadanych artykułów, a często i do ich treści, poprzestaje się na zastosowaniu dość ogólnej klasyfikacji, uzupełniając możliwości wyszukiwacze o słowa z tytułu, adnotacji, ewentualnie swobodne słowa kluczowe nadane przez autorów opisywanych tekstów. Ten ostatni model zdaje się dominować, co jest zrozumiałe wobec ogromnej – i stale rosnącej, także ze względu na coraz większą łatwość publikacji – liczby tekstów ogłaszanych w zasobach ciągłych tradycyjnych i elektronicznych. Zdecydowanie niekorzystną praktyką jest ograniczenie wyszukiwania przez słowo do słów zawartych w tytule[35].

Jakie punkty dostępu do treści i opcje ich wyszukiwania warto zapewnić w bibliograficznej bazie danych?

Czy wobec wielości typów baz bibliograficznych, bibliograficzno-abstraktowych, pełnotekstowych, baz o uniwersalnym, lokalnym czy specjalistycznym zakresie, wielkich i małych, wobec mnogości dostępnych narzędzi indeksowania można sformułować jakieś ogólne wnioski dotyczące organizacji dostępu do treści?

Wydaje się, że w bibliograficznych bazach danych warto:

stosować więcej niż jedno narzędzie opisu rzeczowego, np. język haseł przedmiotowych i klasyfikację, język deskryptorowy i klasyfikację oraz zaoferować różny poziom szczegółowości indeksowania (np. wyszczególniające hasła przedmiotowe i uogólniające symbole klasyfikacji), w uzasadnionych przypadkach dopuścić użycie słownictwa niekontrolowanego;

uwzględnić dodatkowe informacje, zawierając niekontrolowane punkty dostępu w adnotacjach, abstraktach, streszczeniach, dołączając spisy treści dokumentów;

zadbać, by system obsługiwał zarówno funkcję przeglądania indeksów (browsing), jak i wyszukiwania przez dowolne słowa (searching), z uwzględnieniem przeszukiwania całego opisu, jeśli zawiera on dodatkowe informacje o treści dokumentów (np. adnotacje, abstrakty, streszczenia, spisy treści). System powinien umożliwiać m.in. obsługę zarówno zapytań prostych (wyszukiwanie proste), jak i formułowanie zapytań złożonych przy użyciu operatorów boolowskich (wyszukiwanie zaawansowane), wyszukiwanie według początków terminów lub z zastosowaniem maskowania, wybór terminów z indeksu dla każdego pola;

zapewnić link do wykorzystywanego zasobu słownictwa języka informacyjno-wyszukiwawczego, w miarę możliwości kontrolować słownictwo kartoteką wzorcową, z której w indeksie generowane są odsyłacze całkowite i orientacyjne;

zastanowić się nad prezentacją terminów wyszukiwawczych w postaci chmury tagów i możliwością zaproponowania użytkownikom współudziału w opracowaniu rzeczowym poprzez zamieszczanie własnych tagów;

zaproponować graficzne sposoby wyszukiwania, np. za pośrednictwem map czy wykresów, z których linki prowadzą do odpowiednich zasobów bibliograficznych lub tekstów;

zapewnić wyczerpującą, ale jasno sformułowaną informację o polityce i narzędziach indeksowania oraz możliwościach przeszukiwania zasobu. Help użytkownika powinien być instrukcją wyszukiwawczą just in time, krótką i treściwą podpowiedzią, sugestią dalszych kroków w systemie.

Ostatni wniosek jest truizmem, ale nigdy dość przypominania o konieczności pozostawania w stałym roboczym kontakcie z informatykami, projektantami i administratorami baz danych. Od jakości tych relacji, przepływu informacji i wzajemnego zrozumienia zależeć będzie efektywne wyszukiwanie informacji w najbliższej przyszłości.

We wspomnianym już raporcie On the Record będącym oceną stanu rejestracji bibliograficznej i projekcją rozwoju baz bibliograficznych i katalogowych w obliczu permanentnej zmiany technologicznej, pojawia się ważna dla nas konstatacja: Subject analysis is a core function of cataloging. Starajmy się to kluczowe zadanie realizować lepiej niż dotychczas, mając na względzie jakość bibliografii i satysfakcję naszych użytkowników.

Przypisy

[1] Na temat jakości w opracowaniu rzeczowym zob. WOŹNIAK-KASPEREK, J. Jakość w opracowaniu rzeczowym zbiorów bibliotecznych. Biuletyn EBIB [on-line] 2002, nr 2 (31) [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://ebib.oss.wroc.pl/2002/31/wozniak.php. ISSN 1507-7187.
[2] W polskiej literaturze przedmiotu brak jednego utrwalonego odpowiednika terminu subject access point, który obecnie powszechnie występuje w międzynarodowych dokumentach dotyczących bibliografii, przepisów katalogowania oraz standardów i dobrych praktyk opracowania rzeczowego. Punkt dostępu do treści w obecnym rozumieniu oznacza raczej wszelki dostęp do dokumentów w zasobach cyfrowych (odpowiednik ang. content access). W polskim piśmiennictwie można spotkać ponadto określenia „punkt dostępu rzeczowego”, „punkt dostępu do przedmiotu”, „punkt dostępu do tematu”.
[3] Terminy związane z opisem rzeczowym dokumentów i jego narzędziami BOJAR, B. (red.). Słownik encyklopedyczny informacji, języków i systemów informacyjno-wyszukiwawczych. Warszawa: Wydaw. SBP, 2002. ISBN 83-87629-84-7.
[4] Użytkownik nie kończy kursu języka obcego, jakim jest dla niego język haseł przedmiotowych. Uczy się metodą prób i błędów oraz analogii. WOŹNIAK-KASPEREK, J. Czy katalogowanie przedmiotowe ma przyszłość? W: RÓŻNIAKOWSKA, M., SÓJKOWSKA, I. (red.) II Konferencja Biblioteki Politechniki Łódzkiej „Biblioteki XXI wieku. Czy przetrwamy?” Łódź, 19–21 czerwca 2006 r. [on-line]. [Warszawa]: Stowarzyszenie Bibliotekarzy Polskich, K[omisja] W[ydawnictw] E[lektronicznych], Redakcja "Elektronicznej Biblioteki", 2006 [Dostęp 15 kwietnia 2009], s. 78. Dostępny w World Wide Web: http://www.ebib.pl/publikacje/matkonf/biblio21/sesja2ref3.pdf. ISBN 83-920302-4-9.
[5] Badania logów transakcyjnych i zachowań informacyjnych użytkowników Oklahoma University Library wykazały, że jedynie 4,6% wyszukiwań realizowano za pośrednictwem indeksu przedmiotowego, podczas gdy 64,8% wyszukiwano przez słowa. Blisko 50% wyszukiwań przez hasło przedmiotowe było bezowocnych (0 trafień), 10% zapytań dało wynik ponad 500 pozycji; przy czym użytkownicy, którzy nie są zadowoleni z efektów wyszukiwania, nie próbują przeglądać indeksów ani nie korzystają z sugestii np. linków czy odsyłaczy, ale zadają następne pytanie. Zob. ANTEL, K., HUANG, J. Subject Searching Success. Reference&User Services Quarterly [on-line] 2008, Vol. 48, No. 1, s. 68–76 [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://www.rusq.org/2009/03/29/subject-searching-success-transaction-logs-patron-perceptions-and-implications-for-library-instruction. ISSN 1094-9054.
[6] Podczas konferencji na temat wykorzystania języka KABA do opracowania dokumentów z dziedziny nauk ścisłych zgłaszano postulaty dopuszczenia do stosowania w katalogu NUKAT również innych specjalistycznych narzędzi indeksowania, por. CZARNOCKA-CIECIURA, D. Język haseł przedmiotowych KABA a Mathematics Subject Classification, W: SZCZEPAŃSKA, B. (red.) Opracowanie przedmiotowe dokumentów z zakresu nauk ścisłych: matematyczno-przyrodniczych i technicznych. Język haseł przedmiotowych KABA: teoria, praktyka, przyszłość. Kazimierz Dolny, 20–22 września 2006 roku [on-line]. [Warszawa]: Stowarzyszenie Bibliotekarzy Polskich, K[omisja] W[ydawnictw] E[lektronicznych], Redakcja "Elektronicznej Biblioteki", 2006 [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://www.ebib.pl/publikacje/matkonf/kaba/czarnocka.php. ISBN 83-921757-6-X.
[7] Zob. np. artykuły publikowane w latach 90. ubiegłego wieku. Franz, L. [et al.]. End User Understanding of Subdivided Subject Headings. Library Resources & Technical Services 1994, Vol. 38, No. 3, s. 213–223. ISSN 0024-2527; DRABENSTOTT, K.M., SIMCOX, S., FENTON, E.G. End User Understanding of Subject Headings in Library Catalogs. Library Resources & Technical Services 1999, Vol. 43, No. 3, s. 140–160. ISSN 0024-2527.
[8] Z bardzo obfitej literatury przedmiotu warto przytoczyć raport dotyczący przyszłości rejestracji bibliograficznej On the Record. Report of The Library of Congress Working Group on the Future of Bibliographic Control [on-line]. 2008 [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://www.loc.gov/bibliographic-future/news/lcwg-ontherecord-jan08-final.pdf (zwłaszcza rozdział 4.3 Optimize LCSH for Use and Reuse); dokument Library of Congress Subject Headings. Pre- vs. Post-Coordination and Related Issues [on-line]. [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://www.loc.gov/catdir/cpso/pre_vs_post.pdf; polemikę z tymi tezami MANN, T. “On the Record” but Off the Track [on-line]. 2008 [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://www.guild2910.org/WorkingGrpResponse2008.pdf; WEINHEIMER, J. An Open Reply to Thomas Mann’s report “On the Record” but Off the Track. [on-line]. 2008 [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://eprints.rclis.org/13059/1/OntheRecordOpenReply.pdf.
[9] Zob. np. MADALIŃSKA, S. Dostosowanie języka haseł przedmiotowych Biblioteki Narodowej do potrzeb lokalnej bibliografii regionalnej na przykładzie bazy danych „Piotrkoviana” w Bibliotece Pedagogicznej w Piotrkowie Trybunalskim – z doświadczeń praktyka. Warsztaty Bibliotekarskie [on-line]. 2008, nr 3–4 [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://www.pedagogiczna.edu.pl/warsztat/2008/3-4/080303.htm. Problemy dostosowania języka uniwersalnego do lokalnych potrzeb są co roku dyskutowane na kolejnych Warsztatach jhp BN odbywających się w Bibliotece Narodowej.
[10] GONET, K. Dlaczego słowa kluczowe a nie hasła przedmiotowe? Co dalej z opracowaniem rzeczowym w bibliotekach FIDES? FIDES – Biuletyn Bibliotek Kościelnych [on-line]. 2004, nr 1–2, (18–19) [Dostęp 15 kwietnia 2009], s. 22–32. Dostępny w World Wide Web: http://digital.fides.org.pl/dlibra/doccontent?id=29&dirids=1.
[11] Obszerny wykaz języków informacyjno-wyszukiwawczych jest dostępny w formie listy kodów źródeł w dokumentacji formatu MARC21 – MARC Code List Part IV. Term, Names, Titel Sources [on-line]. [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://www.loc.gov/marc/relators/relasour.html. Lista uwzględnia języki i kartoteki, które zgłoszono do komitetu MARBI, i które mają ustalone kody literowe do wpisywania w polu 040, polach grupy 6xx i 7xx rekordu bibliograficznego. Opracowana przez Traugutta Kocha List of controlled vocabularies, thesauri and classification systems available in the WWW nie jest już, niestety, dostępna.
[12] Zob. POLITOWSKA, K. Bibliografia w standardzie Web 2.0 – możliwości i ograniczenia. WOŹNIAK-KASPEREK, J., OCHMAŃSKI, M. (oprac.) Bibliografia. Teoria. Praktyka. Dydaktyka. Warszawa: Wydaw. SBP, 2009, s. 218–223. ISBN 9788361464068.
[13] W języku polskim trudno rozróżnić dwa znaczenia pojęcia, które występują w anglojęzycznej literaturze przedmiotu: pod pojęciem tagging rozumie się indeksowanie przez specjalistów opracowania rzeczowego lub informacji naukowej, natomiast social tagging oznacza indeksowanie za pomocą znaczników przez użytkowników (określane również jako user tagging, social bookmarking lub collaborative tagging). W tym drugim znaczeniu można użyć terminów: „wspólne tagowanie”, „społeczna klasyfikacja”, „społeczne indeksowanie” i „społeczne tagowanie”, jak to wskazuje Wikipedia, przyjęło się jednak określać je po prostu mianem tagowania.
[14] HAMMOND, T. [i in.]. Social Bookmarking Tools (I). D-Lib Magazine [on-line]. 2005, Vol. 11, No. 4 [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://www.dlib.org/dlib/april05/hammond/04hammond.html; KOSZKOWSKA, A. Tagowanie i biblioteczne katalogi 2.0. W: Blog społeczności czytelników i bibliotekarzy cyfrowych [on-line]. [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://blog.biblioteka20.pl/?p=66.
[15] Nazywane również „społeczną klasyfikacją” (ang. social classification w literaturze występuje również jako folk classification, ethnoclassification, distributed classification).
[16] Biblioteka Kongresu, udostępniając część swoich zasobów fotograficznych w serwisie Flickr (projekt „The Commons”), uzyskała w ten sposób wiele cennych informacji o przedstawionych na zdjęciach osobach, miejscach, wydarzeniach. Weryfikacja tych informacji jest oczywiście nie w pełni możliwa, ale publicznie dostępne tagi podlegają ocenie i są komentowane także przez innych użytkowników, co niewątpliwe zwiększa wiarygodność danych. http://www.flickr.com/commons?PHPSESSID=ea7b4da468f5935f24b65f41dbfc356f [Dostęp 15 kwietnia 2009].
[17] W eksperymentalnym projekcie Steve.museum (http://www.steve.museum/) podjęto badania nad społecznym tagowaniem dzieł sztuki w wirtualnej kolekcji i porównano punkty dostępu wprowadzone przez użytkowników z punktami dostępu standardowej dokumentacji muzealnej. W czasie trwania projektu 2–275 użytkowników opatrzyło około 1–750 artefaktów ponad 90 000 tagów. 86% słów kluczowych zaproponowanych przez tagujących było całkowicie różnych od słownictwa kontrolowanego będącego w użyciu muzealników. WYMAN, B. [i in.]. Steve.museum: An Ongoing Experiment in Social Tagging, Folksonomy, and Museums. W: Museums and the Web 2006: Proceedings. Toronto: Archives & Museum Informatics [on-line]. [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://www.archimuse.com/mw2006/papers/wyman/wyman.html.
[18] NORUZI, A. Folksonomies – Why do we need controlled vocabulary? Webology [on-line]. 2007, Vol. 4, No. 2 [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://eprints.rclis.org/11287/.
[19] Na przykład, aby wyeliminować nieuczciwe, anonimowe recenzje czy używanie tagów niecenzuralnych lub obraźliwych. Por. EBERHARDT, J. Angewandte Ethik: Zum moralischen Status des Catalogue Enrichment. LIBREAS: Library Ideas [on-line]. 2006, No. 1 [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://eprints.rclis.org/5555/.
[20] http://ebsees.staatsbibliothek-berlin.de/index.php [Dostęp 15 kwietnia 2009]. Bazę zawierającą opisy (i w znacznej części pełne teksty) ponad 85 000 dokumentów można przeszukiwać korzystając z funkcji searching i browsing oraz za pomocą chmury wszystkich tematów.
[21] LANCASTER, F. W. Do indexing and abstracting have a future? Anales de Documentación [on-line]. 2003, Vol. 6 [Dostęp 15 kwietnia 2009], s. 137–144. Dostępny w World Wide Web: http://eprints.rclis.org/14205/.
[22] OBERHAUSER, O. Automatisches Klassifizieren: Verfahren zur Erschliessung elektronischer Dokumente, Master`s Thesis Zusatzstudiengang Bibliotheks- und Informationswissenschaft Fakultät für Informations- und Kommunikationswissenschaften Fachhochschule Köln 2004 [on-line]. [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://eprints.rclis.org/7979/, GAWRYSIAK, P. Cyfrowe biblioteki a wyszukiwanie informacji. Przegląd Biblioteczny 2008, z. 4, s. 658.
[23] Tamże, s. 660.
[24] BOURDON, F., LANDRY, P. Best practices for subject access to national bibliographies: interim report by the Working Group on Guidelines for Subject Access by National Bibliographic Agencies. 73rd IFLA General Conference and Council [on-line]. 2007 [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://archive.ifla.org/IV/ifla73/papers/089-Bourdon_Landry-en.pdf.
[25] Ankieta przeprowadzona w końcu lat 90. XX w. przez Magdę Heiner-Freiling wykazała stosowanie LCSH w bibliografiach narodowych 24 krajów, przede wszystkim anglojęzycznych lub w których język angielski jest jednym z języków urzędowych (m.in. Wielka Brytania, Szkocja, Walia, Republika Południowej Afryki, Australia, Malta, Irlandia), w 12 innych LCSH został przetłumaczony lub adaptowany (m.in. Grecja, Turcja, Macedonia, Czechy, Litwa, Łotwa, Iran, Brazylia). HEINER-FREILING, M. Survey on Subject Reading Languages Used In National Bibliographies and Bibliographies. Cataloging and Classification Quarterly 2001, Vol. 29, No. 1/2, s. 189. ISSN 1544-4554. W ostatnich latach próby adaptacji LCSH podjęto w Szwecji i krajach języka hiszpańskiego. Por. także raport dotyczący narzędzi indeksowania w europejskich bibliotekach narodowych Report on subject access tools. [on-line]. March 19, 2007 [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://www.edlproject.eu/downloads/edlReportsatful3.doc.
[26] Tamże. Informacje o językach informacyjno-wyszukiwawczych stosowanych w krajach Europy Środkowo-Wschodniej uwzględniono w raporcie opracowanym w ramach projektu TEL, nie jest on już, niestety, dostępny, wydruk przechowywany jest w Instytucie Bibliograficznym Biblioteki Narodowej.
[27] Na przykład na potrzeby niemieckiej bibliografii narodowej druków siedemnastowiecznych, Verzeichnis der im deutschen Sprachraum erschienenen Drucke des 17. Jahrhunderts (VD17) opracowano wykaz około 200 używanych terminów. Gattungsbegriffe und Fachgruppen-Bezeichnungen [on-line]. [Dostęp 15 kwietnia 2009]. Dostępny w World Wide Web: http://www.vd17.de/pdf/VD17-GAT.pdf.
[28] Wersja ta jest zarazem dodatkową formą archiwizacji bibliografii w niezmiennej postaci, w przeciwieństwie do bazy danych, która zwykle podlega wielu modyfikacjom wynikającym m.in. ze zmian formatu, przepisów katalogowania czy metodyki opisu rzeczowego.
[29] STEFAŃCZYK, E. Bibliografie regionalne a bibliografia narodowa. BILIKIEWICZ-BLANC, D., KARŁOWICZ, A. (oprac.) Piąta Ogólnopolska Narada Bibliografów, Warszawa 11–13 czerwca 2003 Referaty i dyskusja. Warszawa: Biblioteka Narodowa, 2004, s. 229–235. ISBN 83-7009-586-0.
[30] Na przykład stosowanie określników w formie skróconej „hist.” Zamiast „historia”, „gosp.” zamiast „gospodarka”, rzem. zamiast „rzemiosło”, co uniemożliwia efektywne wyszukiwanie informacji przez słowa z opisu.
[31] http://www.ubka.uni-karlsruhe.de/landesbibliographie/ [Dostęp 15 kwietnia 2009].
[32] Warunek ten jest oczywiście istotny przy wyborze narzędzia indeksowania każdej bibliografii, jednak w przypadku bibliografii zawartości czasopism jest szczególnie ważny, ze względu na nieporównywalnie większy zasób tych dokumentów niż tradycyjnych wydawnictw.
[33] MILLER, J., KUHR, P. LCSH and periodical indexing: Adoption vs adaptation. Cataloging & Classification Quarterly 2000, Vol. 29, No. 1/2 s. 159–168. ISSN 1544-4554.
[34] Por. np. opisy w bazie bibliograficznej artykułów z czasopism EDUKACJA, w której w indeksie przedmiotowym zawarte są hasła jhp BN, ale poprzez opcje „Wyszukiwanie przez wszystkie pola” można wyszukać hasła stosowane lokalnie. http://www.dbp.wroc.pl/katalog.php [Dostęp 15 kwietnia 2009].
[35] Większość artykułów naukowych ma tytuły znaczące i charakteryzujące zawartość (np.: Diagnoza sytuacji kobiet na rynku pracy w Lubuskiem, Stosunek greckokatolickiego duchowieństwa do państwa polskiego w okresie II Rzeczypospolitej (1918–1939) czy Zarządzanie przez delegowanie uprawnień). Pewna część informacji jest jednak bezpowrotnie stracona, jakie bowiem punkty dostępu oferują słowa z tytułów: Ciche bohaterki..., Tryzub w labiryncie Minotaura, Komentarz do dyrektywy Rady 2004/81/WE z 29.4.2004 r. lub Omnia aura mecum porto: pomyłka Benjamina a strategie artystycznej odnowy doświadczenia?

Poprzedni - Spis treści - Następny

(C) 2009 EBIB

Indeksowanie zawartości treściowej w bibliograficznych bazach danych / Wanda Klenczon, // W: Bibliograficzne bazy danych : kierunki rozwoju i możliwości współpracy. Bydgoszcz, 27-29 maja 2006. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich, K[omisja] W[ydawnictw] E[lektronicznych], Redakcja "Elektronicznej Biblioteki", 2009. - (EBIB Materiały konferencyjne nr 19). - ISBN: 83-921757-5-1. -Tryb dostępu : http://www.ebib.pl/publikacje/matkonf/mat19/klenczon.php

Bibliograficzne bazy danych : kierunki rozwoju i możliwości współpracy Ogólnopolska konferencja naukowa z okazji 10-lecia bazy danych BazTechBydgoszcz, 27-29 maja 2009

Wanda Klenczon Instytut Bibliograficzny, Biblioteka Narodowa

Indeksowanie zawartości treściowej w bibliograficznych bazach danych

Abstrakt

Słowa kluczowe

Abstract

Keywords

Subject access points – punkty dostępu treściowego[2]

Narzędzia Web 2.0

Wyszukiwanie pełnotekstowe

Punkty dostępu treściowego w bibliografiach

Jakie punkty dostępu do treści i opcje ich wyszukiwania warto zapewnić w bibliograficznej bazie danych?

Przypisy

Bibliograficzne bazy danych : kierunki rozwoju i możliwości współpracy
Ogólnopolska konferencja naukowa z okazji 10-lecia bazy danych BazTech
Bydgoszcz, 27-29 maja 2009

Wanda Klenczon
Instytut Bibliograficzny, Biblioteka Narodowa