15 бер. 2013 р.

Як створити імідж-каталог



Існує декілька реалізованих мною проектів, якими я пишаюся. Один з них – імідж-каталог Херсонської обласної наукової медичної бібліотеки (http://library.gov.ua/khonmb/xmed-ic.html). Відрізняється він від інших, насамперед, бюджетом та можливістю робити пошук за будь-яким словом в каталожній картці. Фактично, для того щоб реалізувати такий проект достатньо придбати спеціалізований сканер та виділити одного співробітника, який би сканував, розпізнавав та завантажував в базу картки.

У 2009р. ХОНМБ придбала сканер Fujitsu fi-5110с за 8000 грн. В комплект зі сканером входило ПЗ ABBYY FineReader. Для реалізації проекту штат бібліотеки не збільшували. В бібліотеці на той час працювало 25 співробітників, але, нажаль, згодом «оптимізація» не оминула бібліотеку, але проект продовжувався. Я знаю, що сканувала картки, в тому числі, й директор бібліотеки Тетяна Альбертівна Діжур – талановитий організатор, сміливий новатор, мудрий керівник. Був відсканований весь предметний каталог - 640 ящиків. За день встигали відсканувати 4 ящики по 1000-1500 карток в кожному. На сканування витрачали від 2х до 4х годин на день. Сканер – не самий потужний, не призначений для сканування великих обсягів, йому треба давати час охолонути. Використовувався режим чорно-білого одностороннього сканування. Швидкість сканування приблизно 50 карток за хвилину. Решта часу витрачається на те, щоб дістати картки з ящика та покласти стопку карток у сканер. На сьогодні модель Fujitsu fi-5110с є застарілою, її випуск припинено.
Тим, хто захоче придбати подібний сканер, пораджу – Epson GT-S85. Представник фірми EPSON в Україні  Микола Фіалковський (дані на 2012р.) м.т.097-742-27-80. Не вважайте, що це реклама. Сам Микола сканери не продає, але може порадити партнера EPSON. У мене залишилися лише приємні враження від спілкування. Сканер Epson GT-S85 для демонстрації привозили у бібліотеку. Ми змогли відсканувати все, що хотіли – картки різної товщини у пачці, залиті водою, покручені, «махрові», ті, які підрізалися ножицями, непрямокутні. Результат був бездоганний. Вартість сканера – 7-8 тис. грн. Я не проводила ретельний аналіз ринку документ-сканерів. Можливо Ви знайдете інший, ще кращий, дешевше. Час дуже швидко змінює все. Але я б радила не намагатися купити більш потужний – дорожчий. На мою думку, достатньо виділити одного співробітника, який би сканував 1-2 ящика на день й в той же день їх повністю обробляв. Це цілком можливо. Звичайно, можна найняти фірму, яка швидко відсканує (за місяць), а потім буде просити гроші на обробку карток. Я не знаю в яку суму обійшовся проект створення імідж-каталогів Національній історичній бібліотеці України (http://www.nibu.kiev.ua), але в результаті здійснювати пошук за словом у картці не можна. За сканування карток та ж фірма просила у ННМБУ суму (зі скидкою за великий обсяг) в десятеро більшу, ніж вартість сканера. І це лише за сканування! Без розпізнавання або іншої обробки, що дозволить виставити відскановані картки в І-неті. Порахуйте зарплату Вашого співробітника (робота проста! Її може виконувати навіть людина без освіти) й вибирайте самі.
Зазначу, що після завершення сканування 640 ящиків предметного каталогу, сканер цілком працездатний. Він може сканувати не лише картки, а й аркуші формату А4, причому за один прохід з двох сторін. Наприклад, розшитий журнал на 70 сторінок за 2-3 хвилини.
Тепер про обробку карток. Спочатку наведу приклад профі-імідж-каталогу ДПНТБ (Москва). Використовувалися засоби АБІС Ірбіс для створення імідж-каталогу. Приклад імідж-каталогу тут – http://library.gpntb.ru/cgi2/irbis64r_img/cgiirbis_64.exe?C21COM=F&I21DBN=TEXT_FULLTEXT&P21DBN=TEXT. У результатах пошуку на картках пошукове слово підкреслюється. У моєму варіанті – ні. Але давайте підрахуйте вартість. Зробимо це за допомогою сайту Фірми «Матрікс Прес» http://matriks-pres.com.ua/index.php/imidzh-katalog. Треба придбати Web-шлюз для ІМІДЖ-КАТАЛОГУ (АРМ Читач  ІМІДЖ-КАТАЛОГУ – купувати не будемо, забезпечимо пошук лише через веб) 12 848 грн. + замовити послугу Створення ІМІДЖ-КАТАЛОГУ (у випадку ХОНМБ – більше 180 тис.грн). В бібліотеці повинен бути Ірбіс-64. Не буду заперечувати – швидко та зручно! Вирішуйте самі.
У нашому випадку проект продовжується вже більше 4 років. Але! Сканування тривало 2 роки. Зараз відбувається ретельне редагування. При замовленні послуги «Створення ІМІДЖ-КАТАЛОГУ» процес редагування після розпізнавання теж потрібен для якісного каталогу. В нашому проекті на першомі етапі редагувалися у FineReader картки з менш як 50% якістю розпізнавання (FineReader дозволяє відсортувати картки за відсотком розпізнавання). Це давало змогу виявити й ввести в базу вже на першому етапі рукописні картки та значно ушкоджені. Зараз редагування триває в Ірбіс-Каталогізаторі. В базі знищуються дублети (адже каталог предметний й їх багато). При бажанні можна редагувати розпізнані картки на будь-якому етапі: у FineReader, у WORDі, в текстовому файлі перед завантаженням в Ірбіс, або в Ірбісі. Але є сенс робити або розпочинати робити це саме у FineReader, бо погано розпізнані слова виділяються візуально. При замовленні послуги «Створення ІМІДЖ-КАТАЛОГУ» редагувати картки в FineReader ніхто не буде.
В нашому випадку крім сканера та стандартного ПЗ ABBYY FineReader, використовувались MS WORD, Ірбіс-32 (який був) Каталогізатор+Адміністратор вер.2004, та OPAC-ІРБІС/32 вер.3.40. Додатково ніякі програмні засоби не купували. Ця технологія може бути успішно використана для будь-якої АБІС, аби ця АБІС дозволяла завантажувати в базу записи з текстового файлу та мала засоби для OPAC.
Технологія. Зображення карток відсканованого ящика завантажуються в FineReader  та розпізнаються (в цей час співробітник може чай пити). Далі зображення упорядковуються за відсотком розпізнавання (натисканням однієї кнопки). Вдруковується зміст нерозпізнаних карток. Виправляється – у погано розпізнаних. Все експортуються в текстовий файл, який завантажується у WORD та обробляється макросом.
«Як робити макроси у WORDі» планую як тему одного з наступних постів. Макрос передбачає видалення зайвих пробілів, формування роздільників записів («*****») замість роздільників сторінок, додавання мітки поля, в яке заноситься зміст картки, й формування поля з посиланням на зображення картки. На малюнку приклад обробленого макросом файлу.
Готовий файл завантажується в Ірбіс. База й зображення карток – на веб-сервер. Для веб-серверу зображення карток зменшуються. Для цього використовували пакетний режим IrfanView (IrfanView - безкоштовна програма для перегляду та мінімальної обробки графічних файлів).

Й ще трохи про доцільність створення імідж-каталогів. Я вважаю, що для старих бібліотек з якісними картковими каталогами така робота доцільна. Бо жодним іншим способом один співробітник не введе в базу за один день 3 тис. карток. Проте, завдяки цій роботі, піднімається досить великий пласт бібліографічної інформації, навіть якщо з 3х тисяч безпомилково буде розпізнано лише третина (реально цей відсоток значно більший), то все одно ввести в базу за 1 день одному співробітнику тисячу карток – не під силу.
Дякую за увагу. Радо відповім на питання.


Немає коментарів:

Дописати коментар