суббота, 26 января 2008 г.

А тем временем "во всем мире"...

Количество текстов в электронной библиотеке Universal Library превысило 1,5 миллиона

  Руководители проекта Universal Library по созданию крупнейшей в мире электронной библиотеки из Университета Карнеги-Мелона сообщили, что количество отсканированных книг в базе превысило 1,5 миллиона экземпляров. При этом значительную часть составляют тексты на китайском языке. Ежедневно в базу добавляется несколько тысяч новых текстов.
  Как справедливо отмечает один из руководителей проекта, профессор в области информатики и робототехники Рэй Редди, база Universal Library могла бы составить конкуренцию обширной библиотеке любого крупного университета.
  Текущий этап по оцифровке текстов носит название Million Book Project и был начат в 2002 году, когда группа Редди отсканировала первую тысячу книг. Большую часть работы по сканированию в последние годы выполняют добровольцы в Индии и Китае. Частично проект спонсируется рядом крупных компании ИТ-индустрии и Национальным научным фондом США, который недавно выделил 3,5 миллиона долларов. Свою лепту также внесли власти США, Китая и Индии, пожертвовашие на нужды проекта по десять миллионов долларов США.
  Примерно около половины книг являются общественным достоянием, либо были размещены в библиотеке с разрешения правообладателей. Отсканированы также отрывки некоторых текстов, защищенных законом об авторском праве, однако авторы проекта убеждены, что в конце концов станут доступны их полные версии.
  В настоящее время в библиотеке содержатся тексты на двадцати языках, включая 970000 на китайском, 360000 на английском, 50000 на телугу и 40000 на арабском, сообщает Associated Press.

  Я там был, мед-пиво пил скачал на пробу пару десятков страниц - в отличие от известного проекта ГУТЕНБЕРГ, документы хранятся не в текстовом виде, а в форматах TIF и DjVu (там же предлагают к скачиванию и средства просмотра ;). Некоторые из полученных мной страниц сканированы откровенно плохо:


Перекос
с перекосом

Обрезано!
с обрезанием части текста

Но именно что - некоторые, общая доля брака довольно мала! Языки: Chinese, English, Arabic, Bengali, Telugu, Kannada, Tamil, Hindi, Sanskrit, Persian, Marathi, Urdu - русского (пока?) нет, увы.

Комментариев нет: