[go: nahoru, domu]

Google Книги

Это старая версия этой страницы, сохранённая Folcvine (обсуждение | вклад) в 11:30, 28 мая 2023. Она может серьёзно отличаться от текущей версии.

Google Книги (англ. Google Books, Google Print, Project Ocean) — масштабный проект компании Google, запущенный в 2004 году и направленный на оцифровку и публикацию в интернете миллионов печатных произведений. Основная идея заключалась в том, чтобы сделать все когда-либо напечатанные книги доступными для чтения и поиска в интернете, обеспечив пользователям неограниченный доступ к знаниям. В 2010 году Google сообщила, что, по её оценкам, в мире насчитывается более 129 млн печатных изданий, которые компания планирует полностью оцифровать за 10 лет.

Google Книги
Изображение логотипа
URL books.google.com
Коммерческий да
Тип сайта онлайн-библиотека
Язык (-и) многоязычный
Владелец Google
Начало работы 2005
Страна
Логотип Викисклада Медиафайлы на Викискладе

Бо́льшая часть коллекции поступала на оцифровку из университетских библиотек. В обмен на бесплатный доступ к книгам, университеты получали бесплатные электронные копии, а Google — материалы для улучшения поисковой системы и создания обширной коллекции цифровых материалов. Компания сотрудничала с более чем 40 крупнейшими библиотеками, включая библиотеки Мичиганского, Гарвардского, Стэнфордского, Оксфордского университетов, а также Нью-Йоркскую публичную библиотеку. Часть коллекции поступала от издателей и авторов, предоставляющих Google разрешение на оцифровку материалов в обмен на доход от контекстной рекламы или от увеличения продаж благодаря росту спроса на электронные книги.

Компания проспонсировала разработку специальных аппаратов для сканирования книг, которые с помощью высокоточных камер могли обрабатывать до 1000 страниц в час. Встроенное программное обеспечение исправляло искажения, корректировало цвет и контраст, а также преобразовывало сноски в цитаты, что впоследствии позволило системе ранжировать книги по релевантности. При этом операторы переворачивали страницы вручную. К 2019 году в рамках проекта было оцифровано более 40 млн произведений.

В 2005 году Гильдия Авторов[англ.] и ряд других издателей подали коллективный иск против Google[англ.], обвинив компанию в несанкционированном сканировании защищённых авторским правом материалов. Судебный процесс продолжался до 2016 года, после чего суд принял решение в пользу Google, определив, что сканирование материалов соответствует принципу добросовестного использования. Однако из-за нерешённых правовых споров оцифровка значительно замедлилась. По состоянию на 2023 год остаётся неясным, продолжает ли компания оцифровывать библиотечные издания.

Возникновение

 
Уведомление об оцифровке книг в проекте с Google Books в библиотеке Мичиганского университета
 
Логотип Проекта

Со времён аспирантуры в Стэнфордском университете со-основатели Google Ларри Пейдж и Сергей Брин задумывались об оцифровке огромных коллекций печатных изданий и предоставлении к ним широкого доступа[1]. Эти идеи — оцифровка, доступность, возможность поиска по всем текстам мира — побудили Брина и Пейджа создать «поисковый робот», который впоследствии лёг в основу поисковой системы Google[2].

В 2002 году стартовал проект под кодовым названием «Проект Океан» (англ. Project Ocean), в рамках которого сотрудники компании Google анализировали возможность массовой оцифровки всех печатных изданий. Впоследствии проект переименовали в Google Print, а затем — в Google Books[3][4]. Основная идея заключалась в оцифровке всех книг мира — свыше 125 млн[5]. По подсчётам Google, около 20 % из них находились в общественном достоянии, остальные были защищены авторским правом, однако уже не издавались. Google обратился к крупнейшим университетским библиотекам с просьбой предоставить бесплатный доступ к их коллекциям, а взамен предлагал бесплатные отсканированные копии[5][6][7]. Предполагалось, что это будет беспроигрышная стратегия для двух сторон — библиотеки получают электронные версии сотен тысяч книг, а поисковая система Google улучшает качество и релевантность результатов поиска[8]. Помимо этого, Google инициировал партнёрскую программу для издателей и авторов, в рамках которой правообладатели могли разрешить Google сканировать полный текст книги[9]. Взамен они могли получить доход от контекстной рекламы или увеличения продаж от роста спроса на электронные книги[9]. Масштабная оцифровка началась в 2004 году[10]. Полное сканирование всех материалов планировалось завершить за10 лет[6].

Проект был представлен в октябре 2004 года на Франкфуртской книжной ярмарке[11][9]. Предполагалось, что Google будет сканировать только общедоступные материалы из Оксфордской и Ньй-Йоркской публичных библиотек, а также часть коллекций в библиотеки Гарвардского университета. Библиотеки Мичиганского и Стэнфордского университетов разрешали оцифровку лишь произведений в общественном достоянии[9]. В декабре 2005 года проект переименовали в Google Books[12].

К июню 2010 года было оцифровано 12 млн книг, написанных примерно на 480 языках. На тот момент Google планировала завершить работу к 2020 году, создав виртуальную коллекцию из 4 млрд страниц или 2 трлн слов. К 2014 году число оцифрованных книг достигло 25 млн, а общие инвестиции в проект составляли 400 млн долларов[5]. В 2015 году Google заявила, что отсканировала 30 млн томов, что было сравнимо с крупнейшими библиотеками мира, например, Библиотекой Конгресса, насчитывающей около 37 млн книг[13]. Однако из-за судебных разбирательств[англ.] оцифровка сильно замедлилась[13][14]. К 2019 году было оцифровано свыше 40 млн печатных произведений[15].

Google заключила договоры с более чем 40 библиотеками по всему миру, включая библиотеки Гарварда[16], Стэнфорда[17], Мичиганского[18], Корнеллского[19] и Колумбийского университетов[20], Нью-Йоркскую публичную библиотеку[21], Бодлианскую библиотеку[22], Австрийскую национальную библиотеку[23], Баварскую государственную библиотеку[24], Мадридского университета Комплутенсе[25], Гентского университета[26], Библиотека Каталонии[27], Библиотека Принстонского университета[28], Виргинского университета[29], Висконсинского университета в Мадисоне[30].

Миссия

Проект Google Книги преследовал несколько амбициозных целей. Создатели стремились защитить тысячи важных публикаций от исчезновения из-за утраты печатной версии или прекращения издания[31]. Они намеревались создать всеобъемлющую цифровую библиотеку мировых знаний, включающую информацию из всех когда-либо вышедших книг[1][10]. Такой подход позволил бы обеспечить равный доступ к культурному и интеллектуальному наследию, требуя для чтения любого из материалов лишь доступ к интернету[1].

Google стремилась создать единый каталог всех печатных произведений и дать пользователям возможность искать по нему поиск с помощью ссылок и тегов. В то же время компания не ставила целью открыть полный доступ ко всем оцифрованным книгам, чему объективно мешали ограничения, связанные с авторским правом[8][9].

Оцифровка

Google стремилась при оцифровке произведений создавать качественные изображения минимального размера, чтобы даже пользователи в отдаленных местах без доступа к интернету могли использовать полученные материалы[3]. Руководителем оцифровки был назначен американский информатик Дэн Клэнси[англ.][1]. Он принял решение оцифровывать книги путём фотографирования, а не сканирования[5][3].

 
Пример отсканированноый руки оператора в одной из оцинкованных версий книг

Перед началом оцифровки Google вместе с партнёрской библиотекой разрабатывали подходящую выборку книг, принимая во внимание их ценность и состояние. Затем книги перевозили на грузовиках в специально оборудованные центры, где на расстоянии от 6 футов (1,8 м) до 8 футов (2,4 м) друг от друга были установлены станции оцифровки[5][3]. Каждое устройство было изготовлено на заказ и могло обрабатывать до 1000 страниц в час. Каждый печатный материал закреплялся на специальном стенде, а вверху устанавливались 2-4 камеры и инфракрасный свет для автоматической коррекции кривизны страниц в книге. После встроенный в систему лидар помог определить точное расположение книжных листов в пространстве, а специальное программное обеспечение «распрямляло» искривлённые страницы. Большинство книг не имели цветных фотографий или другой существенной информации о цвете. Используя методы интерполяции камеры уменьшали битность изображения и так уменьшали размер изображения[3][32].

Программное обеспечение было способно распознавать оптические символы, преобразуя изображения в текст, устранять искажения, корректировать цвет, настраивать контраст, а также учитывать сноски на другие книги, что впоследствии позволило системе ранжировать книги по релевантности[5]. Страницы переворачивались вручную специалистами, прошедшими специальную подготовку. Использование человеческого труда было необходимо для аккуратной работы со старыми материалами[33][3][5]. Подобная модель позволила Google сократить стоимость оцифровки одной книги до 10 долларов. Согласно расчётам компании, каждый оператор мог оцифровывать до 50 книг в день[3]. С течением времени сканеры продолжали совершенствоваться, новые версии выпускали каждые полгода[14].

После фотографирования камеры автоматически передавали полноценные изображения на связанный компьютер через FireWire или USB-соединение. Затем файлы загружались на серверы Google для дальнейшей обработки[3]. Сами книг возвращали сотрудникам библиотек, которые занимались их регистрацией в базе данных и возвращали обратно на полку. При этом библиотеки проверяли случайные выборки полученных файлов, чтобы убедиться, что они соответствуют необходимым требованиям контроля качества. Google предоставляла университетам доступ к системе загрузки всех цифровых файлов, созданных на их основе коллекций, а также разрешала переиздание материалов через их собственные онлайн-сервисы[3].

В 2008 году была создана партнёрская сеть HathiTrust, первоначально включавшая 13 университетов, каждый из которых планировал оцифровывать свои коллекции благодаря Google Books[34]. Организации сети договорились создать общий репозиторий для хранения оцифрованных книг. Материалы в открытом доступе доступны для онлайн-чтения[35][14].

Проблемы с коллекцией и критика

 
Плохое сканирование текста

Качество оцифрованных материалов часто подвергалось критике. На некоторых страницах видны пятна от табака, червоточины, пылинки и даже отпечатки цветов, зажатых между страницами . Из-за ошибок оптического распознавания некоторые страницы были преобразованы в нечитаемые узоры. Однако самой распространённой погрешностью были руки операторов, случайно попадавшие в кадр во время перелистывания страниц[36][37]. Некоторые страницы были пропущены или появлялись несколько раз[38].

Примерно 36 % оцифрованных книг содержали ошибки в метаданных, что значительно превышает уровень библиотечных онлайн-каталогов[39]. Старые журналы иногда не содержали никакой информации о метаданных, необходимых для идентификации отдельных статей. Поэтому в 2007 году Google Scholar инициировал отдельную программу для научных журналов[40].

Некоторые исследователи критиковали Google за слишком узкий выбор коллекций для цифровизации, считая, что есть перекос в пользу изданий на английском языке и, соответственно, другие языки оказываются недостаточно представлены В конечном итоге, это искажение может повлиять на качество и направление будущих исследований[41][42].

Суд с правообладателями

Проект по сканированию книг (в том числе защищённых авторским правом) вызывал нарекания со стороны объединений авторов и отдельных лиц, полагавших, что реализация проекта приведёт к установлению монополии Google в данной сфере и нарушению авторских прав; в частности, американская Гильдия авторов предъявила к Google Inc коллективный иск почти на 3 млрд долларов в качестве компенсации за нарушение авторских прав этим проектом[43].

В 2011 году стороны совместно предложили мировое соглашение, в рамках которого Google смогла бы не только показывать фрагменты текста, в которых были найдены ключевые слова по запросу пользователя (что было изначальным предметом иска), но и предоставлять пользователям платный доступ к полным текстам любых книг, которые больше не издаются. При этом не требовалось бы заключение отдельного соглашения с правообладателем, которого во многих случаях трудно даже установить, а бо́льшая часть вырученных средств поступала бы в специальный фонд, распределявший деньги среди правообладателей. Однако министерство юстиции США объявило, что такое соглашение выходит за рамки юридических актов, которые могут быть приняты в рамках коллективного иска, а также выразило опасения, что соглашение сделает Google монополистом в области торговли книгами, которые больше не издаются. Соглашение было отклонено судом[44].

14 ноября 2013 г. окружной судья Нью-Йорка Денни Чин отклонил иск, указав в решении, в частности, что использование Google сканированных книг сродни такому использованию библиотеками, и поскольку библиотеки, используя сканы книг, не несут ответственности за нарушение авторских прав, постольку и Google не может привлекаться к такой ответственности[45]. Тяжба была окончательно закрыта в 2016 году[46].

См. также

Примечания

  1. 1 2 3 4 Marcum, 2021.
  2. Opderbeck, 2016, pp. 190—195.
  3. 1 2 3 4 5 6 7 8 9 Kalev Leetaru. Mass book digization: The deeper story of Google Books and the Open Content Alliance. First Monday. Дата обращения: 23 апреля 2023.
  4. What is Google’s other “Ocean”. Venture Boat. Дата обращения: 23 апреля 2023.
  5. 1 2 3 4 5 6 7 Ошибка в сносках?: Неверный тег <ref>; для сносок Atlantic не указан текст
  6. 1 2 Ошибка в сносках?: Неверный тег <ref>; для сносок PCWorld не указан текст
  7. Google поможет Британской библиотеке оцифровать книги. BBC (20 июня 2011). Дата обращения: 23 апреля 2023.
  8. 1 2 Von Malte Herwig. Putting The World's Books On The Web. Spiegel (28 марта 2007). Дата обращения: 17 апреля 2023.
  9. 1 2 3 4 5 Jonathan Band. The Google Library Project: Both Sides of the Story. Plagiary (январь 2006). Дата обращения: 23 апреля 2023.
  10. 1 2 Dylan Love. An Inside Look At One Of Google's Most Controversial Projects. Insider (16 декабря 2013). Дата обращения: 17 апреля 2023.
  11. The Google Print Project is Announced. History of Information. Дата обращения: 25 апреля 2023.
  12. Google Print Morphs into Google Books. History of Information (1 декабря 2005). Дата обращения: 25 апреля 2023.
  13. 1 2 Ошибка в сносках?: Неверный тег <ref>; для сносок TheNewYorker не указан текст
  14. 1 2 3 How Google Book Search Got Lost. Wired (11 апреля 2017). Дата обращения: 23 апреля 2023.
  15. 15 years of Google Books. Blog Google (17 октября 2019). Дата обращения: 25 апреля 2023.
  16. Laura Mirviss. Harvard-Google Online Book Deal at Risk. The Crimson (30 октября 2008). Дата обращения: 25 апреля 2023.
  17. Stanford's Role in Google Books. Stanford University Library. Дата обращения: 25 апреля 2023.
  18. Google Library Partnership. University of Michigan. Дата обращения: 25 апреля 2023.
  19. Cornell University is 27th Library To Join Google Book Search. Library Journal (10 августа 2007). Дата обращения: 25 апреля 2023.
  20. Columbia University joins the Google Book Search Library Project. Google Book Search (13 декабря 2007). Дата обращения: 25 апреля 2023.
  21. Half-million volumes in Cornell Library collection to be digitized and available through Google Book Search. Cornell University (8 августа 2007). Дата обращения: 25 апреля 2023.
  22. Oxford's Google Books now available on SOLO. University of Oxford (7 сентября 2016). Дата обращения: 25 апреля 2023.
  23. Austrian National Library. Austrian National Library. Дата обращения: 25 апреля 2023.
  24. Books to the web – 10 years of cooperation with Google. BSB Bibliothek (10 ноября 2017). Дата обращения: 25 апреля 2023.
  25. Leading University Library in Spain Joins Google’s Book-Digitization Project. The Chronicle of Higher Education (27 сентября 2006). Дата обращения: 25 апреля 2023.
  26. Open data. Universiyeits Bibliotheek Gent. Дата обращения: 25 апреля 2023.
  27. Google book search adds five Catalonian libraries. Reuters (21 января 2007). Дата обращения: 25 апреля 2023.
  28. Princeton library joins Google Books project. The Economic Times (6 февраля 2007). Дата обращения: 25 апреля 2023.
  29. U.VA. Library Joins the Google Books Library Project. University of Virginia (14 ноября 2006). Дата обращения: 25 апреля 2023.
  30. UW-Madison joins massive Google Book project. University of Wisconsin-Madison (12 октября 2006). Дата обращения: 25 апреля 2023.
  31. Kevin Bergquist. Google project promotes public good. The University Record Online. Дата обращения: 17 апреля 2023.
  32. Maureen Clements. The Secret Of Google's Book Scanning Machine Revealed. NPR (30 апреля 2009). Дата обращения: 25 марта 2023.
  33. Stephen Shankland. Patent reveals Google's book-scanning advantage. C-NET (4 мая 2009). Дата обращения: 23 апреля 2023.
  34. HathiTrust: Hathi Trust v. Other Digital Libraries. Library Guides. Дата обращения: 25 апреля 2023.
  35. Launch of HathiTrust - October 13, 2008. Hathi Trust. Дата обращения: 25 апреля 2023.
  36. Kenneth Goldsmith. The Artful Accidents of Google Books. New Yorker (4 декабря 2013). Дата обращения: 23 апреля 2023.
  37. The Art of Google Books. The Art of Google Books. Дата обращения: 23 апреля 2023.
  38. Robert B. Townsend. Google Books: Is it good for history? Perspectives on History (1 сентября 2007). Дата обращения: 23 апреля 2023.
  39. James, 2012.
  40. Barbara Quint. Changes at Google Scholar: A Conversation With Anurag Acharya. Information Today (27 июля 2007). Дата обращения: 25 апреля 2023.
  41. Jeanneney, 2008.
  42. Alan Riding. France Detects a Cultural Threat in Google. New York Times (11 апреля 2005). Дата обращения: 25 апреля 2023.
  43. Суд отклонил иск Гильдии авторов к Google. «Газета.Ru» (15 ноября 2013). Дата обращения: 14 ноября 2013. Архивировано 16 ноября 2013 года.
  44. James Somers. Torching the Modern-Day Library of Alexandria. The Atlantic (20 апреля 2017). Дата обращения: 30 апреля 2017. Архивировано 23 декабря 2020 года. Перевод: Вячеслав Голованов. Сжигая современную версию Александрийской библиотеки (22 мая 2017). Дата обращения: 29 января 2019. Архивировано 29 января 2020 года.
  45. Case 1:05-cv-08136-DC Document 1088 Filed 11/14/13. scribd.com (14 ноября 2013). — «The fair use analysis forth above with respect to Google Books applies here as well to the libraries use of their scans, and if there is no liability for copyright infringement on the libraries part, there can be no liability on Google's part». Дата обращения: 14 ноября 2013. Архивировано 17 ноября 2013 года.
  46. Paul Fogel. Mass Digitization History. California Digital Library. Дата обращения: 29 января 2020. Архивировано 29 января 2020 года.

Ссылки