Концепция высоконадёжного хранения данных

Концепция централизованной организации и высоконадёжного хранения данных

Информационная революция конца XX века привела к цифровизации всех основных типов информации: текста, изображения, звука и видео. Книги, аудио- и видеозаписи, картины, рисунки и фотографии сегодня производятся преимущественно в цифровом формате, а созданные в предыдущие эпохи – активнейшим образом оцифровываются. Объёмы хранимой в цифровом виде информации (преимущественно на жёстких дисках с использованием технологий магнитной записи), равно как и скорость и объёмы передачи данных стремительно растут. По статистике, объём производимой в мире цифровой информации удваивается каждые восемнадцать месяцев, а в соответствии с эмпирическим законом Мура количество транзисторов, размещаемых на кристалле интегральной схемы, удваивается каждые 24 месяца.

В то же время, надёжность технологий хранения данных явно отстаёт и не соответствует этому росту. Основные современные носители цифровых данных крайне недолговечны. Их срок жизни насчитывает от 2-3 до 15 лет. Сложилась парадоксальная ситуация: огромные объёмы создаваемой информации, аккумулирующие в себе едва ли не больший объём создаваемой в мире стоимости, громадные средства, затрачиваемые на создание новой и оцифровку старой информации оказываются до крайней степени уязвимы. Помимо собственно слабости технологий свой вклад вносят и организационные факторы, а именно: 1) рыночная хаотичность производства и хранения информации, осуществляемых огромным количеством независимых субъектов преимущественно ориентированных на сиюминутную прибыль, 2) отсутствие единой программы и стандартов отбора представляющей ценность информации, тонущей в море информационных шумов и 3) отсутствие единых стандартов хранения данных, обеспечивающих их гарантированную сохранность. В результате возникают такие трагические казусы, как невосстановимая утрата данных при пожаре в библиотеке ИНИОН РАН, фонды которого практически не были оцифрованы. Но парадокс в том, что зачастую даже оцифрованные фонды музеев и библиотек хранятся в единственном экземпляре в том же самом учреждении и легко могут быть утрачены как в случае чрезвычайной ситуации (пожар, затопление, компьютерный вирус, механическое повреждение диска), так и просто от времени, если не производится их своевременная перезапись.

Исходя из сказанного, напрашивается насущная необходимость разработки и реализации государственной программы бессрочного «вечного» хранения цифровых данных, представляющих непреходящую ценность, которая должна включать:

1) Разработку с широким привлечением ведущих отечественных и зарубежных специалистов по хранению цифровых данных и их носителям единых государственных общеобязательных стандартов хранения данных на существующих на данный момент носителях с учётом имеющегося мирового опыта. Очевидно, что данные стандарты должны подразумевать множественность копирования, распределённость хранения (копии должны храниться на физических носителях, расположенных в разных местах и как минимум часть копий должна храниться на носителях, принципиально неуязвимых для вирусной атаки), установленную регулярность перезаписи данных и сверки идентичности хранимой информации (например, по контрольным суммам файлов и / или путём сравнения независимо хранимых копий) и, при необходимости, её восстановления с помощью альтернативных копий, а также использование разных типов физических носителей (помимо жёстких магнитных дисков целесообразно изучить возможности оптических дисков последних поколений и магнитной плёнки).

2) Разработку и внедрение единой государственной обязательной программы оцифровки библиотек, архивов, музейных фондов (включая трёхмерную оцифровку экспонатов), аудиофондов и фильмотек, а также отбора подлежащей вечному сохранению информации из Интернета с выделением на эту работу необходимых средств (возможно также и привлечение волонтёров). При этом оцифрованные фонды, разумеется, должны храниться не в единственном экземпляре в тех учреждениях, где находится материальный оригинал, а во множестве копий в нескольких пространственно удалённых хранилищах в соответствии с предыдущим пунктом.

3) Создание на территории нашей страны нескольких высокозащищённых хранилищ цифровых данных, отвечающих максимальным требованиям безопасности, в том числе и на случай чрезвычайных обстоятельств. Возможно также параллельное депонирование нескольких копий в наиболее надёжных и заслуживающих доверия мировых хранилищах (центры хранения цифровых данных в Швейцарии, «Хранилище Судного дня» на Шпицбергене и т.д.).

4) Инвестиционную и организационную поддержку инновационных разработок в сфере новых носителей цифровой информации, принципиально более долговечных и высоконадёжных. Разработки такого рода в России уже существуют, однако «застряли» на уровне единичных лабораторных образцов (например, «5D» технология сверхдолговременного высоконадёжного хранения информации путем короткоимпульсной объёмной лазерной записи на дисках кварцевого стекла, разрабатываемая в Лаборатории лазерного наноструктурирования стекла РХТУ им. Д.И. Менделеева) и требуют организационного стимулирования для их внедрения в промышленное производство.

5) Формирование единой, организованной по унифицированному принципу базы данных по всем областям науки и культуры с разработкой универсальной системы каталогизации, систематизации и структурно-иерархической организации всех созданных и накопленных человечеством научных знаний, технологий и достижений культуры.

Разработка и реализация программы может позволить:

1) России – стать мировым лидером в вопросе систематизации и сохранения мирового научного, исторического и культурного наследия.

2) Сформировать единую тематически организованную базу по всем библиотекам, архивам и музейным фондам без разбиения по принципу принадлежности к конкретному учреждению.

3) Реорганизовать Интернет (во всяком случае его российский сегмент), превратив его из хаотического скопления неупорядоченной информации сомнительной достоверности и ещё более сомнительной ценности, генерируемой анонимно и спонтанно в систематически и иерархически организованную базу данных, за каждый раздел которой отвечает профильный специалист в данной области знаний, чем обеспечивается достоверность информации, авторизованность, проверяемость и авторитетность её источников.

4) Привлечение к работе по поиску, систематизации и сохранению как общезначимого (научного, технического, художественного), так и частного (индивидуального, семейного, корпоративного) культурного и исторического наследия (под организующим руководством профильных специалистов – учёных, музейных и архивных работников, деятелей искусства и культуры) позволит вовлечь широкие массы населения в объединяющую созидательную деятельность, будет способствовать воспитанию патриотизма, восприятию смысла своей жизни в связи с вкладом в общее культурно-историческое наследие, и станет надёжным противоядием против вовлечения в деструктивную и экстремистскую активность.

--------------------------------

Приложение 1.

1. Проблема: не существует единого стандарта, процедуры и общего центра высоконадёжного бессрочного хранения цифровых данных.

С каждым годом по мере развития информационных технологий растёт объём информации, существующей в цифровой форме. Часть этой информации (оцифрованные библиотеки, архивы, музейные фонды, научные базы данных и т.д.) представляют собой объективную историческую и культурную ценность и требуют надёжного бессрочного («вечного») хранения. Между тем, технический стандарт, обеспечивающий гарантированную надёжность такого хранения не разработан, отсутствует единая государственная программа и общий план резервирования и депонирования цифровых данных, целевое финансирования программ оцифровки и хранения данных и система контроля и отчётности в данной сфере. Это приводит и будет приводить к безвозвратной утрате ценной информации. В частности, к:

– выборочному, неполному и бессистемному характеру оцифровки, в результате чего данные могут быть утрачены при утрате единственного уникального аналогового носителя;

– отсутствию у организаций (музеев, архивов) как заинтересованности, так и возможности оцифровки фондов;

– неоптимальному и ненадлежащему хранению представляющей национальное достояние цифровой информации, в результате чего она может быть утрачена (вирусы, механические повреждение носителей, несвоевременный перенос при физическом старении носителей, случайные ошибки при хранении и перезаписи информации);

– стремлению каждой организации и учреждения сохранить «монополию» на собственные оцифрованные фонды, что может приводить к трагическим последствиям: например, при пожаре вместе с «бумажными» книгами могут быть утрачены и их оцифрованные версии, если все существующие цифровые копии хранятся в том же помещении, что и сами книги, то есть был нарушается базовый принцип распределённого хранения.
 
2. Таким образом, назрела насущная необходимость разработки и реализации единой общегосударственной и общеобязательной программы оцифровки представляющей научную, историческую и культурную ценность информации (архивы, библиотеки, музейные фонды и т.д.) и создания единого центра высоконадёжного бессрочного (условно «вечного») распределённого хранения цифровых данных. Единая программа должна, в частности, включать:

– создание единого государственного центра сбора и хранения подлежащих бессрочному хранению цифровых данных;

– разработку единого стандарта хранения цифровых данных, обеспечивающего максимальную гарантию их сохранности (множественность независимых копий, пространственная удалённость хранения копий, использование максимально надёжных и желательно разных физических носителей информации, программы автоматической проверки идентичности хранимых копий на основе контрольных сумм файлов, защита от вирусов, оптимальные физические условия хранения, защита от человеческого фактора и т.д.);

– разработку единого стандарта каталогизации и систематизации «вечнохранимой» информации;

– единственную общеобязательную для государственных учреждений (музеев, архивов, библиотек, фонотек и т.д.) программу оцифровки фондов и передачи полной цифровой копии своих фондов внешнему по отношению к ним центру хранения данных. В том числе, государственное финансирование данной программы, единый универсальный стандарт представления цифровых данных, конкретные сроки, отчётность и контроль за исполнением;

3. Программа отбора, каталогизации, систематизации и структурирования информации для бессрочного («вечного») хранения может охватывать не только библиотеки, архивы и музеи, но и интернет.

В настоящее время Интернет (в том числе и его русский сегмент) представляет собой бесструктурную хаотическую среду, в которой информация хаотически создаётся, хаотически неупорядоченно хранится и хаотически же исчезает, порой безвозвратно. Реализация программы отбора и систематизации информации, представляющей ценность для бессрочного хранения позволит одновременно создавать «параллельный рунет», выстроенный планово и систематически по принципу единой централизованной энциклопедии, в которой вся информация (текстовая, аудио-, видео и т.д.) упорядочена и распределена по тематическим разделам, а модерирование каждого раздела возложено на уполномоченного специалиста в каждой конкретной области. Это превратит рунет из хаотического поля бессистемной неупорядоченной коммуникации в единую стройную централизованную базу данных, не только обеспечивающую качественный отбор данных для высоконадёжного сохранения, но и гарантирующую достоверность и актуальность всей представляемой информации. Изначально «новый» упорядоченный рунет может сосуществовать параллельно со старым хаотическим, однако со временем возможен планомерный перевод всей или почти всей сетевой коммуникации в упорядоченный авторизированный сегмент.

--------------------------------

Приложение 2.

Цель: разработка и организация максимально надёжного бессрочного (условно «вечного») хранения цифровой информации.

Проблемы:

1) Ненадёжность используемых способов хранения цифровых данных музеями, библиотеками, архивами, интернет-архивами и т.д. Неэффективность организации хранения данных, не использующая уже существующие технологические и организационные возможности цифровизации, результатом чего регулярно становится безвозвратная утрата ценных данных.

2) Отсутствие самой концепции и протокола бессрочного (условно «вечного») хранения данных, а также критериев отбора данных, подлежащих бессрочному хранению.

3) Отсутствие единого государственного стандарта и обязательной распределённости хранение данных для библиотек, фонотек, архивов, музейных фондов и т.д., что регулярно ведёт к их безвозвратной утрате, а также крайне затрудняет доступность и обмен данными.

4) Несовершенство используемых на сегодня физических носителей цифровой информации и отсутствие запроса и поддержки со стороны государства и частного бизнеса на внедрение в производство уже существующих на уровне лабораторных разработок высоконадёжных носителей, обеспечивающих возможность гарантированного хранения данных без их потери в течение, по меньшей мере, тысяч лет.

5) Недоступность возможности «вечного» сохранения данных для частных лиц, результатом чего является безвозвратная утрата частных коллекций, архивов, артефактов «молекулярной» истории.

6) Отсутствие механизмов отделения ценной, заслуживающей сохранения информации от «белого шума» в Интернете в целом и социальных сетях в частности. Крайнее несовершенство, разрозненность и отсутствие единых подходов к архивированию интернет-контента.
 
Задачи:

1) Разработка и внедрение единого общеобязательного стандарта оцифровки библиотечных, архивных и музейных фондов (включая трёхмерную с высоким разрешением оцифровку «вещественных» музейных экспонатов) и включение их в единую базу данных..

2) Организация централизованной системы высоконадёжного бессрочного (условно «вечного») хранения цифровой информации и её депонирование в достаточном числе независимых копий на физически удалённых и защищённых от повреждающих факторов носителях.

3) Организация сортировки интернет-контента с выделением информации, подлежащей бессрочному сохранению.

4) Организация коммерческого и некоммерческого (на основании экспертной оценки ценности) доступа к бессрочному сохранению информации для частных лиц и общественных организаций.

5) Реализация программы поддержки и стимулирования внедрения в массовое производство физических носителей информации, обеспечивающих высоконадёжное хранение данных в течение фактически неограниченного времени.

Возможные смежные, параллельно решаемые задачи:

1) Реорганизация отечественного сегмента интернета как единой, централизованно и систематически организованной базы текстовых, звуковых и визуальных данных с единой логической структурой, авторизацией и верификацией достоверности и значимости всей публикуемой информации.

2) Формирование единой базы публикаций, архивных документов, аудио- и видеозаписей и оцифрованных музейных экспонатов, организованной тематически, а не по принадлежности к учреждению.

3) Космические программы депонирования наиболее важных достижений науки и культуры вне Земли.

4) Реализация программ социализации и патриотического воспитания, основанных на вовлечении граждан, в том числе молодёжи, в коллективную работу по сохранению национального и семейного культурного и исторического наследия.

5) Психотерапевтические практики в духе логотерапии на основе «вечного» сохранения важнейших итогов собственной жизни и памяти близких.

Этапы реализации:

1) Формирование экспертной группы (института) с привлечением ведущих специалистов по архивному и музейному делу, проблемам хранения материальных объектов и цифровой информации, каталогизации данных. Цели и задачи данного этапа: привлечение внимание профильных специалистов, представителей государственной власти, бизнеса и общественности к актуальности проблемы; формирование компетентного экспертного сообщества; проведение широкого обсуждения в форме научных конференций, круглых столов, выпуска специализированных изданий с целью всестороннего изучения состояния проблемы, возможных подходов к её решению и уже существующих в России и в мире аналогов.

2) Выработка и представление (правительству и частному бизнесу) конкретных предложений и разработка конкретных планов и программ, как государственных, так и частных – некоммерческих и коммерческих.

3) Непосредственная реализация государственных и частных программ, соответствующих описанным выше задачам.


Рецензии