Публикации

ДНК превращается в хранилище данных

09 авг 2016

Исследователи из Microsoft и Университета Вашингтона сумели закодировать в искусственно синтезированных молекулах ДНК сотни мегабайт данных.

Анализируя свойства синтетического ДНК, исследователям удалось не только закодировать и декодировать 200 Мбайт данных, но и обеспечить их долговременное хранение.

«В закодированном виде данные занимали в пробирке место размером с острие карандаша», – сообщил Дуглас Кармин из Microsoft, курирующий проект.

Хранилище ДНК имеет период полураспада 500 лет даже в достаточно жестких условиях. Период полураспада ДНК – как и у радиоактивных материалов – определяет продолжительность времени, в течение которого распадается половина связей в цепочке.

В целом, все это представляет собой огромный шаг вперед. «Представьте себе все данные большого ЦОД, сжатые в объеме маленького кубика сахара, – говорится в блоге Microsoft. – Или все данные мирового Интернета, помещенные в коробку из-под обуви. Таким высоким может оказаться потенциал хранилища, организованного в ДНК, если ученым удастся масштабировать технологию и преодолеть ряд технических препятствий».

Хранимые в молекулах ДНК данные включают цифровые версии произведений искусства, музыкальное видео группы OK Go! в формате высокой четкости, Универсальную декларацию прав человека, записанную более, чем на 100 языках, 100 наиболее популярных книг Проекта Гутенберга, а также базу семян некоммерческой организации Crop Trust.

Использование ДНК в качестве среды хранения необходимо, поскольку объемы данных в мире стремительно растут, а хранилище на молекулярном уровне имеет гораздо большую плотность по сравнению с жесткими дисками, твердотельными накопителями и даже новейшими технологиями наподобие памяти с изменением фазового состояния.

«Кроме того, системы эти через несколько лет или десятилетий деградируют, в то время как ДНК позволяет надежно хранить информацию на протяжении столетий, – указали в новостном релизе исследователи из Университета Вашингтона. – Следует отметить, что ДНК лучше подходит для архивных приложений, чем для систем, где доступ к файлам нужно получать немедленно».

Исследователи из Microsoft и Университета Вашингтона составляют одну из двух команд, продемонстрировавших возможность произвольного доступа к данным, которые хранятся в пуле молекул. Эта задача, по их словам, аналогична восстановлению одной главы из библиотеки порванных книг.

По словам исследователей, они разработали «новый подход» преобразования длинных строк нулей и единиц цифровых данных в четыре основных строительных блока последовательностей ДНК – аденин (As), гуанин (Gs), цитозин (Cs) и тимин (Ts).

Цифровые данные разбиваются на фрагменты и размещаются в большом количестве крошечных молекул ДНК, которые могут быть обезвожены и храниться на протяжении длительного времени.

Хранение данных в молекулах ДНК в первую очередь основывается на достижениях биотехнологической отрасли, но сюда привнесены и некоторые наработки из сферы информационных технологий. В системе кодирования, например, исследователи из Microsoft и Университета Вашингтона использовали схемы коррекции ошибок, получившие широкое распространение в компьютерной памяти.

«Здесь мы видим пример того, как при хранении информации задействуются природные компоненты – ДНК, – указал доцент кафедры вычислительной техники и инженерии университета Вашингтона и главный исследователь проекта Луис Энрике Сез. – Вместе с тем, мы взяли кое-что и из компьютерной отрасли (способы коррекции ошибок в памяти), применив существующие наработки к природным компонентам».

Для доступа к хранимым данным исследователи закодировали в последовательностях ДНК аналоги почтовых индексов и адресов улиц. Технологии полимеразной цепной реакции – используемые обычно в молекулярной биологии – помогают легче идентифицировать искомые почтовые индексы.

Используя технологии последовательностей ДНК, исследователи могут считывать данные и конвертировать их обратно в видео, изображения или файлы документов, упорядочивая данные с помощью адресов улиц.

Сегодня большинство данных хранятся на магнитных и оптических носителях. В последнее время плотность размещения битов на магнитных лентах заметно возросла, емкость ленточных картриджей достигла 185 Тбайт, а наибольшая плотность хранилищ коммерческих систем составляет 10 Гбайт на миллиметр. Недавние исследования показали, что емкость оптических дисков можно увеличить до 1 петабайта, в этом случае плотность записи достигает 100 Гбайт/мм. Но несмотря на столь значительный прогресс, хранение зеттабайт данных все равно потребует миллионов устройств и огромного физического пространства.

Теоретический предел ДНК составляет около одного эксабайта на миллиметр, что на восемь порядков превышает возможности магнитных лент. Кроме того, хранилище на основе ДНК сохраняет свою актуальность вечно: пока существует жизнь на основе ДНК, основания для считывания данных из ДНК и манипулирования ими никуда не исчезнут.

В совместном исследовании IDC и EMC «Цифровая Вселенная» прогнозируется, что объемы хранимых данных к 2017 году превысят 16 зеттабайт. Благодаря Интернету вещей удвоение объемов цифровых данных происходит через каждые два года, и к 2020 году они достигнут 44 триллионов гигабайт.

Значительная часть этих данных представлена в архивной форме. Недавно компания Facebook построила целый ЦОД, рассчитанный на хранение одного эксабайта данных, обращение к которым происходит достаточно редко.

Исследователи проводят эксперименты с ДНК, используемой в качестве среды хранения данных, уже больше десятка лет, и прогресс здесь достигается очень быстро. В 1999 году хранилище, созданное на базе ДНК, позволяло закодировать и восстановить сообщение длиной всего в 23 символа.

В 2013 году ученые из EMBL-European Bioinformatics Institute объявили, что закодировали в ДНК MP3-версию речи Мартина Лютера Кинга «У меня есть мечта».

В апреле исследователи из Microsoft и Университета Вашингтона опубликовали документ, в котором подробно рассказывалось об использовании синтетической ДНК в качестве хранилища архивов.

«Молекула ДНК – удивительное хранилище информации, в котором закодированы данные о работе живой системы, – отметил Сез. – Мы же решили использовать это пространство для хранения цифровых данных – изображений, видео, документов. Вот важный пример потенциала, позаимствованного у природы для создания еще более эффективных компьютерных систем».

Лукас Мериан


Источник: computerworld