Сколько памяти потребуется для хранения генома человека?

Я ищу объем памяти в байтах (МБ, ГБ, ТБ и т.д.), Необходимый для хранения одного человеческого генома. Я прочитал несколько статей в Википедии о ДНК, хромосомах, парах оснований, генах, и у меня есть приблизительное предположение, но прежде чем раскрывать что-либо, я хотел бы посмотреть, как другие подойдут к этому вопросу.

Альтернативный вопрос - сколько атомов содержится в ДНК человека, но это будет не по теме для этого сайта.

Я понимаю, что это будет приблизительное значение, поэтому я ищу минимальное значение, которое могло бы хранить ДНК любого человека.

Ответ 1

Если вы доверяете таким вещам, вот что утверждает Википедия (от http://en.wikipedia.org/wiki/Human_genome#Information_content):

2,9 миллиарда пар оснований гаплоидного генома человека соответствуют максимум около 725 мегабайт данных, так как каждая базовая пара может быть закодировано по 2 бита. Поскольку отдельные геномы варьируются менее чем на 1% от друг друга, они могут быть без потерь сжаты до примерно 4 мегабайт.

Ответ 2

Вы не храните всю ДНК в одном потоке, чаще всего, когда она хранится в хромосомах.

Большая хромосома занимает около 300 МБ, а маленькая - около 50 МБ.


Редактировать:

Я думаю, что первая причина, по которой он не сохраняется в 2 битах на базовую пару, заключается в том, что это может стать препятствием для работы с данными. Большинство людей не знали бы, как преобразовать это. И даже когда будет предоставлена программа для конвертации, многим людям в крупных компаниях или исследовательских институтах не разрешается/нужно спрашивать или не знать, как устанавливать программы...

1 ГБ хранилища ничего не стоит, даже загрузка 3 ГБ занимает всего 4 минуты со скоростью 100 Мбит/с, и большинство компаний имеют более высокие скорости.

Другое дело, что данные не так просты, как вам говорят.

Например, метод секвенирования, изобретенный Craig_Venter, был большим прорывом, но имеет свои недостатки. Он не может разделить длинные цепочки одной и той же пары оснований, поэтому не всегда ясно на 100%, если есть 8 A или 9 A. Вещи, которые вы должны позаботиться позже...

Другой пример - метилирование ДНК, потому что вы не можете хранить эту информацию в 2-битном представлении.

Ответ 3

В принципе, каждая базовая пара принимает 2 бита (вы можете использовать 00, 01, 10, 11 для T, G, C и A). Так как в человеческом геноме около 2,9 млрд пар оснований (2 * 2,9 млрд.) Бит ~ = 691 мегабайт.

Я не эксперт, однако страница Human Genome в Википедии гласит следующее:

Raw MB:

  • Мужской (XY): 770 МБ
  • Женщина (XX): 756MB

Я не уверен, откуда их отклонение, но я уверен, что вы можете понять это.

Ответ 4

Да, минимальная ОЗУ, необходимая для всей ДНК человека, составляет около 770 МБ. Однако 2-битное представление является практичным. Трудно выполнить поиск или выполнить некоторые вычисления. Поэтому некоторые математики разработали более эффективный способ хранения этих секвенций баз... и использовать их в алгоритмах поиска и сравнения, таких как, например, GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html).   Это приложение работает на моем ПК прямо сейчас, поэтому я могу сказать вам... что у него практически есть ДНК, хранящаяся около: 1 563 МБ.

Ответ 5

Геном человека содержит 2,9 миллиарда пар оснований. Поэтому, если вы представляли каждую базовую пару в виде байта, то это займет 2,9 миллиарда байт или 2,9 ГБ. Возможно, вы, возможно, придумали более творческий способ хранения пар оснований, поскольку каждая базовая пара требует только 2 бита. Таким образом, вы, вероятно, могли бы хранить 4 пары базовых байтов, общая сумма которых меньше GB.

Ответ 6

Есть 4 нуклеотидных основания, которые составляют нашу ДНК, это A, C, G, T, поэтому для каждого основания в ДНК занимает 2 бита. Есть около 2,9 миллиарда баз, так что около 700 мегабайт. Странная вещь заключается в том, что бы заполнить нормальный компакт-диск с данными! совпадение?!?

Ответ 7

просто сделал это тоже. необработанная последовательность ~ 700 МБ. если использовать фиксированную последовательность хранения или алгоритм хранения с фиксированной последовательностью хранения, а также тот факт, что изменения вычисляются на 1%, вычисляются до 120 МБ с помощью хранилища perchromosome-sequenceoffset-installedelta. что он для хранения.

Ответ 8

Большинство ответов, за исключением пользователей slayton, rauchen, Paul Amstrong, абсолютно неверны, если речь идет о чистом хранилище один на один без методов сжатия.

Геном человека с 3Gb нуклеотидов соответствует 3Gb байтов, а не ~ 750MB. Сконструированный "гаплоидный" геном согласно NCBI в настоящее время имеет размер 3436687 КБ или 3,436687 ГБ. Проверьте здесь для себя.

Гаплоид = единичная копия хромосомы. Диплоид = две версии гаплоида. У людей есть 22 уникальные хромосомы x 2 = 44. Мужская 23-я хромосома - X, Y и составляет 46 в общей сложности. Самки 23-го хром. является X, X и, таким образом, составляет 46 в общей сложности.

Для мужчин это будет 23 + 1 хромосома при хранении данных на жестком диске, а для женщин - 23 хромосомы, что объясняет небольшие различия, упомянутые время от времени в ответах. Х хром. из мужчин равен X хром. от женщин.

Таким образом, загрузка генома (23 + 1) в память осуществляется частями через BLAST с использованием созданных баз данных из fasta файлов. Независимо от версии на молнии или нет, нуклеотиды вряд ли будут сжаты. В первые дни одним из приемов была замена тандемных повторов (GACGACGAC с более коротким кодированием, например, "3GAC"; от 9 байтов до 4 байтов). Причина была в том, чтобы сэкономить место на жестком диске (площадь пластин жесткого диска 500bm-2GB с 7.200 об/мин и разъемов SCSI). Для поиска последовательности это также было сделано с запросом.

Если хранилище "кодированного нуклеотида" будет 2-битным на букву, то вы получите за байт:

A = 00
C = 01
G = 10
Т = 11

Только так вы полностью получаете прибыль с позиций 1,2,3,4,5,6,7 и 8 за 1 байт кодирования. Например комбинация 00.01.10.11, соответствующая "ACTG". Это одно отвечает за уменьшение размера файла в 4 раза, как мы видим в других ответах. Таким образом, размер 3.4 ГБ будет уменьшен до 0.85917175 ГБ... ~ 860 МБ, включая требуемую программу конвертации (23 КБ-4 МБ).

Но... в биологии вы хотите что-то читать, таким образом сжатие gzipped более чем достаточно. Разархивированный вы все еще можете прочитать. Если это заполнение байтов было использовано, становится труднее читать данные. Вот почему fasta файлы на самом деле являются текстовыми файлами.

Ответ 9

У каждого человека есть один геном человека, и, согласно данным Национального исследовательского института генома человека, у нас в общей сложности 30 000 генов, содержащих около 3 миллиардов пар оснований (два основания = пара оснований). Есть 4 различных основания аденин (A), гуанин (G), цитозин (C) и тимин (T). Мы можем установить A на 00 или 01000001 (как обычно). Я отвечу за основную пару, состоящую из двух байтов и двух битов, хотя я думаю, что байты были бы более реалистичным вариантом, потому что с данными будет легче иметь дело.

Я собираюсь предположить, что структура данных такова, что каждая строка представляет собой последовательность пары ген/основание (например, ATCG...), читаемую снизу вверх, так как порядок важен, аналогично буквам в слове. Новая строка в Linux - 1 байт и 2 байта в Windows, но это окажет незначительное влияние на размер.

например

GENE1...
GENE2...

Для 24 000 генов в геноме человека требуется 24 000 новых строк = 24 КБ, 38 КБ (пренебрежимо мало). Если каждая пара оснований составляет 2 байта и поскольку существует 3 миллиарда, это будет равно 6 ГБ. Если каждая базовая пара составляет 2 бита, то размер файла будет близок к 6000 000 бит или 750 МБ.

Поэтому я бы сказал, что человеческий геном будет занимать около 750 МБ или 6 ГБ пространства. Пожалуйста, поправьте меня или улучшите этот ответ, если я что-то пропустил.

Ответ 10

Все ответы не учитывают тот факт, что nuDNA - не единственная ДНК, которая определяет геном человека. МтДНК также наследуется и вносит дополнительные 16 500 пар оснований в геном человека, что в большей степени соответствует предположению Википедии о 770 МБ для мужчин и 756 МБ для женщин.

Это не означает, что человеческий геном может быть легко сохранен на USB-накопителе емкостью 4 ГБ. Биты не представляют информацию сами по себе, это комбинация битов, которые представляют информацию. Таким образом, в случае с нДНК и мтДНК биты кодируются (не путать со сжатыми) для представления белков и ферментов, которые сами по себе требуют много МБ необработанных данных для представления, особенно с точки зрения функциональности.

Пища для размышления: 80% человеческого генома называют "некодирующей" ДНК, так что вы действительно верите, что весь человеческий организм и мозг могут быть представлены всего лишь от 151 до 154 МБ необработанных данных?

Ответ 11

Одна база - T, C, A, G (в системе счисления base-4: 0, 1, 2, 3) - кодируется как два бита (не один), поэтому одна пара оснований кодируется четырьмя битами.

Ответ 12

Существует только 2 типа пар оснований, цитозин может связываться только с гуанином, а аденин может связываться только с тимином, Поэтому каждая базовая пара может считаться одним битом. Это означает, что целая нить ДНК человека ~ 3 миллиарда битов будет около ~ 350 мегабайт.