Итак, у меня есть загрузка данных, которые я выбрал в качестве примера ниже:
Sequence Abundance Length
CAGTG 3 25
CGCTG 82 23
GGGAC 4 25
CTATC 16 23
CTTGA 14 25
CAAGG 9 24
GTAAT 5 24
ACGAA 32 22
TCGGA 10 22
TAGGC 30 21
TGCCG 25 21
TCCGG 2 21
CGCCT 22 24
TTGGC 4 22
ATTCC 4 23
Я показываю только первые 4 слова каждой последовательности, но на самом деле они длинны. Я рассматриваю обилие последовательностей для каждого класса размеров, который у меня есть здесь. Кроме того, я хочу визуализировать долю обилия, которую представляет определенная последовательность в своем классе размеров. В настоящее время я могу сделать такую гистограмму:
ggplot(tab, aes(x=Length, y=Abundance, fill=Sequence))
+ geom_bar(stat='identity')
+ opts(legend.position="none")
Это отлично подходит для небольшого набора данных, подобного этому, но у меня около 1,7 миллиона строк в моем фактическом наборе данных. Он выглядит очень красочным, и я вижу, что определенные последовательности содержат преобладание большинства в одном классе размеров, но это очень грязно.
Я хотел бы иметь возможность заказывать цветные штабелированные стержни для каждого размера по количеству этой последовательности. т.е. бруски с самым высоким содержанием в их стеке находятся в нижней части каждого стека, а бары с самым низким содержанием находятся сверху. Это должно выглядеть намного более презентабельно таким образом.
Любые идеи о том, как это сделать в ggplot2? Я знаю там параметр "порядок" в aes(), но я не могу понять, что он должен делать с данными в том формате, который у меня есть.