У меня есть небольшой файл с последовательностями ДНК, который выглядит так:
>NM_000016 700 200 234
ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATATCAC
>NM_000775 700 124 236
CTAACCTCTCCCAGTGTGGAACCTCTATCTCATGAGAAAGCTGGGATGAG
>NM_003820 700 111 222
ATTTCCTCCTGCTGCCCGGGAGGTAACACCCTGGACCCCTGGAGTCTGCA
Вопросы:
1) Как я могу прочитать этот файл fasta в R как кадр данных, где каждая строка - это запись последовательности, 1-й столбец - это refseqID, а 2-й столбец - это последовательность.
2) Как извлечь подпоследовательность в (начало, конец) месте?
NM_000016 1 3 #"ACA"
NM_000775 2 6 #"TAACC"
NM_003820 3 5 #"TTC"