updates including the new H7Nx files from 2015/03/13 is available
14560+14596+14609+21221+14256+17097+15370+14935=12 6644 avian sequences
segment 4,21221=
segment 6,17097=4646+3979+1000+292+388+2018+883+1731+753
segment 8,14935=10609+3071
12951+12976+13176+18393+13053+16047+14586+14172=11 5354 with > 90% of nucleotides
in the coding regions available
files bitse-r.GIF,bitse--r.GIF (not all available yet)
bitse1r.GIF
bitse2r.GIF
bitse3r.GIF
bitse5r.GIF
bitse7r.GIF
bitse81r.GIF
bitse82r.GIF
bitse47f.GIF
bitse78r.GIF (for printing 7r,81r,82r on one sheet)
(each of these has a subset of 900-1000 random,full(>90%),aligned sequences from that set,
each line is one sequence,each row is one position with mutations, each black pixel is a difference
from the average at that position. sequences and positions are resorted so to give minimum
sum of neighbor differences ((approximately) solving the corresponding Traveling Salesman Problem))
each set divides into an (mostly USA,Canada) American part and an East(EU,AS,AF,OZ) part
which are identified by the common thick black vertical bars
usually these are about the same size (except 81,82,47,45,69,...)
Segment 3 has 2 American and 2 Eurasian parts.
[I should add years and serotypes and amino-acid-sequences]
{ improvement ideas for the next updates:
include amino-acids - bipartite , include years, serotypes
include the 3499 Environment sequences, also humans, swine, etc
who have avian-like-sequences (-->all human not H1N1,H3N2, all other
than bat,human,swine,equine,canine , maybe exclude gull H13 ,
separate America,Eurasian and one list for all the rest}
Announcement
Collapse
No announcement yet.
diversity in avian influenza in the 8 segments
Collapse
X
-
Re: diversity in avian influenza in the 8 segments
I built 32=1+1+1+16+1+9+1+2 aligned flu-files bitsc* , sorted by date,
with a total of 116229 avian influenza viruses from genbank 2014/12/09.
I can upload or send, if there is interest
196MB uncompressed, 4.3MB when compressed with 7zip
xx sequences were sorted out as "bad" , distant from other sequences
in that file, probably incorrectly declared=assigned to the files.
Others were corrected, main problem : insertion or deletion of
one nucleotide
13412+13357+13371+19559+13022+15700+14157+13665 , genbank
13412+13361+13372+19551+13021+15690+14142+13680 , aligned
some few sequences may appear twice in the aligned files
m=116243 n=:1640
1,m=13412 n=:2282
2,m=13361 n=:2276
3,m=13372 n=:2153
4,m=19559 n=:1640
5,m=13021 n=:1499
6,m=15700 n=:99
7,m=14142 n=:984
8,m=13680 n=:840
---------
116247
4,m=19559 n=:1640
41,m= 708 n=:1703
42,m= 500 n=:1691
43,m=2012 n=:1703
44,m=1763 n=:1700
45,m=5787 n=:1718
46,m=1777 n=:1706
47,m=1706 n=:1718
48,m= 177 n=:1703
49,m=3310 n=:1685
4a,m= 777 n=:1688
4b,m= 606 n=:1700
4c,m= 202 n=:1697
4d,m= 137 n=:1703
4e,m= 20 n=:1709
4f,m= 15 n=:1715
4g,m= 54 n=:1700
-----------
19551
6,m=15700 n=:99
61,m=4646 n=:1412
62,m=3979 n=:1412
63,m=1000 n=:1412
64,m= 292 n=:1415
65,m= 388 n=:1424
66,m=2018 n=:1418
67,m= 883 n=:1418
68,m=1731 n=:1415
69,m= 753 n=:1415
---------
15690
8,m=13680 n=:840
81,m=10609 n=:840
82,m=3071 n=:840
---------
13680
[m=number of sequences, including partials, coding region
n-2= nucleotides-length in that alignment]
to be added : average and maximal #nucleotide differences in each
of the 32 files from the index = average nucleotide at each position
[done]
mutation-pictures of 1000 randomly selected full sequences from
each of the 32 files
splitting of the files into American and Eurasian
average and minimal distance(year) of the American and Eurasian parts
amino-acid files
updated cloud pictures (dSyn. vs. dNonsyn. in 2d)
Code:filename average distance from the index(average) of that file in 1/100 percent number of sequences (including partials) maximum distance from the index of that file in 1/100 percent bitsc1, 933 , 13412 , 1906 bitsc2, 681 , 13361 , 2265 13360,1785 NZ bitsc3, 684 , 13372 , 1761 bitsc5, 679 , 13021 , 1740 bitsc7, 476 , 14142 , 1310 bitsc41, 638 , 708 , 3003 686,1575 swine H1N1-->turkey bitsc42, 834 , 500 , 1612 bitsc43, 865 , 2012 , 2238 1991,1666 swine H3N2 --> turkey bitsc44, 811 , 1763 , 1965 bitsc45, 577 , 5787 , 2733 5692,2170 partials Mex.H5N2 bitsc46, 923 , 1777 , 2511 bitsc47, 1299 , 1706 , 2394 bitsc48, 605 , 177 , 1499 bitsc49, 743 , 3310 , 1902 bitsc4a, 665 , 777 , 2139 bitsc4b, 835 , 606 , 2248 bitsc4c, 662 , 202 , 1893 bitsc4d, 1220 , 137 , 1804 bitsc4e, 472 , 20 , 986 bitsc4f, 137 , 15 , 1062 bitsc4g, 881 , 54 , 1584 bitsc61, 586 , 4646 , 2277 bitsc62, 802 , 3979 , 1707 bitsc63, 797 , 1000 , 2840 956,1604 (H16N3 gulls) bitsc64, 756 , 292 , 1748 bitsc65, 784 , 388 , 2959 386,2138 bitsc66, 1043 , 2018 , 2547 1975,2147 bitsc67, 902 , 883 , 2877 bitsc68, 636 , 1731 , 2677 1729,2439 bitsc69, 590 , 753 , 2127 bitsc81, 506 , 10609 , 1634 bitsc82, 402 , 3071 , 1539
Leave a comment:
-
Re: diversity in avian influenza in the 8 segments
paper about NA stalk deletions:
pdf: http://www.plosone.org/article/fetch...esentation=PDF
9 pages, 70 references , Feb.2011
NA aa 30-90 deletion patterns for 9087 full avian NAs at genbank :
(when alignerd with mafft)
count,pattern,NA-type
Code:2008,OOOOOOOOOOOOOOOOOOO--------------------OOOOOOOOOOOOOOOOOOOOOO---1 1893,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---2 1369,OOOOOOOOOOOOOOOOOOOOOOOOO-OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---6 1353,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---8 1047,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---1 698,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---3 508,OOOOOOOOOOO--OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---7 401,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---9 293,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO----OOOOOOOOOOOOOOOOOOOOOOOOO---2 269,OOOOOOOOOOOOOOOOOOOOOOOOOOO----------------OOOOOOOOOOOOOOOOOO---2 218,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---4 183,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---5 91,OOOOOOOOOOOOOOOOOOOOOO-------------------OOOOOOOOOOOOOOOOOOOO---1 88,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---7 69,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---------------------OOOOOOOO---2 58,OOOOOOOOOOOOOOOOOOOOOOO-----------------------OOOOOOOOOOOOOOO---1 52,OOOOOOOOO--OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---5 30,OOOOOOOOOOOOOOOOOOOOOOOOO------------------------OOOOOOOOOOOO---3 27,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO--------------------OOOOOOOO---2 26,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO----------OOOOOOOOOOOO---2 25,OOOOOOOOOO-------------OOOOOOOOOOOOOO---OOOOOOOOOOOOOOOOOOOOO---1 18,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---------------------OOOOOOO---2 18,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO------------------OOOOOOOOOOOO---2 16,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO-----------OOOOOOOOOOOOOOO---2 14,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO-OOOOOOOOOO---9 12,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO--OOOOOOOOOOOO---3 12,OOOOOOOO--OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---2 9,OOOOOOOOOOOOOOOOOOO-------OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---2 9,OOOOOOOOOO-------------OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---1 7,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---6 7,OOOOOOOOOOOOOOOOOOOOOOOOOOOO-------------------------OOOOOOOO---2 7,OOOOOOOOOOOOOOOOOOOOOOOOO-OOOOOOOOOO-OOOOOOOOOOOOOOOOOOOOOOOO---6 6,OOOOOOOOOOOOOOOOOO-----------------------OOOOOOOOOOOOOOOOOOOO---2 6,OOOOOOOOOOOO--------------------------OOOOOOOOOOOOOOOOOOOOOOO---6 6,OOOOOOOOO--OOOOOOOOOOOOOOOOOOOOOOOOOOOOOO----OOOOOOOOOOOOOOOO---5 3,OOOOOOOOOOOOOOOOOOOOOOOOOOOO----------------------OOOOOOOOOOO---2 3,OOOOOOOOOOOOOOOOOOOOOOO----------------------OOOOOOOOOOOOOOOO---1 3,OOOOOOOOO-OOOOOOOOO--------------------OOOOOOOOOOOOOOOOOOOOOO---1 2,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO------OOOOOOOOOOOOOOOOOO---9 2,OOOOOOOOOOOOOOOOOOOOOOOOOOO--------------OOOOOOOOOOOOOOOOOOOO---2 2,OOOOOOOOOOOOOOOOOOOOOOOO---------------------OOOOOOOOOOOOOOOO---1 2,OOOOOOOOOOOOOOOOOOOOOOO-------------------------OOOOOOOOOOOOO---2 2,OOOOOOOOOOOOOOOOOOOOO-------------OOOOOOOOOOOOOOOOOOOOOOOOOOO---2 2,OOOOOOOOOOOOOOOOOOOO----------------------------OOOOOOOOOOOOO---3 2,OOOOOOOOOOOOOOOOOOO--------------------OOOOO-OOOOOOOOOOOOOOOO---1 2,OOOOOOOOOOOOOOOO-----OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---2 2,OOOOOOOOOOO--OOOOOOOOOOO-----------------------OOOOOOOOOOOOOO---7 2,OOOOOOOOOOO-------------------------OOOOOOOOOOOOOOOOOOOOOOOOO---3 2,OOOOO-OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---8 1,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO-OOOOOOOOO---5 1,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO-OOOOOOOOOOO---9 1,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO-OOOOOOOOOOOO---2 1,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO-OOOOOOOOOOOOO---8 1,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO-OOOOOOOOOOOOOO---8 1,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO-OOOOOOOOOOOOOO---3 1,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO-----OOOOOOOOOOOOOOOOO---9 1,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---------OOOOOOOOOOOOOOO---2 1,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO-OOOOOOOOOOOOOOOOOO-OOOOOOO---2 1,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO----------------OOOOOOOOOOO---2 1,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO--OOOOOOOOOOOOOOOOOOOOOOOOOO---2 1,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO-OOOOOOOOOOOOOOOOOOOOOOOOOOOO---3 1,OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO--------------------OOOOOOOOO---2 1,OOOOOOOOOOOOOOOOOOOOOOOOOO--------------------------OOOOOOOOO---2 1,OOOOOOOOOOOOOOOOOOOOOOOOO-OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---4 1,OOOOOOOOOOOOOOOOOOOOOOOOO-OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---3 1,OOOOOOOOOOOOOOOOOOOOOOOOO-OOOOOOOOOOOOOO---------------OOOOOO---6 1,OOOOOOOOOOOOOOOOOOOOOOOOO-OOOOOO-----------------------OOOOOO---6 1,OOOOOOOOOOOOOOOOOOOOOOOOO-OOOOO---------OOOOOOOOOOOOOOOOOOOOO---6 1,OOOOOOOOOOOOOOOOOOOOOOOOO-OOOO------------OOOOOOOOOOOOOOOOOOO---6 1,OOOOOOOOOOOOOOOOOOOOOOOOO-OOO-OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---2 1,OOOOOOOOOOOOOOOOOOOOOOOOO-OOO------------OOOOOOOOOOOOOOOOOOOO---6 1,OOOOOOOOOOOOOOOOOOOOOOOOO-OO-OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---6 1,OOOOOOOOOOOOOOOOOOOOOOOO------------------OOOOOOOOOOOOOOOOOOO---1 1,OOOOOOOOOOOOOOOOOOOOOOOO-------------------OOOOOOOOOOOOOOOOOO---2 1,OOOOOOOOOOOOOOOOOOOOOOO------------OOOOOOOOOOOOOOOOOOOOOOOOOO---6 1,OOOOOOOOOOOOOOOOOOOOOOO-------------OOOOOOOOOOOOOOOOOOOOOOOOO---6 1,OOOOOOOOOOOOOOOOOOOOOOO-------------------------OOOOOOOOOOOOO---3 1,OOOOOOOOOOOOOOOOOOOOOO----------------OOOOOOOOOOOOOOOOOOOOOOO---3 1,OOOOOOOOOOOOOOOOOOOO-OOOOOO----------------OOOOOOOOOOOOOOOOOO---2 1,OOOOOOOOOOOOOOOOOOOO------------------------OOOOOOOOOOOOOOOOO---2 1,OOOOOOOOOOOOOOOOOOO--------------------OOOOOOOOOOOOOOOOOO-OOO---1 1,OOOOOOOOOOOOOOOOOOO--------------------OOOOOOOO--OOOOOOOOOOOO---1 1,OOOOOOOOOOOOOOOOOOO--------------------OOO----OOOOOOOOOOOOOOO---1 1,OOOOOOOOOOOOOOOOOOO--------------------OO--OOOOOOOOOOOOOOOOOO---1 1,OOOOOOOOOOOOOOOOOOO--------------------O-OOOOOOOOOOOOOOOOOOOO---1 1,OOOOOOOOOOOOOOOOOO-----------------------OOOOOOOOOOOOOOOOOOOO---8 1,OOOOOOOOOOOOOOOOOO-------------------------OOOOOOOOOOOOOOOOOO---1 1,OOOOOOOOOOOOOOOOO-OOOOOOOOO----------------OOOOOOOOOOOOOOOOOO---2 1,OOOOOOOOOOOOOOOO-OOOOOOOOOO----------------OOOOOOOOOOOOOOOOOO---2 1,OOOOOOOOOOOOOO------OOO--------------------OOOOOOOOOOOOOOOOOO---2 1,OOOOOOOOOOOOOO------------------OOOOOOOOOOOOOOOOOOOOOOOOOOOOO---2 1,OOOOOOOOOOOOOO------------------------OOOOOOOOOOOOOOOOOOOOOOO---1 1,OOOOOOOOOOOOOO--------------------------OOOOOOOOOOOOOOOOOOOOO---6 1,OOOOOOOOOOOOOO---------------------------OOOOOOOOOOOOOOOOOOOO---2 1,OOOOOOOOOOOOOO-----------------------------OOOOOOOOOOOOOOOOOO---2 1,OOOOOOOOOOOOO------------------------OOOOOOOOOOOOOOOOOOOOOOOO---1 1,OOOOOOOOOOOO-OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---2 1,OOOOOOOOOOOO-OOOOOOOOOO-----------------------OOOOOOOOOOOOOOO---1 1,OOOOOOOOOOOO-OOOOOO--------------------OOOOOOOOOOOOOO-OOOOOOO---1 1,OOOOOOOOOOO--OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO-OOOOOOOOOOOOO---7 1,OOOOOOOOOOO--OOOOOOOOOO-------------------OOOOOOOOOOOOOOOOOOO---7 1,OOOOOOOOOO-------OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---2 1,OOOOOOOO-OOOOOOOOOOOOOOOOOO----------------OOOOOOOOOOOOOOOOOO---2 1,OOOOOOOO-OOOOOOOOOO--------------------OOOOOOOOOOOOOOOOOOOOOO---1 1,OOOOOOO-OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---3 1,OOOOOOO-OOOOOOOOOOOOOOOOOOO----------------OOOOOOOOOOOOOOOOOO---2 1,OOOOOO----------------------------OOOOOOOOOOOOOOOOOOOOOOOOOOO---3 1,OOOOO-OOOOOO-------------------OOOOO-OOOOOOOOOOOOOOOOOOO-OO-O---6 1,OOOO-OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---2 1,OOO-OOOOOOOOOOOOOO-OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---7 1,O-OOOO-OOOOOOOOOOOOOOOOOOOO-OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO---8 1,-------OOOOOOOOOOOOOOOOOOOOOOOOO----OOOOOOOOOOOOOOOOOOOOOOOOO---2
Leave a comment:
-
diversity in avian influenza in the 8 segments
considering each segment separately
ignoring reassortment
~1000 random viruses from each segment
1 virus-segment per line
one position per row
black-pixel=difference from the average = consensus
virus-segments and positions are sorted, so that the pixels cluster best
(I may add some characterization later ....
big black area is usually H5N1, ~60% American, ~40%Eurasian
without big black areas = early viruses,
Brevig 1918 should later be marked in each segment
-------------------------------
you can spot the 16 HA types in segment 4
the 9 NA-types in segment 6
the 2 NS-types in segment 8
and the North-American, Eurasian separation in each segment
America has more mallard samples, Asia more poultry samples
(sequences from genbank, aligned with mafft)Tags: None
Leave a comment: