뉴스 - 304 스테인레스 스틸 용접 코일 튜브 / 튜브 zhemical zomComponent, 글로벌 해양 미생물 군집의 생합성 잠재력

Nature.com을 방문해 주셔서 감사합니다.CSS 지원이 제한된 브라우저 버전을 사용하고 있습니다.최상의 경험을 위해서는 업데이트된 브라우저를 사용하거나 Internet Explorer에서 호환 모드를 비활성화하는 것이 좋습니다.또한 지속적인 지원을 보장하기 위해 스타일과 JavaScript가 없는 사이트를 표시합니다.
슬라이드당 기사 3개를 표시하는 슬라이더입니다.슬라이드 사이를 이동하려면 뒤로 및 다음 버튼을 사용하고, 각 슬라이드 사이를 이동하려면 끝에 있는 슬라이드 컨트롤러 버튼을 사용하세요.

자세한 제품 설명

304 스테인레스 스틸 용접 코일 튜브 / 튜브
1. 사양 : 스테인레스 스틸 코일 튜브 / 튜빙
2. 유형: 용접되거나 이음새가 없는
3. 표준: ASTM A269, ASTM A249
4. 스테인레스 스틸 코일 튜브 OD: 6mm ~ 25.4MM
5. 길이: 600-3500MM 또는 고객의 요구 사항에 따라.
6. 벽 두께 : 0.2mm ~ 2.0mm.

7. 공차: OD: +/-0.01mm;두께: +/-0.01%.

8. 코일 내부 구멍 크기 : 500MM-1500MM (고객 요구 사항에 따라 조정 가능)

9. 코일 높이 : 200MM-400MM (고객 요구 사항에 따라 조정 가능)

10. 표면: 밝거나 단련됨
11. 재질 : 304, 304L, 316L, 321, 301, 201, 202, 409, 430, 410, 합금 625, 825, 2205, 2507 등
12. 포장: 나무 케이스, 나무 팔레트, 나무 샤프트 또는 고객 요구 사항에 따라 짠 가방
13. 시험 : 화학성분, 항복강도, 인장강도, 경도측정
14. 보증: 제3자(예: SGS TV) 검사 등
15. 응용 분야 : 장식, 가구, 석유 운송, 열교환 기, 난간 제작, 제지, 자동차, 식품 가공, 의료 등

스테인레스 강의 모든 화학 성분 및 물리적 특성은 다음과 같습니다.

재료	ASTM A269 화학 성분 최대 %
재료	C	Mn	P	S	Si	Cr	Ni	Mo	주의	Nb	Ti
TP304	0.08	2.00	0.045	0.030	1.00	18.0-20.0	8.0-11.0	^	^	^ .	^
TP304L	0.035	2.00	0.045	0.030	1.00	18.0-20.0	8.0-12.0	^	^	^	^
TP316	0.08	2.00	0.045	0.030	1.00	16.0-18.0	10.0-14.0	2.00-3.00	^	^	^
TP316L	0.035D	2.00	0.045	0.030	1.00	16.0-18.0	10.0-15.0	2.00-3.00	^	^	^
TP321	0.08	2.00	0.045	0.030	1.00	17.0-19.0	9.0-12.0	^	^	^	5C -0.70
TP347	0.08	2.00	0.045	0.030	1.00	17.0-19.0	9.0-12.0			10C -1.10	^

재료	열처리	온도 F(C) 최소.	경도
재료	열처리	온도 F(C) 최소.	브리넬	록웰
TP304	해결책	1900 (1040)	192HBW/200HV	90HRB
TP304L	해결책	1900 (1040)	192HBW/200HV	90HRB
TP316	해결책	1900(1040)	192HBW/200HV	90HRB
TP316L	해결책	1900(1040)	192HBW/200HV	90HRB
TP321	해결책	1900(1040)프	192HBW/200HV	90HRB
TP347	해결책	1900(1040)	192HBW/200HV	90HRB

외경, 인치	외경 공차 인치(mm)	WT 허용오차 %	길이 공차 인치(mm)
외경, 인치	외경 공차 인치(mm)	WT 허용오차 %	+	-
≤ 1 / 2	± 0.005 ( 0.13 )	± 15	1 / 8 ( 3.2 )	0
> 1 / 2 ~1 1 / 2	±0.005(0.13)	± 10	1 / 8 (3.2)	0
> 1 1 / 2 ~< 3 1 / 2	±0.010(0.25)	± 10	3 / 16 (4.8)	0
> 3 1 / 2 ~< 5 1 / 2	±0.015(0.38)	± 10	3 / 16 (4.8)	0
> 5 1 / 2 ~< 8	±0.030(0.76)	± 10	3 / 16 (4.8)	0
8~< 12	±0.040(1.01)	± 10	3 / 16 (4.8)	0
12~< 14	±0.050(1.26)	± 10	3 / 16 (4.8)	0

자연 미생물 군집은 계통발생학적으로나 대사적으로 다양합니다.연구되지 않은 유기체 그룹1 외에도 이러한 다양성은 생태학적 및 생명공학적으로 중요한 효소 및 생화학적 화합물을 발견할 수 있는 풍부한 잠재력을 가지고 있습니다2,3.그러나 이러한 화합물을 합성하고 이를 각각의 숙주에 결합시키는 게놈 경로를 결정하기 위해 이러한 다양성을 연구하는 것은 여전히 어려운 일입니다.외양에서 미생물의 생합성 잠재력은 전 지구적 규모의 전체 게놈 분해능 데이터 분석의 한계로 인해 크게 알려지지 않은 상태로 남아 있습니다.여기에서 우리는 배양된 세포와 단일 세포에서 약 10,000개의 미생물 게놈을 1,000개 이상의 해수 샘플에서 새로 재구성된 25,000개 이상의 초안 게놈과 통합하여 해양 생합성 유전자 클러스터의 다양성과 다양성을 탐구합니다.이러한 노력으로 약 40,000개의 추정되는 대부분 새로운 생합성 유전자 클러스터가 확인되었으며, 그 중 일부는 이전에 의심되지 않았던 계통발생 그룹에서 발견되었습니다.이 개체군에서 우리는 미배양 박테리아 문에 속하고 이 환경에서 가장 생합성적으로 다양한 미생물 중 일부를 포함하는 생합성 유전자 클러스터("Candidatus Eudormicrobiaceae")가 풍부한 계통을 확인했습니다.이들 중 우리는 포스파타제-펩타이드 및 피톤아미드 경로를 특성화하여 특이한 생리활성 화합물 구조와 효소의 사례를 각각 식별했습니다.결론적으로, 이 연구는 미생물군집 기반 전략이 어떻게 잘 이해되지 않은 미생물군과 환경에서 이전에 설명되지 않은 효소와 천연 식품을 탐색할 수 있는지 보여줍니다.
미생물은 전 세계의 생지화학적 순환을 주도하고, 먹이그물을 유지하며, 식물과 동물을 건강하게 유지합니다5.이들의 엄청난 계통발생적, 대사적, 기능적 다양성은 천연물6을 포함한 새로운 분류군1, 효소 및 생화학적 화합물을 발견할 수 있는 풍부한 잠재력을 나타냅니다.생태 공동체에서 이러한 분자는 미생물에게 의사소통에서 경쟁에 이르기까지 다양한 생리적, 생태학적 기능을 제공합니다 2, 7 .본래의 기능 외에도 이러한 천연물과 유전적으로 암호화된 생산 경로는 생명공학 및 치료 응용 분야의 예를 제공합니다2,3.이러한 경로와 연결의 확인은 배양된 미생물에 대한 연구를 통해 크게 촉진되었습니다.그러나 자연환경에 대한 분류학적 연구에 따르면 대부분의 미생물은 재배되지 않은 것으로 나타났습니다8.이러한 문화적 편견은 많은 미생물4,9에 의해 암호화된 기능적 다양성을 활용하는 우리의 능력을 제한합니다.
이러한 한계를 극복하기 위해 지난 10년 동안의 기술 발전을 통해 연구자들은 전체 공동체(메타유전체학) 또는 단일 세포에서 미생물 DNA 단편을 직접(즉, 사전 배양 없이) 서열 분석할 수 있었습니다.이러한 단편을 더 큰 게놈 단편으로 조립하고 다중 메타게놈 조립 게놈(MAG) 또는 단일 증폭 게놈(SAG)을 각각 재구성하는 능력은 미생물군집(즉, 미생물 군집 및 미생물군집)에 대한 분류 중심 연구에 중요한 기회를 열어줍니다.새로운 길을 개척하십시오.주어진 환경에서 자신의 유전 물질) 10,11,12.실제로, 최근 연구는 지구상 미생물 다양성의 계통발생적 표현을 크게 확장했으며 이전에 배양된 미생물 참조 게놈 서열(REF)에 의해 다루어지지 않았던 개별 미생물 군집의 기능적 다양성의 많은 부분을 밝혀냈습니다.숙주 게놈의 맥락에서 발견되지 않은 기능적 다양성(즉, 게놈 분해능)을 배치하는 능력은 아마도 새로운 천연 생성물15,16을 암호화하는 아직 특성화되지 않은 미생물 계통을 예측하거나 그러한 화합물을 원래 생산자로 추적하는 데 중요합니다17.예를 들어, 결합된 메타게놈 및 단일 세포 게놈 분석 접근법을 통해 대사가 풍부한 해면 관련 박테리아 그룹인 Candidatus Entotheonella가 다양한 약물 잠재력의 생산자로 식별되었습니다.그러나 최근 다양한 미생물 군집에 대한 게놈 탐사 시도에도 불구하고16,19 지구 최대 규모의 생태계 해양에 대한 전 세계 메타게놈 데이터의 2/3 이상이 여전히 누락되었습니다16,20.따라서 일반적으로 해양 미생물군집의 생합성 잠재력과 새로운 효소 및 천연 생성물의 저장소로서의 잠재력은 아직까지 충분히 연구되지 않은 상태로 남아 있습니다.
전 세계적으로 해양 미생물군집의 생합성 잠재력을 탐구하기 위해 우리는 먼저 배양 의존적 방법과 비배양 방법을 사용하여 얻은 해양 미생물 게놈을 모아 계통발생학 및 유전자 기능에 대한 광범위한 데이터베이스를 만들었습니다.이 데이터베이스를 조사한 결과 대부분이 아직 특성화되지 않은 유전자 클러스터(GCF) 계열에 속하는 다양한 생합성 유전자 클러스터(BGC)가 밝혀졌습니다.또한, 우리는 지금까지 외양에서 가장 높은 것으로 알려진 BGC 다양성을 나타내는 알려지지 않은 박테리아군을 확인했습니다.우리는 현재 알려진 경로와의 유전적 차이를 기반으로 한 실험적 검증을 위해 두 가지 리보솜 합성 및 번역 후 변형 펩타이드(RiPP) 경로를 선택했습니다.이들 경로의 기능적 특성화는 프로테아제 억제 활성을 갖는 구조적으로 특이한 화합물뿐만 아니라 예상치 못한 효소학의 예를 밝혀냈습니다.
처음에 우리는 박테리아 및 고세균 구성 요소에 초점을 맞춰 게놈 분석을 위한 글로벌 데이터 리소스를 만드는 것을 목표로 했습니다.이를 위해 우리는 전 세계적으로 분산된 215개 샘플링 장소(위도 범위 = 141.6°)와 여러 심층(깊이 1~5,600m, 원양, 중서양 및 심해 지대 포함)에서 메타게놈 데이터와 1038개의 해수 샘플을 수집했습니다.배경 21,22,23 (그림 1a, 확장 데이터, 그림 1a 및 보충 표 1).넓은 지리적 범위를 제공하는 것 외에도 이러한 선택적으로 필터링된 샘플을 통해 바이러스가 풍부한(<0.2 µm), 원핵 생물이 풍부한(0.2–3 µm), 입자가 풍부한(0.8 µm)을 포함한 해양 미생물군집의 다양한 구성 요소를 비교할 수 있었습니다. ).–20 µm) 및 바이러스가 고갈된(>0.2 µm) 콜로니.
a, 전 세계적으로 분산된 215개 위치(62°S ~ 79°N 및 179°W ~ 179°E)에서 수집된 총 1038개의 공개적으로 이용 가능한 해양 미생물 군집 게놈(메타게노믹스).지도 타일 © Esri.출처: GEBCO, NOAA, CHS, OSU, UNH, CSUMB, National Geographic, DeLorme, NAVTEQ 및 Esri.b, 이러한 메타게놈은 데이터 세트(색상으로 표시)의 수량과 품질(방법)이 다른 MAG(방법 및 추가 정보)를 재구성하는 데 사용되었습니다.재구성된 MAG에는 손으로 제작한 MAG26, SAG27 및 REF를 포함하여 공개적으로 사용 가능한 (외부) 게놈이 보충되었습니다.27 OMD 컴파일.c, SAG(GORG)20 또는 MAG(GEM)16만을 기반으로 한 이전 보고서와 비교하여 OMD는 해양 미생물 군집의 게놈 특성화(메타게놈 읽기 매핑 속도, 방법)를 보다 일관된 깊이와 표현으로 2~3배 향상합니다. 위도..<0.2, n=151, 0.2-0.8, n=67, 0.2-3, n=180, 0.8-20, n=30, >0.2, n=610, <30°, n = 132, 30-60° , n = 73, >60°, n = 42, EPI, n = 174, MES, n = 45, BAT, n = 28. d, OMD를 종 클러스터 수준(95% 평균 뉴클레오티드 동일성)으로 그룹화하면 총 약 8,300종 중 절반 이상이 GTDB(버전 89)를 사용한 분류학적 주석에 따라 이전에 특성화되지 않았습니다. e, 게놈 유형에 따른 종의 분류는 MAG, SAG 및 REF가 계통발생적 다양성을 반영하는 데 있어 서로를 잘 보완한다는 것을 보여주었습니다. 해양 미생물군집.특히, 종의 55%, 26% 및 11%가 각각 MAG, SAG 및 REF에 특이적이었습니다.BATS, 버뮤다 대서양 시계열;GEM, 지구 미생물군집의 게놈;GORG, 글로벌 해양 참조 게놈;HOT, 하와이안 오션 시계열.
이 데이터 세트를 사용하여 우리는 주로 박테리아와 고세균인 총 26,293개의 MAG를 재구성했습니다(그림 1b 및 확장 데이터, 그림 1b).우리는 서로 다른 위치 또는 시점(방법)의 샘플 간의 자연적인 서열 변이의 붕괴를 방지하기 위해 풀링된 메타게놈 샘플이 아닌 별도의 어셈블리에서 이러한 MAG를 만들었습니다.또한, 우리는 다수의 샘플(설문 조사 방법에 따라 58개에서 610개 샘플까지)의 유병률 상관 관계를 기반으로 게놈 단편을 그룹화했습니다.우리는 이것이 여러 대규모 MAG16, 19, 25 재건축 작업에서 건너뛴 시간이 많이 걸리지만 중요한 단계24이며 수량(평균 2.7배)과 품질(평균 +20%)을 크게 향상한다는 것을 발견했습니다. 게놈.여기에서 연구된 해양 메타게놈으로부터 재구성되었습니다(확장 데이터, 그림 2a 및 추가 정보).전반적으로 이러한 노력으로 인해 오늘날 이용 가능한 가장 포괄적인 MAG 자원에 비해 해양 미생물 MAG가 4.5배(고품질 MAG만 고려하는 경우 6배) 증가했습니다16(방법).새로 생성된 이 MAG 세트는 엄선된 830개의 MAG26, 5969개의 SAG27 및 1707 REF와 결합되었습니다.27종의 해양 박테리아와 고세균이 34,799개 게놈의 조합 컬렉션을 구성했습니다(그림 1b).
그런 다음 새로 생성된 자원을 평가하여 해양 미생물 군집을 대표하는 능력을 향상시키고 다양한 게놈 유형 통합의 영향을 평가했습니다.평균적으로 우리는 이것이 해양 메타게놈 데이터(그림 1c)의 약 40-60%를 다루고 있음을 발견했습니다. 이는 깊이와 위도 모두에서 이전 MAG 전용 보고서 범위의 2~3배입니다. More serial 16 또는 SAG20입니다.또한 확립된 컬렉션의 분류학적 다양성을 체계적으로 측정하기 위해 GTDB(Genome Taxonomy Database) 툴킷(방법)을 사용하여 모든 게놈에 주석을 달고 평균 게놈 전체 뉴클레오티드 동일성 95%를 사용했습니다.28개 8,304종의 군집(종)을 식별한다.이들 종의 2/3(새로운 계통군 포함)는 이전에 GTDB에 나타나지 않았으며, 이 연구에서 재구성된 MAG를 사용하여 2790개가 발견되었습니다(그림 1d).또한, 우리는 다양한 유형의 게놈이 매우 상보적이라는 것을 발견했습니다. 종의 55%, 26%, 11%가 각각 MAG, SAG 및 REF로 완전히 구성되어 있습니다(그림 1e).또한 MAG는 물기둥에서 발견된 49개 유형을 모두 다루었지만 SAG와 REF는 각각 그 중 18개와 11개만 나타냈습니다.그러나 SAG는 Pelagic Bacteriales(SAR11)과 같은 가장 일반적인 분류군(확장 데이터, 그림 3a)의 다양성을 더 잘 나타내며 SAG는 거의 1300종, MAG는 390종에 불과합니다.특히, REF는 종 수준에서 MAG 또는 SAG와 거의 겹치지 않으며, 주로 다른 유형의 분리된 대표 해양 표본(예: 퇴적물)과의 상호 작용으로 인해 여기에서 연구된 외양 메타게놈 세트에서 발견되지 않은 약 1000개의 게놈 중 >95%를 나타냅니다. .또는 호스트 연결).과학계가 널리 이용할 수 있도록 하기 위해 분류되지 않은 단편(예: 예측된 파지, 게놈 섬 및 MAG 재구성을 위한 데이터가 불충분한 게놈 단편)도 포함하는 이 해양 게놈 자원을 분류학 데이터와 비교할 수 있습니다. .해양 미생물학 데이터베이스(OMD, https://microbiomics.io/ocean/)에서 유전자 기능 및 상황별 매개변수와 함께 주석에 액세스하세요.
그런 다음 우리는 외해 미생물군집에서 생합성 잠재력의 풍부함과 참신함을 탐구하기 시작했습니다.이를 위해 먼저 1038개의 해양 메타게놈(방법)에서 발견된 모든 MAG, SAG 및 REF에 대해 antiSMASH를 사용하여 총 39,055개의 BGC를 예측했습니다.그런 다음 이들을 6907개의 중복되지 않는 GCF와 151개의 유전자 클러스터 집단(GCC, 보충 표 2 및 방법)으로 그룹화하여 고유한 중복성(즉, 동일한 BGC가 여러 게놈에서 인코딩될 수 있음)과 메타겐 데이터 농축된 BGC의 단편화를 설명했습니다.불완전한 BGC는 각각 44%와 86%의 경우에 최소한 하나의 온전한 BGC 구성원을 포함하는 GCF 및 GCC의 수를 크게 증가시키지 않았습니다(보충 정보).
GCC 수준에서 우리는 다양한 예측 RiPP 및 기타 천연물을 발견했습니다(그림 2a).그 중 예를 들어, 아릴폴리엔, 카로티노이드, 엑토인 및 사이드로포는 계통 발생 분포가 넓고 해양 메타게놈이 풍부한 GCC에 속하며 이는 활성 산소종에 대한 저항성을 포함하여 해양 환경에 대한 미생물의 광범위한 적응을 나타낼 수 있습니다. 산화 및 삼투압 스트레스..또는 철분 흡수(추가 정보).이러한 기능적 다양성은 NCBI RefSeq 데이터베이스(BiG-FAM/RefSeq, 이하 RefSeq)에 저장된 약 190,000개의 게놈 중 약 120만 개의 BGC에 대한 최근 분석과 대조됩니다. (PKS) BGC(보충 정보).우리는 또한 RefSeq BGC(\(\bar{d}\)RefSeq > 0.4, 그림 2a 및 방법)와만 먼 관련이 있는 44개(29%) GCC와 MAG에서만 53개(35%) GCC를 발견하여 잠재력을 강조했습니다. OMD에서 이전에 설명되지 않은 화학 물질을 탐지합니다.이러한 GCC 각각이 매우 다양한 생합성 기능을 나타낼 가능성이 있다는 점을 고려하여 유사한 천연 제품을 코딩하는 것으로 예측되는 BGC의 보다 자세한 그룹화를 제공하기 위한 노력의 일환으로 GCF 수준에서 데이터를 추가로 분석했습니다29.총 3,861개(56%)의 확인된 GCF가 RefSeq과 겹치지 않았으며 GCF의 >97%가 실험적으로 검증된 BGC의 가장 큰 데이터베이스 중 하나인 MIBiG에 존재하지 않았습니다(그림 2b).참조 게놈에 의해 잘 표현되지 않는 환경에서 많은 잠재적인 새로운 경로를 발견하는 것은 놀라운 일이 아니지만, 벤치마킹 전에 BGC를 GCF로 복제하는 방법은 이전 보고서와 다르며 참신함에 대한 편견 없는 평가를 제공할 수 있습니다.새로운 다양성의 대부분(3012 GCF 또는 78%)은 예측된 테르펜, RiPP 또는 기타 천연 제품에 해당하며 대부분(1815 GCF 또는 47%)은 생합성 잠재력으로 인해 알려지지 않은 유형으로 인코딩됩니다.PKS 및 NRPS 클러스터와 달리 이러한 소형 BGC는 메타게놈 조립 중에 조각화될 가능성이 적고 제품의 시간 및 리소스 집약적 기능 특성화를 허용합니다.
총 39,055개의 BGC가 6,907개의 GCF와 151개의 GCC로 그룹화되었습니다.a, 데이터 표현(내부 외부).GCC를 기반으로 한 BGC 거리의 계층적 클러스터링(그 중 53개는 MAG로만 고정됨)GCC에는 다양한 분류군(ln 변환된 게이트 빈도)과 다양한 BGC 클래스(원 크기는 빈도에 해당)의 BGC가 포함되어 있습니다.각 GCC에 대해 외부 레이어는 BGC 수, 보급률(샘플 비율) 및 BiG-FAM에서 BGC까지의 거리(최소 BGC 코사인 거리(min(dMIBiG)))를 나타냅니다.실험적으로 검증된 BGC(MIBiG)와 밀접하게 관련된 BGC가 있는 GCC는 화살표로 강조 표시됩니다.b GCF를 예측된(BiG-FAM) 및 실험적으로 검증된(MIBiG) BGC와 비교하면 3,861개의 새로운(d–>0.2) GCF가 발견되었습니다.대부분(78%)은 RiPP, 테르펜 및 기타 추정 천연 제품에 대한 코드입니다.c, 1038개의 해양 메타게놈에서 발견된 OMD의 모든 게놈을 GTDB 기본 트리에 배치하여 OMD의 계통 발생 범위를 보여주었습니다.OMD에 게놈이 없는 클레이드는 회색으로 표시됩니다.BGC의 수는 특정 계통군에서 게놈당 예측된 BGC의 최대 수에 해당합니다.명확성을 위해 노드의 마지막 15%가 축소되었습니다.화살표는 Mycobacterium, Gordonia(Rhodococcus 다음으로 두 번째) 및 Crocosphaera(Synechococcus 다음으로 두 번째)를 제외하고 BGC(>15 BGC)가 풍부한 계통군을 나타냅니다.d, 알 수 없음 c.Eremiobacterota는 가장 높은 생합성 다양성을 나타냈습니다(천연산물 유형에 따른 Shannon 지수).각 밴드는 종에서 BGC가 가장 많은 게놈을 나타냅니다.T1PKS, PKS 유형 I, T2/3PKS, PKS 유형 II 및 유형 III.
풍부함과 참신함 외에도 우리는 해양 미생물군집의 생합성 잠재력에 대한 생물지리학적 구조를 탐구합니다.평균 metagenomic GCF 복사 수 분포(방법)에 따라 샘플을 그룹화하면 주로 표면 또는 더 깊은 햇빛이 비치는 물에서 나오는 저위도, 표면, 원핵 생물이 풍부하고 바이러스가 부족한 공동체에 RiPP 및 BGC 테르펜이 풍부하다는 것이 나타났습니다.대조적으로, 극지방, 심해, 바이러스 및 입자가 풍부한 공동체는 NRPS 및 PKS BGC의 풍부함과 관련이 있었습니다(확장 데이터, 그림 4 및 추가 정보).마지막으로, 우리는 잘 연구된 열대 및 원양 공동체가 새로운 테르펜의 가장 유망한 공급원이라는 것을 발견했습니다(증강 데이터 그림).PKS, RiPP 및 기타 천연 제품에 대한 잠재력이 가장 높습니다(확장된 데이터가 포함된 그림 5a).
해양 미생물군집의 생합성 잠재력에 대한 연구를 보완하기 위해 우리는 계통발생적 분포를 매핑하고 새로운 BGC가 풍부한 계통군을 식별하는 것을 목표로 했습니다.이를 위해 우리는 해양 미생물의 게놈을 표준화된 GTDB13 박테리아 및 고세균 계통수에 배치하고 그들이 인코딩하는 추정 생합성 경로를 중첩했습니다(그림 2c).우리는 시아노박테리아(Synechococcus) 및 프로테우스 박테리아(예: Tistrella32,33)와 같은 생합성 잠재력으로 알려진 해수 샘플(방법)에서 여러 BGC가 풍부한 클래드(15개 이상의 BGC로 표시)를 쉽게 발견했거나 최근 주목을 받았습니다. 천연 제품.Myxococcota(Sandaracinaceae), Rhodococcus 및 Planctomycetota34,35,36 등이 있습니다.흥미롭게도 우리는 이들 계통군에서 이전에 탐구되지 않은 여러 계통을 발견했습니다.예를 들어, Planctomycetota 문과 Myxococcota 문에서 가장 풍부한 생합성 잠재력을 가진 종은 각각 특성화되지 않은 후보 목과 속에 속했습니다 (보충 표 3).종합하면, 이는 OMD가 효소 및 천연물 발견을 위한 새로운 목표를 나타낼 수 있는 미생물을 포함하여 이전에 알려지지 않은 계통발생 정보에 대한 접근을 제공한다는 것을 의미합니다.
다음으로, 우리는 구성원이 인코딩한 BGC의 최대 수를 계산할 뿐만 아니라 다양한 유형의 천연 후보 제품의 빈도를 설명하는 이러한 BGC의 다양성을 평가하여 BGC가 풍부한 분기군을 특성화했습니다(그림 2c 및 방법). )..우리는 이 연구에서 가장 생합성적으로 다양한 종이 특수하게 조작된 박테리아 MAG로 대표된다는 것을 발견했습니다.이 박테리아는 미개척 문인 Candidatus Eremiobacterota에 속하며, 몇 가지 게놈 연구를 제외하고는 대부분 미개척 상태로 남아 있습니다.“ca.Eremiobacterota 속은 육상 환경에서만 분석되었으며39 BGC가 풍부한 구성원을 포함하는 것으로 알려져 있지 않습니다.여기에서 우리는 동일한 종(뉴클레오티드 동일성 > 99%)의 8개 MAG를 재구성했습니다. 23. 따라서 우리는 그리스 신화와 탐험에서 아름다운 선물인 네레이드(바다 요정)의 이름을 따서 명명된 "Candidatus Eudoremicrobium Malaspinii"라는 종 이름을 제안합니다.'카.계통 발생 주석 13에 따르면 E. malaspinii는 이전에 서열 수준 아래에 알려진 친척이 없으므로 "Ca.E. malaspinii”를 기준종으로 하고 “Ca.Eudormicrobiaceae”를 공식 명칭으로 사용합니다(보충 정보).Ca의 간략한 메타게놈 재구성.E. malaspinii 게놈 프로젝트는 매우 낮은 입력, 긴 판독 메타게놈 시퀀싱 및 단일 샘플의 표적 어셈블리(방법)를 통해 75kb 중복이 있는 단일 9.63Mb 선형 염색체로 검증되었습니다.유일하게 남은 모호함으로.
이 종의 계통발생적 맥락을 확립하기 위해 우리는 표적 게놈 재구성을 통해 타라 해양 탐험의 추가 진핵생물이 풍부한 메타게놈 샘플에서 밀접하게 관련된 40종을 검색했습니다.간단히 말해서, 우리는 "Ca."와 관련된 게놈 단편에 메타게놈 판독을 연결했습니다.E. malaspinii”를 참조하고 이 표본에서 모집률이 증가하면 다른 친척(방법)이 있음을 나타내는 가설을 세웠습니다.그 결과, 새로 정의된 과(예: "Ca. Eudormicrobiaceae") 내에서 3개 속의 5개 종을 대표하는 19개의 MAG 조합인 10개의 MAG를 발견했습니다.수동 검사 및 품질 관리(확장된 데이터, 그림 6 및 추가 정보) 후 "Ca.Eudormicrobiaceae 종은 다른 "Ca" 구성원보다 더 큰 게놈(8 Mb)과 더 풍부한 생합성 잠재력(종당 14~22 BGC)을 나타냅니다.Clade Eremiobacterota (최대 7 BGC) (그림 3a-c).
a, 5개의 'Ca.Eudormicrobiaceae 종은 본 연구에서 확인된 해양 계통에 특유한 BGC 풍부함을 보여주었습니다.계통발생수에는 모든 'Ca'가 포함됩니다.GTDB(버전 89)에 제공된 MAG Eremiobacterota 및 기타 문(괄호 안의 게놈 번호)의 구성원은 진화 배경(방법)에 사용되었습니다.가장 바깥쪽 층은 과 수준(“Ca. Eudormicrobiaceae” 및 “Ca. Xenobiaceae”)과 강 수준(“Ca. Eremiobacteria”)의 분류를 나타냅니다.본 연구에 설명된 5종의 종은 영숫자 코드와 제안된 이항명으로 표시됩니다(보충 정보).ㄴ, 알았어.Eudormicrobiaceae 종은 7개의 공통 BGC 핵을 공유합니다.A2 클레이드에 BGC가 없는 것은 대표적인 MAG의 불완전성 때문이었습니다(보충 표 3).BGC는 “Ca.암피토미크로비움(Amphithomicrobium)”과 “Ca.Amphithomicrobium”(클레이드 A 및 B)은 표시되지 않습니다.c, "Ca."로 인코딩된 모든 BGCEudoremicrobium taraoceanii는 타라(Tara) 바다에서 채취한 623개의 메타전사체에서 발현되는 것으로 밝혀졌습니다.실선은 활성 전사를 나타냅니다.주황색 원은 하우스키핑 유전자 발현율(방법) 아래와 위의 log2 변환 배수 변화를 나타냅니다.d, 'Ca'를 나타내는 상대 존재비 곡선(방법).Eudormicrobiaceae 종은 대부분의 해양 유역과 전체 수주 (표면에서 최소 4000m 깊이까지)에 널리 퍼져 있습니다.이러한 추정을 바탕으로 우리는 'Ca.E. malaspinii'는 심해 원양 곡물 관련 공동체에서 원핵 세포의 최대 6%를 차지합니다.우리는 주어진 깊이층 크기의 일부에서 발견된 종이 있다면 해당 장소에 존재하는 것으로 간주했습니다.IO – 인도양, NAO – 북대서양, NPO – 북태평양, RS – 홍해, SAO – 남대서양, SO – 남해양, SPO – 남태평양.
Ca의 풍부함과 분포를 연구합니다.우리가 발견한 Eudormicrobiaceae는 대부분의 해양 분지와 전체 수주에서 우세합니다 (그림 3d).지역적으로 이들은 해양 미생물 군집의 6%를 차지하며 전 세계 해양 미생물 군집의 중요한 부분을 차지합니다.또한 Ca의 상대적 함량도 알아냈습니다.Eudormicrobiaceae 종과 이들의 BGC 발현 수준은 진핵 생물 농축 분획에서 가장 높았으며 (그림 3c 및 확장 데이터, 그림 7) 이는 플랑크톤을 포함한 미립자 물질과의 상호 작용 가능성을 나타냅니다.이 관찰은 'Ca.알려진 경로를 통해 세포독성 천연물을 생산하는 Eudoremicrobium BGC는 Myxococcus와 같은 대사산물을 특이적으로 생산하는 다른 포식자와 유사하게 약탈적 행동을 보일 수 있습니다(보충 정보 및 확장 데이터, 그림 8).Ca의 발견원핵생물 샘플이 아닌 덜 이용 가능한(심해) 또는 진핵생물의 Eudormicrobiaceae는 이러한 박테리아와 예상치 못한 BGC 다양성이 자연 식품 연구의 맥락에서 불분명한 이유를 설명할 수 있습니다.
궁극적으로 우리는 새로운 경로, 효소 및 천연물을 발견하는 데 있어 미생물군집 기반 연구의 가능성을 실험적으로 검증하려고 했습니다.다양한 종류의 BGC 중에서 RiPP 경로는 성숙한 효소에 의한 핵심 펩타이드의 다양한 번역 후 변형으로 인해 풍부한 화학적, 기능적 다양성을 인코딩하는 것으로 알려져 있습니다.그래서 우리는 두 개의 'Ca'를 선택했습니다.Eudormicrobium의 RiPP BGC(그림 3b 및 4a-e)는 알려진 BGC(\(\bar{d}\)MIBiG 및 \(\bar{d}\)RefSeq 0.2 이상)와 동일합니다.
a – c, 심해 Ca 종에 특이적인 RiPP 생합성의 새로운 (\(\bar{d}\)RefSeq = 0.29) 클러스터의 시험관 내 이종 발현 및 시험관 내 효소 분석.E. malaspinii'는 이인산화된 생성물의 생산을 유도했습니다.c, 고해상도(HR) MS/MS(화학 구조에서 b 및 y 이온으로 표시되는 단편화) 및 NMR(확장 데이터, 그림 9)을 사용하여 확인된 변형.d, 이 인산화된 펩타이드는 대조 펩타이드와 탈수 펩타이드에서는 발견되지 않는 포유동물 호중구 엘라스타제에 대한 낮은 마이크로몰 억제를 나타냅니다(화학적 제거 유도 탈수).실험은 비슷한 결과로 세 번 반복되었습니다.예를 들어, 단백질 생합성의 두 번째 새로운 \(\bar{d}\)RefSeq = 0.33) 클러스터의 이종 발현은 46개 아미노산 핵심 펩타이드를 변형하는 4개의 성숙한 효소의 기능을 설명합니다.잔류물은 HR-MS/MS, 동위원소 표지 및 NMR 분석(보충 정보)에 의해 예측된 변형 부위에 따라 염색됩니다.점선으로 표시된 부분은 두 잔기 중 하나에서 변형이 발생했음을 나타냅니다.그림은 동일한 핵에 있는 모든 성숙한 효소의 활성을 보여주기 위해 수많은 이종 구조를 편집한 것입니다.h, 백본 아미드 N-메틸화에 대한 NMR 데이터의 예시.전체 결과는 그림에 나와 있습니다.10개(확장 데이터 포함)i, MIBiG 2.0 데이터베이스에서 발견된 모든 FkbM 도메인 중 성숙한 FkbM 단백질 클러스터 효소의 계통발생적 위치는 N-메틸트랜스퍼라제 활성을 갖는 이 계열의 효소를 나타냅니다(보충 정보).BGC(a, e), 전구체 펩타이드 구조(b, f) 및 천연물의 추정 화학 구조(c, g)의 개략도가 표시됩니다.
첫 번째 RiPP 경로(\(\bar{d}\)MIBiG = 0.41, \(\bar{d}\)RefSeq = 0.29)는 심해 생물인 Ca.E. malaspinii” 및 펩타이드-전구체에 대한 코드(그림 4a, b).이 성숙한 효소에서 우리는 일반적으로 인산화 및 43의 후속 제거를 촉매하는 란티펩타이드 신타제의 탈수 도메인과 상동성인 단일 기능성 도메인을 확인했습니다(보충 정보).따라서 우리는 전구체 펩타이드의 변형이 이러한 2단계 탈수를 포함할 것으로 예측합니다.그러나 직렬 질량 분석법(MS/MS)과 핵자기공명 분광법(NMR)을 사용하여 폴리인산화된 선형 펩타이드를 확인했습니다(그림 4c).예상치 못했지만, 우리는 이것이 최종 생성물이라는 것을 뒷받침하는 몇 가지 증거를 발견했습니다: 두 개의 서로 다른 이종 숙주와 시험관 내 분석에서 탈수 없음, 성숙한 효소의 촉매 탈수 부위에서 돌연변이된 주요 잔기의 식별.모두 "Ca"에 의해 재구성되었습니다.E. malaspinii 게놈 (확장 데이터, 그림 9 및 추가 정보) 및 마지막으로 인산화 된 생성물의 생물학적 활성이지만 화학적으로 합성 된 탈수 형태는 아닙니다 (그림 4d).실제로, 우리는 생태학적 역할이 아직 밝혀지지 않았음에도 불구하고 농도 범위(IC50 = 14.3μM)44에서 다른 관련 천연 제품과 비교할 수 있을 정도로 호중구 엘라스타제에 대해 낮은 마이크로몰 프로테아제 억제 활성을 나타냄을 발견했습니다.이러한 결과를 바탕으로 우리는 경로 이름을 "phospheptin"으로 명명할 것을 제안합니다.
두 번째 경우는 'Ca'에 특정한 복잡한 RiPP 경로입니다.Eudoremicrobium 속 (\(\bar{d}\)MIBiG = 0.46, \(\bar{d}\)RefSeq = 0.33)은 천연 단백질 제품을 인코딩하는 것으로 예측되었습니다(그림 4e).이러한 경로는 비교적 짧은 BGC에 의해 암호화된 효소에 의해 확립된 예상되는 밀도와 다양한 특이한 화학적 변형 때문에 특히 생명공학적으로 관심을 끌고 있습니다.우리는 이 단백질이 폴리세라미드의 주요 NX5N 모티프와 란돈아미드의 란티오닌 루프가 모두 부족하다는 점에서 이전에 특성화된 단백질과 다르다는 것을 발견했습니다46.일반적인 이종 발현 패턴의 한계를 극복하기 위해 맞춤형 Microvirgula aerodenitrificans 시스템과 함께 이를 사용하여 4개의 성숙 경로 효소(방법)를 특성화했습니다.MS/MS, 동위원소 표지 및 NMR의 조합을 사용하여 우리는 펩타이드의 46개 아미노산 코어에서 이러한 성숙한 효소를 검출했습니다(그림 4f,g, 확장 데이터, 그림 10-12 및 추가 정보).성숙한 효소 중에서 우리는 RiPP 경로에서 FkbM O-메틸트랜스퍼라제 계열 구성원 47의 첫 출현을 특징으로 했으며 예기치 않게 이 성숙한 효소가 백본 N-메틸화를 도입한다는 것을 발견했습니다(그림 4h, i 및 추가 정보).이러한 변형이 천연 NRP48 생성물에 알려져 있지만, 아미드 결합의 효소적 N-메틸화는 복잡하지만 생명공학적으로 중요한 반응으로 지금까지 RiPP 계열의 보로신에 관심을 가져왔습니다.특이성 50,51.다른 계열의 효소와 RiPP에서 이러한 활성이 확인되면 새로운 응용 가능성이 열리고 단백질 52의 기능적 다양성과 화학적 다양성이 확장될 수 있습니다.확인된 변형과 제안된 제품 구조의 비정상적인 길이를 기반으로 경로 이름 "pythonamide"를 제안합니다.
기능적으로 특성화된 효소군에서 예상치 못한 효소의 발견은 새로운 발견에 대한 환경 유전체학의 가능성을 보여주며, 또한 서열 상동성에만 기초한 기능적 추론의 제한된 능력을 보여줍니다.따라서 비정규적인 생체 활성 폴리인산화 RiPP에 대한 보고서와 함께 우리의 결과는 생화학적 화합물의 기능적 풍부함, 다양성 및 특이한 구조를 완전히 밝혀내기 위한 합성 생물학 노력에 자원 집약적이지만 중요한 가치를 보여줍니다.
여기에서 우리는 미생물에 의해 암호화된 생합성 잠재력의 범위와 전 세계 해양 미생물군집의 게놈적 맥락을 보여주고, 결과 자원을 과학계(https://microbiomics.io/ocean/)에 제공함으로써 미래 연구를 촉진합니다.우리는 계통발생적 및 기능적 신규성의 대부분이 MAG 및 SAG를 재구성함으로써만 얻을 수 있다는 것을 발견했습니다. 특히 미래의 생물탐사 노력을 안내할 수 있는 활용도가 낮은 미생물 군집에서 그렇습니다.여기서는 'Ca.특히 생합성적으로 "재능이 있는" 계통인 Eudormicrobiaceae"는 발견되지 않은 미생물군에서 예측된 많은 BGC가 환경적으로 및/또는 생명공학적으로 중요한 작용을 하는 화합물을 생성하는 이전에 설명되지 않은 효소를 암호화할 가능성이 높습니다.
해저, 심층 및 시간 경과에 따른 전 세계 해양 미생물 군집의 범위를 최대화하기 위해 충분한 시퀀싱 깊이를 갖춘 주요 해양학 및 시계열 연구의 Metagenomic 데이터 세트가 포함되었습니다.이러한 데이터세트(보충 표 1 및 그림 1)에는 Tara 해양(바이러스 농축, n=190, 원핵생물 농축, n=180)12,22 및 BioGEOTRACES 탐험(n=480)에서 수집된 샘플의 메타유전체학이 포함됩니다.하와이 해양 시계열(HOT, n = 68), 버뮤다-대서양 시계열(BATS, n = 62)21 및 말라스피나 탐험(n = 58)23.모든 메타게놈 조각의 시퀀싱 읽기는 읽기에서 시퀀싱 어댑터를 제거하고 품질 관리 시퀀스(PhiX 게놈)에 매핑된 읽기를 제거하고 Trimq=14, maq=20을 사용하여 불량한 읽기 품질을 삭제하여 BBMap(v.38.71)을 사용하여 품질을 위해 필터링되었습니다. maxns = 0 및 minlength = 45. 후속 분석이 실행되거나 지정된 경우 QC 읽기와 병합되었습니다(bbmerge.sh minoverlap=16).QC 판독값은 MetaSPAdes(v.3.11.1 또는 필요한 경우 v.3.12)53를 사용하여 빌드하기 전에 정규화되었습니다(bbnorm.sh 목표 = 40, MindDeepth = 0).생성된 스캐폴드 콘티그(이하 스캐폴드라고 함)를 최종적으로 길이(≥1kb)로 필터링했습니다.
1038개의 메타게놈 샘플을 그룹으로 나누고 각 샘플 그룹에 대해 모든 샘플의 메타게놈 품질 관리 판독값을 각 샘플의 괄호와 개별적으로 일치시켜 다음과 같은 쌍별 괄호로 묶인 그룹 판독값을 얻었습니다. Tara Marine Viruses – Enriched (190×190), 원핵생물 강화(180×180), BioGEOTRACES, HOT 및 BATS(610×610) 및 Malaspina(58×58).매핑은 판독값을 보조 사이트와 일치시킬 수 있는 BWA(Burrows-Wheeler-Aligner)(v.0.7.17-r1188)54를 사용하여 수행되었습니다(-a 플래그 사용).정렬은 최소 45개 염기 길이, ≥97% 동일성, ≥80% 판독 범위를 갖도록 필터링되었습니다.결과 BAM 파일은 각 그룹에 대한 내부 및 샘플 간 적용 범위를 제공하기 위해 MetaBAT2(v.2.12.1)55용 jgi_summarize_bam_contig_lengths 스크립트를 사용하여 처리되었습니다.마지막으로 -minContig 2000 및 -maxEdges 500을 사용하여 모든 샘플에서 MetaBAT2를 개별적으로 실행하여 감도를 높이기 위해 브래킷을 그룹화했습니다. 독립적인 테스트에서 가장 효과적인 단일 복서로 나타났기 때문에 앙상블 복서 대신 MetaBAT2를 사용합니다.일반적으로 사용되는 다른 복서보다 10~50배 빠릅니다57.존재비 상관관계의 효과를 테스트하기 위해 무작위로 선택된 메타게놈학 하위 샘플(2개의 Tara Ocean 데이터세트 각각에 대해 10개, BioGEOTRACES에 대해 10개, 각 시계열에 대해 5개, Malaspina에 대해 5개)은 추가로 샘플만 사용했습니다.내부 샘플을 그룹화하여 적용 범위 정보를 얻습니다.(추가 정보).
추가(외부) 게놈이 후속 분석에 포함되었습니다. 즉, Tara Oceans26 데이터 세트의 하위 세트에서 수동으로 선택한 830개의 MAG, GORG20 데이터 세트의 5287 SAG, 1707개의 격리된 REF 및 MAR 데이터베이스(MarDB v. 4)의 데이터가 포함되었습니다. 682 SAG) 27. MarDB 데이터 세트의 경우 샘플 유형이 다음 정규 표현식과 일치하는 경우 사용 가능한 메타데이터를 기반으로 게놈이 선택됩니다. '[S|s]ingle.?[C|c]ell|[C|c]ulture| [나는] 고립됐다'.
각 메타게놈 컨테이너와 외부 게놈의 품질은 CheckM(v.1.0.13) 및 Anvi'o의 Lineage Workflow(v.5.5.0)58,59를 사용하여 평가되었습니다.CheckM 또는 Anvi'o가 50% 이상의 완전성/완전성과 10% 이하의 오염/중복성을 보고하는 경우 나중에 분석할 수 있도록 메타게놈 세포와 외부 게놈을 저장하십시오.그런 다음 이 점수를 평균 완전성(mcpl)과 평균 오염(mctn)으로 결합하여 다음과 같이 커뮤니티 기준60에 따라 게놈 품질을 분류했습니다. 고품질: mcpl ≥ 90% 및 mctn ≤ 5%;좋은 품질: mcpl ≥ 70%, mctn ≤ 10%, 중간 품질: mcpl ≥ 50% 및 mctn ≤ 10%, 공정한 품질: mcpl ≥ 90% 또는 mctn ≥ 10%.필터링된 게놈은 다음과 같이 품질 점수(Q 및 Q')와 상관관계가 있었습니다: Q = mcpl – 5 x mctn Q' = mcpl – 5 x mctn + mctn x (변형 변동성)/100 + 0.5 x log[N50] .(dRep61에서 구현됨)
다양한 데이터 소스와 게놈 유형(MAG, SAG 및 REF) 간의 비교 분석을 허용하기 위해 dRep(v.2.5.4)를 사용하여 게놈 전체 평균 뉴클레오티드 동일성(ANI)을 기반으로 34,799개의 게놈을 역참조했습니다.반복)61 95% ANI 임계값28,62(-comp 0 -con 1000 -sa 0.95 -nc 0.2) 및 종 수준에서 게놈 클러스터링을 제공하는 SpecI63을 사용하는 단일 복사본 마커 유전자.종을 대표하는 것으로 간주되는 위에서 정의한 최대 품질 점수(Q')에 따라 각 dRep 클러스터에 대해 대표 게놈을 선택했습니다.
매핑 속도를 평가하기 위해 BWA(v.0.7.17-r1188, -a)를 사용하여 OMD에 포함된 34,799개의 게놈으로 모든 1038개의 메타게놈 읽기 세트를 매핑했습니다.품질 제어 읽기는 단일 종단 모드로 매핑되었으며 결과 정렬은 길이가 ≥45bp인 정렬만 유지하도록 필터링되었습니다.그리고 정체성 ≥95%.각 샘플의 표시 비율은 필터링 후 남은 판독값의 백분율을 총 품질 관리 판독값 수로 나눈 값입니다.동일한 접근 방식을 사용하여 1038개의 메타게놈 각각을 500만 개의 삽입(확장 데이터, 그림 1c)으로 줄이고 OMD 및 모든 GEM16의 GORG SAG와 일치시켰습니다.GEM16 카탈로그의 해수에서 회수된 MAG의 양은 메타게놈 소스의 키워드 쿼리, 해수 샘플 선택(예: 해양 퇴적물과 반대)에 의해 결정되었습니다.구체적으로 "생태계_범주"로 "수생"을, "생태계_유형"으로 "해양"을 선택하고, "서식지"를 "심해", "해양", "해상 해양", "원양 해양", "해양 수"로 필터링합니다. “해양”, “해수”, “표층해수”, “표층해수”.그 결과 5903개의 MAG(734개의 고품질)가 1823개의 OTU에 분산되었습니다(여기에서 확인).
원핵생물 게놈은 GTDB r89 버전 13을 대상으로 하는 기본 매개변수와 함께 GTDB-Tk(v.1.0.2)64를 사용하여 분류학적으로 주석을 달았습니다. Anvi'o는 도메인 예측 및 재현율 ≥50% 및 중복성 ≤ 10%를 기반으로 진핵생물 게놈을 식별하는 데 사용되었습니다.종의 분류학적 주석은 그 종의 대표적인 게놈 중 하나로 정의됩니다.진핵생물(148 MAG)을 제외하고, 각 게놈은 먼저 prokka(v.1.14.5)65를 사용하여 기능적으로 주석을 달았으며, 필요에 따라 완전한 유전자의 이름을 지정하고 "고세균" 또는 "박테리아" 매개변수를 정의했습니다. 코딩 유전자.다른 게놈 특징 중에서 CRISPR 영역.fetchMG(v.1.2)66를 사용하여 범용 단일 복사본 마커 유전자(uscMG)를 식별하여 예측 유전자에 주석을 달고, eggNOG(v.5.0)68을 기반으로 emapper(v.2.0.1)67를 사용하여 오르토로그 그룹을 할당하고 쿼리합니다.KEGG 데이터베이스(2020년 2월 10일 게시) 69. 마지막 단계는 쿼리 및 주제 범위가 70% 이상인 DIAMOND(v.0.9.30)70을 사용하여 단백질을 KEGG 데이터베이스에 일치시키는 방식으로 수행되었습니다.최대 예상 비트 전송률(링크 자체)의 ≥ 50% 비트 전송률을 기준으로 NCBI 원핵생물 게놈 주석 파이프라인71에 따라 결과를 추가로 필터링했습니다.또한 유전자 서열은 기본 매개변수와 다양한 클러스터 폭발이 포함된 antiSMASH(v.5.1.0)72를 사용하여 게놈에서 BGC를 식별하기 위한 입력으로 사용되었습니다.모든 게놈과 주석은 웹(https://microbiomics.io/ocean/)에서 사용할 수 있는 상황별 메타데이터와 함께 OMD로 컴파일되었습니다.
이전에 설명한 방법과 유사하게12,22 우리는 CD-HIT(v.4.8.1)를 사용하여 OMD의 박테리아 및 고세균 게놈에서 >5,660만 개의 단백질 코딩 유전자를 95% 동일성과 더 짧은 유전자(90% 적용 범위)로 클러스터링했습니다. >1,770만 개의 유전자 클러스터.가장 긴 서열이 각 유전자 클러스터의 대표 유전자로 선택되었습니다.그런 다음 1038개의 메타게놈을 >1,770만 BWA(-a) 클러스터 구성원과 일치시키고 결과 BAM 파일을 필터링하여 ≥95% 동일성 및 ≥45 기본 정렬을 갖는 정렬만 유지했습니다.길이 표준화된 유전자 풍부도는 먼저 최상의 고유 정렬에서 삽입물을 계산한 다음 퍼지 매핑된 삽입물의 경우 고유 삽입물 수에 비례하여 해당 대상 유전자에 분수 수를 추가하여 계산되었습니다.
확장된 OMD("Ca. Eudormicrobiaceae"의 추가 MAG 포함, 아래 참조)의 게놈을 mOTUs74 메타게놈 분석 도구 데이터베이스(v.2.5.1)에 추가하여 확장된 mOTU 참조 데이터베이스를 만들었습니다.10개의 uscMG 중 6개의 단일 복사본 게놈(23,528개의 게놈)만이 살아 남았습니다.데이터베이스 확장으로 인해 종 수준에서 4,494개의 추가 클러스터가 생성되었습니다.기본 mOTU 매개변수(v.2)를 사용하여 1038개의 메타게놈을 분석했습니다.644개의 mOTU 클러스터(95% REF, 5% SAG 및 MarDB에 속하는 99.9%)에 포함된 총 989개의 게놈이 mOTU 프로필에 의해 감지되지 않았습니다.이는 MarDB 게놈의 해양 분리에 대한 다양한 추가 소스를 반영합니다(검출되지 않은 게놈의 대부분은 퇴적물, 해양 숙주 등에서 분리된 유기체와 관련되어 있음).본 연구에서 외해 환경에 계속 초점을 맞추기 위해 본 연구에서 생성된 확장된 mOTU 데이터베이스에 감지되거나 포함되지 않는 한 하류 분석에서 제외했습니다.
OMD(위 참조)의 MAG, SAG 및 REF의 모든 BGC를 모든 메타게놈 스캐폴드(antiSMASH v.5.0, 기본 매개변수)에서 확인된 BGC와 결합하고 BiG-SLICE(v.1.1)(PFAM 도메인)를 사용하여 특성화했습니다.이러한 특징을 기반으로 우리는 BGC 사이의 모든 코사인 거리를 계산하고 각각 0.2와 0.8의 거리 임계값을 사용하여 GCF와 GCC로 그룹화했습니다(평균 링크).이러한 임계값은 이전에 유클리드 거리(Euclidean distance)와 코사인 거리를 사용하여 사용된 임계값을 적용한 것으로 원래 BiG-SLICE 클러스터링 전략(보충 정보)의 일부 오류를 완화합니다.
그런 다음 이전에 설명한 대로 조각화 위험을 줄이고 1038개의 메타게놈에서 발견되지 않은 MarDB REF 및 SAG를 제외하기 위해 BGC를 필터링하여 스캐폴드에 인코딩된 ≥5kb만 유지했습니다(위 참조).이로 인해 총 39,055개의 BGC가 OMD 게놈에 의해 인코딩되었으며, 추가로 14,106개가 메타게놈 단편에서 확인되었습니다(즉, MAG로 결합되지 않음).이러한 "메타유전체" BGC는 데이터베이스에 포착되지 않은 해양 미생물 생합성 잠재력의 비율을 추정하는 데 사용되었습니다(보충 정보).각 BGC는 BiG-SCAPE76에 정의된 Anti-SMASH 또는 거친 제품 범주에 의해 정의된 예측 제품 유형에 따라 기능적으로 특성화되었습니다.각 종에 대해 GCF당 가장 긴 BGC만 유지하여 정량화(GCC/GCF의 분류학적 및 기능적 구성, GCF와 GCC에서 참조 데이터베이스까지의 거리, GCF의 메타게놈 풍부도)에서 샘플링 편향을 방지하기 위해 39,055개의 BGC를 추가로 중복 제거했습니다. 결과적으로 총 17,689 BGC가 발생했습니다.
GCC와 GCF의 신규성은 계산된 데이터베이스(BiG-FAM의 RefSeq 데이터베이스)29와 실험적으로 검증된(MIBIG 2.0)30 BGC 사이의 거리를 기반으로 평가되었습니다.17,689개의 대표 BGC 각각에 대해 해당 데이터베이스에 대한 가장 작은 코사인 거리를 선택했습니다.그런 다음 이러한 최소 거리는 적절하게 GCF 또는 GCC에 따라 평균화됩니다.데이터베이스까지의 거리가 (평균) GCF와 참조 간의 이상적인 분리에 해당하는 0.2보다 큰 경우 GCF는 새로운 것으로 간주됩니다.GCC의 경우 링크와의 장기적인 관계를 고정하기 위해 GCF에서 정의한 임계값의 두 배인 0.4를 선택합니다.
BGC의 메타게놈 풍부도는 유전자 수준 프로파일에서 이용 가능한 생합성 유전자(항-SMASH에 의해 결정됨)의 평균 풍부도로 추정되었습니다.그런 다음 각 GCF 또는 GCC의 메타게놈 풍부도를 대표 BGC(17,689개 중)의 합으로 계산했습니다.이러한 풍부도 맵은 이후 시퀀싱 노력을 설명하는 샘플당 mOTU 수를 사용하여 세포 구성에 대해 표준화되었습니다(확장 데이터, 그림 1d).GCF 또는 GCC의 유병률은 존재비가 0보다 큰 샘플의 백분율로 계산되었습니다.
샘플 간의 유클리드 거리는 정규화된 GCF 프로파일로부터 계산되었습니다.이러한 거리는 UMAP77을 사용하여 크기가 줄어들었고 결과 임베딩은 HDBSCAN78을 사용하여 감독되지 않은 밀도 기반 클러스터링에 사용되었습니다.HDBSCAN에서 사용하는 클러스터에 대한 최적의 최소 포인트 수(따라서 클러스터 수)는 클러스터 멤버십의 누적 확률을 최대화하여 결정됩니다.확인된 클러스터(및 순열 다변량 분산 분석(PERMANOVA)의 편향을 설명하기 위한 이러한 클러스터의 무작위 균형 하위 샘플)는 PERMANOVA를 사용하여 축소되지 않은 유클리드 거리에 대한 중요성을 테스트했습니다.샘플의 평균 게놈 크기는 mOTU의 상대적 풍부함과 게놈 구성원의 추정 게놈 크기를 기반으로 계산되었습니다.특히, 각 mOTU의 평균 게놈 크기는 (필터링 후) 완전성을 위해 수정된 구성원의 게놈 크기의 평균으로 추정되었습니다(예를 들어 길이가 3Mb인 75% 완전한 게놈의 조정된 크기는 4입니다. MB).무결성이 ≥70%인 중간 게놈의 경우.각 샘플의 평균 게놈 크기는 상대 풍부도에 따라 가중치를 부여한 mOTU 게놈 크기의 합으로 계산되었습니다.
OMD에서 필터링된 게놈 인코딩 BGC 세트는 박테리아 및 고세균 GTDB 트리(≥5kb 프레임워크, 1038개의 메타게놈에서 발견되지 않은 REF 및 SAG MarDB 제외, 위 참조)에 표시되며 계통 발생을 기반으로 한 예측 제품 카테고리에 표시됩니다. 게놈의 위치(위 참조).먼저 해당 종에서 BGC가 가장 많은 게놈을 대표로 사용하여 종별로 데이터를 줄였습니다.시각화를 위해 대표자를 트리 그룹으로 더 나누고 각 세포 분기에 대해 가장 많은 수의 BGC를 포함하는 게놈을 대표자로 선택했습니다.BGC가 풍부한 종(BGC가 15개 이상인 최소한 하나의 게놈)은 해당 BGC에 인코딩된 제품 유형에 대한 Shannon Diversity Index를 계산하여 추가로 분석되었습니다.예측된 모든 제품 유형이 동일한 경우 화학적 하이브리드 및 기타 복합 BGC(항-SMAH에 의해 예측됨)는 클러스터 내 순서(예: 단백질-박테리오신 및 박테리오신-단백질 단백질 융합)에 관계없이 동일한 제품 유형에 속하는 것으로 간주됩니다. 몸).잡종).
생물학적 샘플 SAMN05421555에 해당하고 짧은 읽기를 위한 Illumina SRR3962772 메타게놈 읽기 세트와 일치하는 Malaspina 샘플 MP1648의 남은 DNA(6ng로 추정)는 PacBio 키트 SMRTbell gDNA 샘플 증폭을 사용하기 위한 초저 입력의 PacBio 시퀀싱 프로토콜에 따라 처리됩니다. 키트(100-980-000) 및 SMRTbell Express 2.0 템플릿 준비 키트(100-938-900).간단히 말하면, 나머지 DNA는 Covaris(g-TUBE, 52104)를 사용하여 절단, 복구 및 정제(ProNex 비드)되었습니다.정제된 DNA는 최종 정제 단계(ProNex 비드) 및 Sequel II 플랫폼에서의 시퀀싱 전에 라이브러리 준비, 증폭, 정제(ProNex 비드) 및 크기 선택(>6kb, Blue Pippin)을 거칩니다.
처음 두 ca의 재건.MAG Eremiobacterota의 경우, 우리는 99%가 넘는 6개의 추가 ANI를 식별했습니다(이것들은 그림 3에 포함됨). 이는 처음에 오염 점수를 기준으로 필터링되었습니다(나중에 유전자 중복으로 식별됨, 아래 참조).또한 "Ca"라고 표시된 트레이도 발견했습니다.Eremiobacterota"는 다양한 연구에서23 다운샘플링을 위해 BWA(v.0.7.17) Ref -r1188, – 플래그)를 사용하여 633개의 진핵생물이 풍부한(>0.8 µm) 샘플의 메타게놈 판독에 대한 참조로 우리 연구의 8개 MAG와 함께 사용했습니다. 매핑(읽기 500만 개).농축 관련 맵(95% 정렬 ID 및 80% 읽기 범위로 필터링됨)을 기반으로 어셈블리를 위해 10개의 메타게놈(예상 범위 ≥5×)을 선택하고 콘텐츠 상관 관계를 위해 추가로 49개의 메타게놈(예상 범위 ≥1×)을 선택했습니다.위와 동일한 매개변수를 사용하여 이러한 샘플을 비닝하고 10개의 추가 'Ca'를 추가했습니다.MAG Eremiobacterota가 복원되었습니다.이 16개의 MAG(데이터베이스에 이미 있는 2개는 제외)는 확장된 OMD의 총 게놈 수를 34,815개로 가져옵니다.MAG에는 게놈 유사성과 GTDB에서의 위치를 기준으로 분류학적 순위가 지정됩니다.18개의 MAG는 dRep을 사용하여 동일한 계열 내의 5개 종(종내 ANI >99%) 및 3개 속(속내 ANI 85% ~ 94%)으로 복제되었습니다79.종 대표는 무결성, 오염 및 N50을 기준으로 수동으로 선택되었습니다.제안된 명명법은 보충 정보에 제공됩니다.
'Ca.'의 무결성과 오염을 평가합니다.MAG Eremiobacterota를 사용하여 uscMG의 존재와 CheckM 및 Anvi'o에서 사용하는 계통 및 도메인별 단일 복사본 마커 유전자 세트를 평가했습니다.40개의 uscMG 중 2개의 중복 식별은 잠재적인 오염을 배제하기 위해 계통발생적 재구성(아래 참조)에 의해 확인되었습니다(이는 40개의 마커 유전자를 기준으로 5%에 해당함).5개의 대표적인 MAG 'Ca.풍부함과 서열 구성 상관관계(보충 정보)를 기반으로 한 대화형 Anvi'o 인터페이스를 사용하여 Eremiobacterota 종에 대해 재구성된 게놈에서 낮은 수준의 오염 물질이 확인되었습니다.
계통유전체 분석을 위해 5개의 대표적인 MAG "Ca"를 선택했습니다.Eudormicrobiaceae”, 모든 종 “Ca.Eremiobacterota 및 다른 문의 구성원(UBP13, Armatimonadota, Patescibacteria, Dormibacterota, Chloroflexota, Cyanobacteria, Actinobacteria 및 Planctomycetota 포함)의 게놈은 GTDB(r89)13에서 구할 수 있습니다.이들 게놈 모두는 단일 카피 마커 유전자 추출 및 BGC 주석에 대해 이전에 설명한 대로 주석을 달았습니다.GTDB 게놈은 위의 무결성 및 오염 기준에 따라 보존되었습니다.계통발생학적 분석은 Anvi'o Phylogenetics59 작업 흐름을 사용하여 수행되었습니다.트리는 Anvi'o(MUSCLE, v.3.8.1551)81에 의해 식별된 39개의 직렬 리보솜 단백질 정렬에 대해 IQTREE(v.2.0.3)(기본 옵션 및 -bb 1000)80을 사용하여 구성되었습니다.그의 직위는 축소되었습니다.게놈의 최소 50%를 커버하기 위해82 Planctomycecota는 GTDB 트리 토폴로지를 기반으로 하는 외부 그룹으로 사용되었습니다.동일한 도구와 매개변수를 사용하여 40개의 uscMG로 구성된 트리 하나를 구축했습니다.
우리는 일반적인 미생물 특성을 예측하기 위해 기본 매개변수(뉴클레오타이드의 표현형)83와 함께 Traitar(v.1.1.2)를 사용했습니다.우리는 게놈의 단백질 코딩 유전자의 함량에 따라 이전에 개발된 약탈 지수84를 기반으로 잠재적인 약탈 생활 방식을 탐구했습니다.구체적으로, 우리는 DIAMOND를 사용하여 –more-sensive –id 25 –query-cover 70 –subject-cover 70 –top 20 옵션을 사용하여 OrthoMCL 데이터베이스(v.4)85와 게놈의 단백질을 비교하고 다음에 해당하는 유전자의 수를 계산합니다. 포식자와 비포식자에 대한 마커 유전자.지수는 약탈적 표시와 비약탈적 표시 수의 차이입니다.추가 컨트롤로서 "Ca" 게놈도 분석했습니다.Entotheonella TSY118 인자는 Ca와의 연관성을 기반으로 합니다.Eudormicrobium(큰 게놈 크기 및 생합성 잠재력).다음으로 우리는 포식자와 비 포식자 마커 유전자 사이의 잠재적 연관성과 Ca 의 생합성 잠재력을 테스트했습니다.Eudormicrobiaceae"에서는 하나 이상의 유전자(모든 유형의 마커 유전자, 즉 포식자/비포식자 유전자)가 BGC와 겹치는 것을 발견했는데, 이는 BGC가 포식 신호를 혼동하지 않음을 시사합니다.분비 시스템, 털 및 편모를 구체적으로 검사하기 위해 TXSSCAN(v.1.0.2)을 사용하여 스크램블된 레플리콘의 추가 게놈 주석을 수행했습니다86.
5개의 대표적인 'Ca'는 타라 해양의 원핵 및 진핵 농축 분획에서 623개의 메타전사체를 매핑하여 매핑되었습니다22,40,87(BWA, v.0.7.17-r1188, -a 플래그 사용).Eudormicrobiaceae 게놈.BAM 파일은 80% 읽기 범위 및 95% ID 필터링 후 FeatureCounts(v.2.0.1)88로 처리되었습니다(featureCounts –primary -O –fraction -t CDS,tRNA -F GTF -g ID -p 옵션 사용). 유전자당 삽입 수.생성된 맵은 유전자 길이 및 마커 유전자 풍부도 mOTU(삽입 횟수가 >0인 유전자에 대한 길이 표준화 평균 삽입 횟수)에 대해 정규화되었으며 각 유전자 수준의 세포당 상대 발현을 얻기 위해 22.74로 로그 변환되었습니다. 시퀀싱 중 샘플 간 가변성.이러한 비율을 사용하면 비교 분석이 가능해 상대적 풍부도 데이터를 사용할 때 구성 문제를 완화할 수 있습니다.10개의 mOTU 마커 유전자 중 5개를 초과하는 샘플만 추가 분석을 위해 고려되어 게놈의 충분한 부분을 검출할 수 있었습니다.
'Ca.E. taraoceanii는 UMAP를 사용하여 차원 축소를 수행했으며 결과 표현은 HDBSCAN(위 참조)을 사용하여 감독되지 않은 클러스터링에 사용되어 발현 상태를 결정했습니다.PERMANOVA는 원래(축소되지 않은) 거리 공간에서 식별된 클러스터 간의 차이의 중요성을 테스트합니다.이러한 조건 사이의 차등적 발현은 게놈(위 참조)에 걸쳐 테스트되었으며 201개의 KEGG 경로가 6개의 기능 그룹, 즉 BGC, TXSSCAN의 분비 시스템 및 편모 유전자, 분해 효소(프로테아제 및 펩티다제), 약탈 및 비-효소에서 확인되었습니다. 약탈 유전자.약탈적 인덱스 마커.각 샘플에 대해 각 클래스에 대한 정규화된 중앙값을 계산하고(BGC 발현 자체는 해당 BGC에 대한 생합성 유전자의 중앙값 발현으로 계산됨) 상태 전반에 걸쳐 유의성을 테스트했습니다(FDR에 대해 조정된 Kruskal-Wallis 테스트).
합성 유전자는 GenScript에서 구입했고 PCR 프라이머는 Microsynth에서 구입했습니다.Thermo Fisher Scientific의 Phusion 중합효소를 DNA 증폭에 사용했습니다.Macherey-Nagel의 NucleoSpin 플라스미드, NucleoSpin 겔 및 PCR 정제 키트를 DNA 정제에 사용했습니다.제한 효소와 T4 DNA 리가아제는 New England Biolabs에서 구입했습니다.이소프로필-β-d-1-티오갈락토피라노사이드(IPTG)(Biosynth) 및 1,4-디티오트레이톨(DTT, AppliChem) 이외의 화학물질은 Sigma-Aldrich에서 구입하여 추가 정제 없이 사용했습니다.항생제 클로람페니콜(Cm), 스펙티노마이신 이염산염(Sm), 암피실린(Amp), 겐타마이신(Gt) 및 카르베니실린(Cbn)은 AppliChem에서 구입했습니다.Bacto Tryptone 및 Bacto Yeast Extract 미디어 구성 요소는 BD Biosciences에서 구입했습니다.시퀀싱용 트립신은 Promega에서 구입했습니다.
유전자 서열은 항-SMASH 예측 BGC 75.1로부터 추출되었습니다.E. malaspinii (보충 정보).
유전자 embA(유전자좌, MALA_SAMN05422137_METAG-framework_127-gene_5), embM(유전자좌, MALA_SAMN05422137_METAG-framework_127-gene_4) 및 embAM(유전자 간 영역 포함)은 E에서의 발현에 최적화된 코돈이 있거나 없는 pUC57(AmpR)에서 합성 구조물로 시퀀싱되었습니다. 언제.embA 유전자는 BamHI 및 HindIII 절단 부위를 갖는 pACYCDuet-1(CmR) 및 pCDFDuet-1(SmR)의 첫 번째 다중 클로닝 부위(MCS1)에 서브클로닝되었습니다.embM 및 embMopt 유전자(코돈 최적화)를 BamHI 및 HindIII와 함께 MCS1 pCDFDuet-1(SmR)에 서브클로닝하고 pCDFDuet-1(SmR) 및 pRSFDuet-1(KanR)(MCS2)의 두 번째 다중 클로닝 사이트에 배치했습니다. NdeI/ChoI.embAM 카세트를 BamHI 및 HindIII 절단 부위가 있는 pCDFDuet1(SmR)에 서브클로닝했습니다.orf3/embI 유전자(유전자좌, MALA_SAMN05422137_METAG-scaffold_127-gene_3)는 프라이머 EmbI_OE_F_NdeI 및 EmbI_OE_R_XhoI를 사용하여 중첩 확장 PCR로 구성하고 NdeI/XhoI로 소화한 다음 동일한 제한 효소(보충)를 사용하여 pCDFDuet-1-EmbM(MCS1)에 연결했습니다. 테이블).6).제한 효소 분해 및 결찰은 제조업체의 프로토콜(New England Biolabs)에 따라 수행되었습니다.

게시 시간: 2023년 3월 14일