Ubuntu
BLAST+이용해서 16s rRNA ID 하기
킴지미
2024. 12. 9. 17:18
로컬 BLAST 사용하기
로컬 환경에서 blastn을 사용하려면, NCBI BLAST+ 소프트웨어와 16S 데이터베이스를 설치해야 합니다.
1) 필요한 도구 설치
- BLAST+ 설치:
- NCBI BLAST+는 NCBI 다운로드 페이지에서 운영 체제에 맞는 버전을 다운로드하고 설치
- 16S 데이터베이스 준비:
- 직접생성 혹은
- NCBI 데이터베이스를 다운로드:
mkdir $HOME/blast_dbcd $HOME/bast_dbwget ftp://ftp.ncbi.nlm.nih.gov/blast/db/16S_ribosomal_RNA.tar.gztar -xzvf 16S_ribosomal_RNA.tar.gz
2) FASTA 서열 준비
동정 할 16s RNA fasta 파일.
내 경우엔 WGS sequencing 후 assembly된 fasta 파일
3) BLAST 실행
blastn -query my.fasta -db $HOME/blast_db/16S_ribosomal_RNA -out results.txt -outfmt 6
- 옵션 설명:
- -query my.fasta: 동정할 균주의 fasta 파일.
- -out results.txt: 결과를 저장할 파일 이름.
- -outfmt 6: 결과 형식 설정 (표 형식 출력) 번호에 따라 출력물이 다르게 나오고 이것도 세부 설정 가능한데 추후... 덧붙일 예정
4) 결과 해석
- results.txt 파일에는 다음과 내용 순서대로 결과 출력(tab 분리):
query_id / subject_id / %identity / alignment_length / mismatches / gap_opens / q_start / q_end / s_start / s_end / evalue / bit_score
- %identity가 높은 항목(일반적으로 >97% 이상)이 가장 가까운 종을 나타냅니다.
- 3번째 항목을 보면 됨
- 그런데 이 방법으로 했을 땐 NCBI에서 다운받은 dataset 의 이름이 균주로 나오지 않고 등록된 gene number로 표기
- 당장 급해서 결과를 excel에 붙여 넣은 뒤 gene number와 균주 명 추출 파일에서 함수로 ID를 붙였는데, 차차 해결해가면서 게시물 수정할 듯
- Blastn 사용한지 3년이 넘어가니 기억이 가물가물해서 chatGPT한테 사용법을 물어봤는데 생각보다 훌륭한 대답을 가져다 줘서 놀람