這裡是放實驗室文章的地方,跟論文不同之處在於文章以輕鬆的角度寫成,使想要跨進這個領域的人容易理解。
科技英文寫作
Author: Chien-Yu Chen 陳倩瑜
如何學習生物資訊?
我想了很久,覺得這是一個購物車選購產品的問題,學習者得先清楚自己要什麼,才容易預設學習內容。而各單元之間存在一些相依性,在這篇文章中,我用 c4Lab 的學習清單為範例,說明各學習單元之間的相依性。
Author: Chien-Yu Chen 陳倩瑜
TaiwanGenomes
c4Lab 和成大電機系張天豪老師團隊合作,將我們 (與陳沛隆醫師與許書睿老師合作) 這些年分析 1,496 個台灣人全基因定序 (Whole Genome Sequencing,簡稱 WGS) 資料的結果,透過網頁介面提供給研究人員查詢 (https://genomes.tw/),歡迎大家使用。
Author: Chien-Yu Chen 陳倩瑜
台灣人工智慧實驗室 之 Polygenic Risk Score (PRS)
多基因風險評分 (Polygenic Risk Score) 在這幾年突然變成一個熱門名詞,但其實它的概念並不新穎,簡單來說,就是把一個人的基因型 (genotype) 當成特徵,每一個 SNP 都是一個變數,使用成千上萬的特徵建立一個線性或非線性的分類或迴歸模型,每一個模型分別用來評估一個人在一生中會得某種疾病的風險,或是預測一些可量化的屬性,例如:身高或體重。
Author: Chien-Yu Chen 陳倩瑜
台灣人工智慧實驗室 之 Deep learning for HLA characterization
人類白血球抗原(英語:human leukocyte antigen,縮寫為HLA),是一組與人類的免疫系統功能密切相關的重要基因群。今天來跟大家介紹我們如何利用深度學習來剖析 HLA-A、HLA-B 與 HLA-C 這三個基因的各種等位基因 (allele) 之差異。
Author: Chien-Yu Chen 陳倩瑜
台灣人工智慧實驗室 之 AutoML for Genomic AI
Taiwan AI Labs 的基因團隊在成立後的第二年釋出了一個 AutoML 的工具 (ezGeno),最近被 Bioinformatics (https://doi.org/10.1093/bioinformatics/btab588)接受,來跟大家介紹一下。
Author: Chien-Yu Chen 陳倩瑜
Nebula Genomics $299 美元的 30x WGS是否是一個值得購買的產品?
在台灣,要取得一個人的 30x WGS,因管道不同,價格從 $600 美元到 $2,000 不等。上述價格只得到定序資料,不含分析報告。Nebula Genomics 不是第一個推出 DTC (direct-to-consumer) WGS 的廠商,但是目前為止能直接賣到台灣的等值商品中最低價的一個(?)。今天來跟大家分享一下 $299 能拿到什麼?
Author: Chien-Yu Chen 陳倩瑜
人工智慧在生物資訊的應用
本演講首先介紹開發 AlphaGo 的 DeepMind 團隊如何運用人工智慧技術預測蛋白質 3D結構,這是一個非常重要且歷史悠久的生物資訊計算問題,這兩年因為這波人工智慧的浪潮推動而有了突破性的發展。此演講中也將分享,個人DNA中的個體變異 (variant) 是否可能影響蛋白質結構,進而影響蛋白質的功能,不正確的 3D 結構將造成疾病,而這些突變所產生的影響都可以使用人工智慧演算法預測評估。不僅如此,癌細胞中的突變,也是醫師進行用藥選擇的重要依據,我們期待未來有越來越多的基因數據累積,人工智慧將有更大的發揮空間,幫助疾病的預防或選擇最合適的治療方案。
Author: Chien-Yu Chen 陳倩瑜
LDTS 之生物資訊專業該如何把關?
最近,一句 “第三類是研發、分析、校正、生物資訊處理人員,這類人員至少要有生科相關科系背景” 引起生物資訊社群的廣泛討論。
完整的原文是這樣
“衛福部次長石崇良在12月16日指出,LDT 操作人員的資格將分為四類:第一類為實驗室的品質主管,資格必須具有醫師或醫檢師的身分;第二類技術操作人員,需要具有醫檢師資格;第三類是研發、分析、校正、生物資訊處理人員,這類人員至少要有生科相關科系背景;第四類則是核發報告人員,必須要具有醫師資格或醫檢師資格。”
這件事突然牽涉到生物資訊處理人員,嚇壞許多人。要理解整個故事,需要先瞭解一下背景。首先,這件事牽涉到兩個法規(指引或辦法):
Author: Chien-Yu Chen 陳倩瑜
Graph-based Read Mapping 介紹
本篇介紹兩種 Graph-genome 的技術
原本的 reference 是 linear genome(e.g GRCh38)。而 graph-genome 就是做成 graph 的樣子(見下圖),最大的優點就是 可以把所有已知的 variants 全部塞進 reference 裡,當然,什麼都不加的話,就是在 linear reference 上操作,所以保底就是不會輸一般的方式。
我們在此就介紹 2019 的這兩篇有關 graph-genome 的 paper:
- Hisat2(Kim et al., 2019)
- Graph Genome Pipeline(Rakocevic et al., 2019)
Author: 林弘曄
Differential Expression Gene (DEG) Analysis 基因差異化表現的分析
接續前一篇的 Quantification,我們有了每個基因的 RNA 的 read count (數量) 或者說 表現量 (abundance) 之後,我們想做的事情是看看不同實驗之間有哪些基因有表現量差異。e.g. 比如說同一個人吃藥前,吃藥後,藉由看表現量差異,我們可以期待看到某些gene 機制被抑制了。
Author: 林弘曄
Read Mapping 概念與演算法
Read mapping 是處理基因資料的第一個環節,本篇會著重在 Seed-Searching, Chaining, Extension 這三個環節,介紹幾個重要的演算法
最後順便講到 bam 檔 跟 IGV
Author: 林弘曄
RNA Quantification, RNA 定量
簡單介紹 RNA-seq 表現量(Abundance) 的基本概念
Abundance,有時叫 expression,就是這個 transcript 被表現了多少,也就是出現的比例,RNA 的 sequences 越多,代表著那個機制越活耀。
這裡會簡介三種計算 read-mapping 用於 quantification 的方式
- Transcriptome Read Mapping
- Genome Read Mapping
- Reference-free Read Mapping
Author: 林弘曄
DADA2: 一個高解析度分析 Microbiota 16S sequences 演算法
我們將介紹在演算法上 DADA2 為何會比其他技術還要好
背景知識: Microbiota 就是微生物菌相,就是有很多不同種不同數量的微生物聚集在一起做事,比如說人體的皮膚上,人體的腸胃道菌。然後也衍伸許多相關的名詞: microbiome, metagenomics。
Author: 林弘曄
簡介單細胞定序 review
本篇來自 2018 年 8 月發的 paper: Single-cell RNA sequencing technologies and bioinformatics pipelines
單細胞定序(Single-cell sequencing) 是一門高解析度(high resolution)的測序技術,相較於 bulk sequencing (傳統方法),沒有把細胞們混在一起,所以我們能從裡面獲取更多資訊,因為即使相似細胞也有不同的表現(異質性 hetergeneous)。
下圖為整個流程,我們會一一介紹。
Author: 林弘曄
基因上位作用(epistasis)介紹與發現
本篇會介紹兩個方向
- 何謂上位作用
- 目前如何偵測上位作用
上位作用(epistasis)
一樣也是顏色問題,拉不拉多(Labrador Retriever)的毛色有三種,B* 表示是黑色,bb 是棕色。然後當另外一個 SNP 是 ee 的時候是黃色,我們就說這個 SNP 對剛剛那個 SNP 有上位作用。
講簡單一點,上位作用就是 A SNP 會影響 B SNP 。