當(dāng)前位置：首頁(yè) > 技術(shù)文章 > 顯微課堂 | UMAP、t-SNE與PacMAP降維大對(duì)決

顯微課堂 | UMAP、t-SNE與PacMAP降維大對(duì)決

更新時(shí)間：2024-09-19 點(diǎn)擊次數(shù)：540

從高維到低維：

Aivia帶你輕松駕馭3種數(shù)據(jù)降維技術(shù)

數(shù)據(jù)降維大揭秘：

UMAP、t-SNE與PacMAP的zhongji對(duì)決

降維將數(shù)據(jù)從高維空間轉(zhuǎn)換到低維空間，以簡(jiǎn)化數(shù)據(jù)解釋。

在Aivia中的應(yīng)用：通過(guò)選擇不同的測(cè)量方法，幫助用戶(hù)為不同類(lèi)別實(shí)現(xiàn)清晰的決策邊界，這些測(cè)量方法可以用于不同的聚類(lèi)技術(shù)。

Aivia中的三種降維方法：

UMAP – 比t-SNE更快

PacMAP – 比UMAP更快，并且更好地保留高維數(shù)據(jù)的局部和全局結(jié)構(gòu)

t-SNE – 保留局部結(jié)構(gòu)

關(guān)于參數(shù)和不同使用示例的詳細(xì)技術(shù)說(shuō)明，請(qǐng)參見(jiàn)Aivia Wiki。

UMAP

UMAP（統(tǒng)yiliu形近似與投影）是一種現(xiàn)代降維技術(shù)，主要用于高維數(shù)據(jù)集的可視化。它的用途與t-SNE相似，但通常速度更快且能夠處理更大的數(shù)據(jù)集。UMAP基于保持?jǐn)?shù)據(jù)的拓?fù)浣Y(jié)構(gòu)的原則，通過(guò)利用黎曼幾何和代數(shù)拓?fù)鋪?lái)近似數(shù)據(jù)的底層流形。通過(guò)捕捉局部和全局結(jié)構(gòu)，它提供了數(shù)據(jù)簇和關(guān)系的全面視圖。

UMAP的兩個(gè)主要步驟

步驟1

創(chuàng)建一個(gè)高維圖。這是一個(gè)加權(quán)圖，其中一個(gè)點(diǎn)與其最近的鄰居相連。

步驟2

創(chuàng)建一個(gè)盡可能類(lèi)似于高維圖的低維或二維圖，生成UMAP 1和UMAP 2參數(shù)。

深入了解UMAP理論

UMAP的核心工作原理與t-SNE非常相似——兩者都使用圖布局算法在低維空間中排列數(shù)據(jù)。UMAP構(gòu)建數(shù)據(jù)的高維圖表示，然后優(yōu)化一個(gè)低維圖，使其在結(jié)構(gòu)上盡可能相似。UMAP通過(guò)基于每個(gè)點(diǎn)的第n個(gè)最近鄰的距離來(lái)局部選擇半徑，從而確保局部結(jié)構(gòu)與全局結(jié)構(gòu)的平衡。

如何（誤）解讀UMAP

雖然UMAP相較于t-SNE有許多優(yōu)勢(shì)，但它絕不是萬(wàn)能的——解讀和理解其結(jié)果需要一定的謹(jǐn)慎。需要注意以下幾點(diǎn)：

超參數(shù)非常重要：選擇合適的值取決于數(shù)據(jù)和你的目標(biāo)。

UMAP圖中的簇大小毫無(wú)意義：簇之間的相對(duì)大小基本上沒(méi)有意義。

簇之間的距離可能毫無(wú)意義：盡管UMAP在全局位置上更好地保留了簇的位置，但它們之間的距離并不具有意義。

隨機(jī)噪聲不總是看起來(lái)隨機(jī)：特別是在n_neighbors值較低時(shí)，可能會(huì)觀察到虛假的聚類(lèi)。

你可能需要不止一張圖：由于UMAP算法是隨機(jī)的，不同的運(yùn)行可能產(chǎn)生不同的結(jié)果。

優(yōu)點(diǎn)

保留局部和全局結(jié)構(gòu)：UMAP捕捉數(shù)據(jù)中的非線性關(guān)系，適用于處理復(fù)雜數(shù)據(jù)集。

速度和可擴(kuò)展性：UMAP在計(jì)算上更高效，適合處理大數(shù)據(jù)集。

參數(shù)調(diào)優(yōu)：UMAP提供了參數(shù)調(diào)優(yōu)的靈活性，允許用戶(hù)在保留局部和全局結(jié)構(gòu)之間進(jìn)行權(quán)衡。

缺點(diǎn)

可解釋性：UMAP嵌入可能不如一些其他方法（如PCA）那樣具有可解釋性。

對(duì)超參數(shù)的敏感性：UMAP的性能可能對(duì)超參數(shù)選擇敏感，找到合適的參數(shù)可能需要進(jìn)行實(shí)驗(yàn)。

在高維空間中的局限性：UMAP在非常高維的空間中可能表現(xiàn)不佳。

計(jì)算資源需求：對(duì)于極其龐大的數(shù)據(jù)集,UMAP仍然可能需要大量的計(jì)算資源。

圖2:對(duì)Fashion MNIST數(shù)據(jù)集應(yīng)用降維。10類(lèi)服裝物品的28x28圖像被編碼為784維向量，然后通過(guò)UMATt-SNE投影到3維。

t-SNE（t-隨機(jī)鄰域嵌入）

t-SNE（t-隨機(jī)鄰域嵌入）是一種流行的降維方法，用于高維數(shù)據(jù)的可視化。t-SNE通過(guò)保留數(shù)據(jù)的局部結(jié)構(gòu)來(lái)工作，通常會(huì)導(dǎo)致簇的清晰分離。與專(zhuān)注于zuida化方差的PCA（主成分分析）不同，t-SNE強(qiáng)調(diào)在降維空間中保持相似的距離接近，不相似的距離遠(yuǎn)離。然而，由于其對(duì)局部結(jié)構(gòu)的強(qiáng)調(diào)，它有時(shí)會(huì)夸大簇，并不總是能保留數(shù)據(jù)的全局結(jié)構(gòu)。此方法計(jì)算量大，尤其是對(duì)于大型數(shù)據(jù)集。

優(yōu)點(diǎn)

局部結(jié)構(gòu)的保留

t-SNE在保留數(shù)據(jù)的局部結(jié)構(gòu)方面表現(xiàn)出色，使其在識(shí)別相似數(shù)據(jù)點(diǎn)的聚類(lèi)時(shí)非常有效。

靈活性

與某些線性方法（如PCA）不同，它可以有效處理非線性數(shù)據(jù)結(jié)構(gòu)。

可視化

特別適用于將高維數(shù)據(jù)可視化為二維或三維。

缺點(diǎn)

計(jì)算強(qiáng)度

該算法在處理大型數(shù)據(jù)集時(shí)可能會(huì)非常耗費(fèi)計(jì)算資源。

隨機(jī)性

由于算法的隨機(jī)性，最終的可視化結(jié)果在不同運(yùn)行之間可能會(huì)有所不同，這可能導(dǎo)致不一致性。

超參數(shù)敏感性

結(jié)果可能對(duì)困惑度（perplexity）的選擇非常敏感。

可解釋性

t-SNE圖中聚類(lèi)之間的距離并不總是具有有意義的解釋。該算法優(yōu)先保留局部結(jié)構(gòu)而非全局結(jié)構(gòu)。t-SNE可視化中的數(shù)據(jù)點(diǎn)密度不一定代表原始高維空間中的密度。

僅適用于可視性

雖然在可視化方面表現(xiàn)出色，但t-SNE嵌入可能并不總是適合作為其他機(jī)器學(xué)習(xí)算法的輸入。

PaCMAP（成對(duì)控制流形近似）

PaCMAP（成對(duì)控制流形近似）是一種降維技術(shù)，作為t-SNE和UMAP等方法的替代方案被引入。該方法旨在平衡數(shù)據(jù)中局部和全局結(jié)構(gòu)的保留，解決其他技術(shù)中觀察到的一些挑戰(zhàn)。它引入了成對(duì)吸引和排斥項(xiàng)，以在流形學(xué)習(xí)過(guò)程中控制平衡，并以其速度和處理大數(shù)據(jù)集的能力而著稱(chēng)，同時(shí)能夠生成可解釋的嵌入。

優(yōu)點(diǎn)

混合方法

PacMAP結(jié)合了局部和全局結(jié)構(gòu)保留的優(yōu)點(diǎn)，旨在從t-SNE（局部）和PCA（全局）等方法中捕捉兩者的最佳特性。PacMAP旨在結(jié)合t-SNE（局部結(jié)構(gòu)保留）和UMAP/PCA（全局結(jié)構(gòu)保留）的優(yōu)勢(shì)。

局部和全局結(jié)構(gòu)保留的靈活性

該方法可以根據(jù)數(shù)據(jù)的性質(zhì)和用戶(hù)的目標(biāo)，調(diào)整以強(qiáng)調(diào)局部或全局結(jié)構(gòu)。

減少擁擠問(wèn)題

該方法旨在緩解t-SNE中常見(jiàn)的“擁擠問(wèn)題"，這種問(wèn)題會(huì)導(dǎo)致簇被推得過(guò)遠(yuǎn)。

減少隨機(jī)性

與t-SNE的隨機(jī)性相比，PacMAP在多次運(yùn)行中提供了更一致的結(jié)果。雖然有參數(shù)需要調(diào)整，但該方法設(shè)計(jì)得比t-SNE對(duì)參數(shù)變化更具魯棒性。

缺點(diǎn)

復(fù)雜性和熟悉度

作為一種混合方法，PacMAP可能對(duì)熟悉簡(jiǎn)單、單一目標(biāo)方法的用戶(hù)來(lái)說(shuō)更難理解。一些數(shù)據(jù)分析社區(qū)可能對(duì)PacMAP不太熟悉，導(dǎo)致在采用或解釋時(shí)可能面臨挑戰(zhàn)。由于其較新，可能沒(méi)有像t-SNE或PCA等長(zhǎng)期存在的方法在各種應(yīng)用中經(jīng)過(guò)廣泛驗(yàn)證。

參數(shù)敏感性

盡管設(shè)計(jì)得對(duì)參數(shù)變化更具魯棒性，但結(jié)果仍可能因參數(shù)選擇而異。根據(jù)數(shù)據(jù)的不同，如果調(diào)整不當(dāng)，可能會(huì)有過(guò)度強(qiáng)調(diào)局部或全局結(jié)構(gòu)的風(fēng)險(xiǎn)。

可解釋性

與其他降維技術(shù)一樣，解釋降維后的維度仍然可能是不直觀的。

Aivia賦能數(shù)據(jù)驅(qū)動(dòng)的空間洞察

降維工具大解析

微信圖片_20240919110833.jpg

參考文獻(xiàn)：

1. Becht E, McInnes L, Healy J, Dutertre CA, Kwok IW, Ng LG, Ginhoux F, Newell EW. Dimensionality reduction for visualizing single-cell data using UMAP. Nature biotechnology. 2019 Jan;37(1):38-44.

2. Wang Y, Huang H, Rudin C, Shaposhnik Y. Understanding how dimension reduction tools work: an empirical approach to deciphering t-SNE, UMAP, TriMAP, and PaCMAP for data visualization. The Journal of Machine Learning Research. 2021 Jan 1;22(1):9129-201.

3. Van der Maaten L, Hinton G. Visualizing data using t-SNE. Journal of machine learning research. 2008 Nov 1;9(11).

4. McInnes L, Healy J, Melville J. Umap: Uniform manifold approximation and projection for dimension reduction. arXiv preprint arXiv:1802.03426. 2018 Feb 9.

上一篇：研究大腦健康的成像類(lèi)器官模型
下一篇：顯微圖庫(kù) | THUNDER技術(shù)圖庫(kù) 第三彈

顯微課堂 | UMAP、t-SNE與PacMAP降維大對(duì)決

顯微課堂 | UMAP、t-SNE與PacMAP降維大對(duì)決