Exploiting Token Constraint and Multi-Scale Memory Bank of Contrastive Learning Based Vision Transformer for Unsupervised Person Re-identification

淡江大學機構典藏 > 工學院 > 人工智慧學系 > 學位論文 > Item 987654321/126719

jsp.display-item.identifier=請使用永久網址來引用或連結此文件: https://tkuir.lib.tku.edu.tw/dspace/handle/987654321/126719

题名:	Exploiting Token Constraint and Multi-Scale Memory Bank of Contrastive Learning Based Vision Transformer for Unsupervised Person Re-identification 利用基於對比學習之視覺變換器中的字符約束和多尺度記憶體庫進行無監督行人重識別
作者:	朱政安
关键词:	視覺變換器;偽標籤;無監督行人重識別;原型;對比學習;生成模型;Vision Transformer;Pseudo Labels;Unsupervised Person Re-identification;Prototypes;Contrastive Learning;Generative Model
日期:	2024-07
上传时间:	2025-03-12 14:47:30 (UTC+8)
摘要:	本論文提出了視覺變換器 (ViT)字符約束和多尺度記憶庫（TCMM）方法，以解決現有最先進的無監督行人再識別工作中遇到的區塊雜訊和特徵不一致問題。對比學習的快速發展在無監督行人再識別任務中取得了顯著成功。許多先前優秀的無監督行人再識別方法生成偽標籤、計算分群原型、使用 ViT 提取特徵，最後通過對比學習來訓練模型。偽標籤方法在領域適應和無監督學習問題中已顯示出有希望的結果。然而，ViT 通過首先執行區塊嵌入來處理影像，這不可避免地會引入區塊中的雜訊，甚至可能包括不同的身份實例，從而損害再識別模型的效能。另一方面，現有的偽標籤方法經常丟棄難以分群的離群樣本，這犧牲了離群樣本的潛在價值，導致模型的多樣性和穩健性有限。為了解決這些問題，本論文引入了 ViT 字符約束來限制 ViT 的輸出字符特徵，以減輕區塊雜訊對 ViT 架構造成的損害。此外，提出的多尺度記憶庫通過樣本級和原型級樣本增強了模型對離群樣本的探索，並保持了特徵的一致性。本論文還整合了我們先前提出的生成對抗網路和修補生成模型，提供了額外的正樣本以增強模型的多樣性。本論文提出了一種基於生成對抗網路和修補模型的額外對比正樣本生成和選擇策略，以從另一個角度探討無監督行人再識別任務。實驗結果表明，我們的系統在常見的行人再識別資料集基準上達到了最先進的效能。
显示于类别:	[人工智慧學系] 學位論文

文件中的档案:

档案	描述	大小	格式	浏览次数
index.html		0Kb	HTML	14	检视/开启

在機構典藏中所有的数据项都受到原著作权保护.

TAIR相关文章

数据加载中.....