Skip to content

marcopibbes/DM_lab

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Analisi di Embedding per il Clustering di Testi

Questo progetto confronta l'efficacia di diversi modelli di embedding e algoritmi di clustering per il raggruppamento non supervisionato di testi, basandosi sul paper "Beyond words: a comparative analysis of LLM embeddings for effective clustering".

🚀 Scoperta Fondamentale

La qualità e la specializzazione del modello di embedding sono i fattori più critici per il successo del clustering.

La combinazione del modello specializzato all-MiniLM-L6-v2 con l'algoritmo classico K-Means++ ha fornito i risultati migliori (ARI ≈ 0.90), dimostrandosi più efficace di modelli generalisti più grandi (BLOOMZ-3B) e di metodi di deep clustering più complessi (CAEclust, Deep K-Means).

🛠️ Come Eseguire

1. Setup dell'Ambiente

# Clona il repository
git clone https://github.com/marcopibbes/DM_lab
cd DM_lab

# Crea e attiva un ambiente conda
conda create -n clustering_env python=3.10 -y
conda activate clustering_env

2. Installazione delle dipendenze

pip install pandas scikit-learn sentence-transformers torch tqdm accelerate scipy

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published