Analisi di Embedding per il Clustering di Testi

Questo progetto confronta l'efficacia di diversi modelli di embedding e algoritmi di clustering per il raggruppamento non supervisionato di testi, basandosi sul paper "Beyond words: a comparative analysis of LLM embeddings for effective clustering".

🚀 Scoperta Fondamentale

La qualità e la specializzazione del modello di embedding sono i fattori più critici per il successo del clustering.

La combinazione del modello specializzato all-MiniLM-L6-v2 con l'algoritmo classico K-Means++ ha fornito i risultati migliori (ARI ≈ 0.90), dimostrandosi più efficace di modelli generalisti più grandi (BLOOMZ-3B) e di metodi di deep clustering più complessi (CAEclust, Deep K-Means).

🛠️ Come Eseguire

1. Setup dell'Ambiente

# Clona il repository
git clone https://github.com/marcopibbes/DM_lab
cd DM_lab

# Crea e attiva un ambiente conda
conda create -n clustering_env python=3.10 -y
conda activate clustering_env

2. Installazione delle dipendenze

pip install pandas scikit-learn sentence-transformers torch tqdm accelerate scipy

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
dataset		dataset
.gitignore		.gitignore
DM_lab.ipynb		DM_lab.ipynb
ida2024_LLM_paper.pdf		ida2024_LLM_paper.pdf
readme.MD		readme.MD
website_classification.csv		website_classification.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Analisi di Embedding per il Clustering di Testi

🚀 Scoperta Fondamentale

🛠️ Come Eseguire

1. Setup dell'Ambiente

2. Installazione delle dipendenze

About

Uh oh!

Releases

Packages

Languages

marcopibbes/DM_lab

Folders and files

Latest commit

History

Repository files navigation

Analisi di Embedding per il Clustering di Testi

🚀 Scoperta Fondamentale

🛠️ Come Eseguire

1. Setup dell'Ambiente

2. Installazione delle dipendenze

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages