С помощью технологий Apache Spark/Streaming кластеризуются твиты, можно кластеризовать так же просто документы/новости/etc.
Для того чтобы оценивать проекты, вам нужно войти на сайт