Имеется 2000-2500 построчных списков токенов, каждый список длиной 100- 25,000 строк. В одном списке конкретный токен встречается только 1 раз, но может входить в любое число списков.
Вид списка:
token1
token2
…
tokenN
Нужны следующие возможности:
1. Загрузить списки пачкой и добавлять потом новые
2. Объединить все загруженные списки в один, с фиксацией для каждого токена, в скольких списках он встретился
3. Удалить все токены, которые содержаться в дополнительном контрольном списке (отдельная загрузка).
4. Отображать статистику по распределению частотности токенов в виде:
и т.д., выкинув из статистики значения с частотностью 0 (т.е. если нет токенов с частотностью 10-19, то эту строку не выводить)
5. Раздельно скомпилировать 3 части списка (L и H - числовые значения, которые задаются на странице):
- Число повторов токена X < L
- Число повторов токена L <= X <= H
- Число повторов токена X >...
Видеть полную информацию и оставлять заявки могут только авторизованные пользователи.
Исполнитель по этому заданию выбран.
Заявок нет
Оставлять заявки могут только авторизованные пользователи.
Веб инструмент для слияния списков
Реклама
Веб инструмент для слияния списков
Имеется 2000-2500 построчных списков токенов, каждый список длиной 100- 25,000 строк. В одном списке конкретный токен встречается только 1 раз, но может входить в любое число списков.
Вид списка:
token1
token2
…
tokenN
Нужны следующие возможности:
1. Загрузить списки пачкой и добавлять потом новые
2. Объединить все загруженные списки в один, с фиксацией для каждого токена, в скольких списках он встретился
3. Удалить все токены, которые содержаться в дополнительном контрольном списке (отдельная загрузка).
4. Отображать статистику по распределению частотности токенов в виде:
Всего слов – n0
1 – n1
2 – n2
…
9 – n9
10-19 – n10
20-29 – n20
…
и т.д., выкинув из статистики значения с частотностью 0 (т.е. если нет токенов с частотностью 10-19, то эту строку не выводить)
5. Раздельно скомпилировать 3 части списка (L и H - числовые значения, которые задаются на странице):
- Число повторов токена X < L
- Число повторов токена L <= X <= H
- Число повторов токена X >...