Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » Регулярные выражения

Модерирует : ShIvADeSt

 Версия для печати • ПодписатьсяДобавить в закладки
На первую страницук этому сообщениюк последнему сообщению

Открыть новую тему     Написать ответ в эту тему

Jonmey

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
И я удивляюсь почему до сих пор никто из разработчиков программ полнотекстового поиска типа архивариус, search inform, Google desktop search и т.п. не озадачился проблемой фильтрации повторяющихся или уже просмотренных кусков текста. Не файлов, а именно текстовых фрагментов внутри файла.
 
Наиболее вероятных причин четыре
- никому или почти никому это не нужно;
- невозможно удовлетворить хотелки широкого круга потенциальных юзеров;
- невозможно или непропорционально сложно/дорого реализовать программно;
- непропорционально велики удельные затраты времени/ресурсов при работе желаемого алгоритма;
Или их комбинации, что случается чаще всего.

Цитата:
Ведь это реально бесит, когда поисковик раз за разом находит тебе тыщи фрагментов, которые ты либо уже читал, либо они просто повторяются.

Машина не способна оценить достоверность информации в каждом из них.
Рецептом клизмы разные врачи могут лечить от разного. А если тупо отсеять по вашему методу, то с гарантией чуть меньше, чем 100-ной, рецепта клизмы от запора вы не найдете в результатах поиска, зато найдете его в рецепте, например, приворотного зелья для любви, так и не узнав, что клизма чаще  применяется для первого случая.

Цитата:
Скажем так. Меня бы устроило нахождение похожих фрагментов текста длиной не более 10 тыс символов

Вам тут толсто намекают вторую страницу, что в первую очередь нужно определить нижнюю, а не верхнюю границу размеров фрагмента - чем он короче, тем больше проблем.

Цитата:
Я думаю вполне можно ограничиться выборкой из не более чем 1000 файлов.

Самограничение - дело хорошее, но принципиально это не облегчает написание алгоритма. Но может сделать его бесполезным для остальных юзеров, что понижает ценность и мотивированность написания в глазах потенциального программиста.

Цитата:
Мной движут чисто практические и меркантильные интересы.  

О, тогда вам и карты в руки. Тут вроде есть тема написания софта за деньги.
Сначала озвучиваете бюджет в скавэ, начиная с трех нулей. Чтобы ваше объявление заметили и прочли. Потом излагаете задачу. Попросите демки для выбора исполнителя (не рассчитывайте на типа пробные версии [которые вы утяните, не расплатившись, а потом будете пытаться сломать; речь о программных огрызках, которые работают только чтобы продемонстрировать некоторые возможности). Далее платите до половины бюджета (или оговоренной суммы) и ждете. Вот тогда вы можете рассчитывать подержать в руках полноценные, но ограниченные версии решения. Учитывайте один момент - если сразу не сформулируете задачу точно и с примерами, то потом, когда заплатите половину, не сможете бесконечно изменять или добавлять свои хотелки к созданному решению, по крайней мере забесплатно. Чем больше будут с вами возиться и чем больше придется изменять изначальный алгоритм тем дороже вам обойдется конечный продукт. Если конечно вы изначально не напишите 5 нулей в бюджете и не оговорите, что все хотелки по ходу должны быть учтены. За $1к на такой сервис не рассчитывайте (то есть, как скажите, так в лучшем случае и напишут, что с большой степенью вероятности вас устроит не очень.)

Цитата:
Я не хочу тратить своё личное время (которое, как известно, деньги) на чтение по 150 раз одного и того же фрагмента текста.  

А пропускать и сразу переходить к следующему не пробовали? Или вспоминаете, что уже читали только после прочтения всех 150 повторов?

Цитата:
Когда я что-то ищу в базе данных скачанных документов - часто бывает что нужно, чтобы это была новая, ранее не читанная инфа.

Надо полагать, что программа должна, кроме прочего, еще обладать телепатическими способностями (директли с вашей памятью), попутно согласовывая найденной телепатически со всеми известными базами данных на предмет новизны?

Цитата:
Т.е. выкидывать из выдачи 1000 страничную книгу целиком только потому что в ней встречаются какие-то 3-5 слов исключений как-то глупо.

А половину/треть/четверть этой книги из-за этих 3-5 исключений можно выбросить? Например, выбрасываем из словарей слова на А, потому что в них есть слова 'арбуз', 'абрикос' и 'ананас', про которые вы уже читали.

Цитата:
Ведь файл-исходник никуда не исчезает.

То есть вы предлагаете сначала много часов обрабатывать. Потом прочитать полученные огрызки. А потом прочитать исходные файлы, чтобы убедиться, что обработано правильно и ничего не пропущено? И так по каждому запросу, поскольку по определению нельзя быть уверенным, что при предлагаемом вами статистическому методу отбраковки, не забракован наиболее достоверный и полный источник инфы.

Цитата:
И если Вам стало интересно частью чего является данный кусок текста - Вы легко сможете найти исходник.  

Как же вы это узнаете, если у вас в итоге будет только один единственный и неповторимый источник перед глазами? Вернетесь к исходным файлам, сделаете запрос и прочитаете все 150 источников полностью, чтобы сравнить и найдете лучший? Вам не кажется, что в этом алгоритме поиска шаг с дедублированием лишний?
 

Цитата:
Но я ищу инфу не в прозе Шекспира, а по научным и техническим текстам.

Разницы абсолютно никакой с Шекспиром в смысле проблем поиска.
Дедублируете 1000 диссертаций. Только одна является оригиналом. Получаете тот же самый вариант "огрызков Шекспира". Будете перечитывать все первоисточники?

Цитата:
Поэтому мне важен сам факт как таковой, а откуда он - дело десятое.

Вы ищите факты или просто наборы слов? Поскольку это разные вещи. В первом случае - это логический (то есть, осмысленный) поиск, во втором - просто операции с набором символов.

Цитата:
К примеру такая строка: "В контроллере бла-бла-бла можно установить максимум 12 модулей ля-ля-ля".  
 Мне этой инфы более чем достаточно.  
И какой документ является первоисточником этой инфы, а какой - просто копипаста - мне насрать.  

То есть, если в найденном единственном случае 12 модулей устанавливают, чтобы его сломать, а в остальных, выброшенных, чтобы его починить, то вас устроит найденный вариант и остальные первоисточники вы перечитывать не станете?
 
Как итог, все больше убеждаюсь, что вы еще сами не знаете, что вы собственно хотите. У вас все пока на уровне фантазий - как сказку сделать былью.
Такое, как уже сказал, в принципе возможно двумя путями
- самостоятельно.
- или задорого.
Забесплатно - помощников жалко.

Всего записей: 1319 | Зарегистр. 17-01-2011 | Отправлено: 00:42 24-05-2019 | Исправлено: Jonmey, 00:42 24-05-2019
Открыть новую тему     Написать ответ в эту тему

На первую страницук этому сообщениюк последнему сообщению

Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » Регулярные выражения


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru