Регулярные выражения - [737] :: Прикладное программирование

Цитата:

И я удивляюсь почему до сих пор никто из разработчиков программ полнотекстового поиска типа архивариус, search inform, Google desktop search и т.п. не озадачился проблемой фильтрации повторяющихся или уже просмотренных кусков текста. Не файлов, а именно текстовых фрагментов внутри файла.

Наиболее вероятных причин четыре
- никому или почти никому это не нужно;
- невозможно удовлетворить хотелки широкого круга потенциальных юзеров;
- невозможно или непропорционально сложно/дорого реализовать программно;
- непропорционально велики удельные затраты времени/ресурсов при работе желаемого алгоритма;
Или их комбинации, что случается чаще всего.

Цитата:

Ведь это реально бесит, когда поисковик раз за разом находит тебе тыщи фрагментов, которые ты либо уже читал, либо они просто повторяются.

Машина не способна оценить достоверность информации в каждом из них.
Рецептом клизмы разные врачи могут лечить от разного. А если тупо отсеять по вашему методу, то с гарантией чуть меньше, чем 100-ной, рецепта клизмы от запора вы не найдете в результатах поиска, зато найдете его в рецепте, например, приворотного зелья для любви, так и не узнав, что клизма чаще применяется для первого случая.

Цитата:

Скажем так. Меня бы устроило нахождение похожих фрагментов текста длиной не более 10 тыс символов

Вам тут толсто намекают вторую страницу, что в первую очередь нужно определить нижнюю, а не верхнюю границу размеров фрагмента - чем он короче, тем больше проблем.

Цитата:

Я думаю вполне можно ограничиться выборкой из не более чем 1000 файлов.

Самограничение - дело хорошее, но принципиально это не облегчает написание алгоритма. Но может сделать его бесполезным для остальных юзеров, что понижает ценность и мотивированность написания в глазах потенциального программиста.

Цитата:

Мной движут чисто практические и меркантильные интересы.

О, тогда вам и карты в руки. Тут вроде есть тема написания софта за деньги.
Сначала озвучиваете бюджет в скавэ, начиная с трех нулей. Чтобы ваше объявление заметили и прочли. Потом излагаете задачу. Попросите демки для выбора исполнителя (не рассчитывайте на типа пробные версии [которые вы утяните, не расплатившись, а потом будете пытаться сломать; речь о программных огрызках, которые работают только чтобы продемонстрировать некоторые возможности). Далее платите до половины бюджета (или оговоренной суммы) и ждете. Вот тогда вы можете рассчитывать подержать в руках полноценные, но ограниченные версии решения. Учитывайте один момент - если сразу не сформулируете задачу точно и с примерами, то потом, когда заплатите половину, не сможете бесконечно изменять или добавлять свои хотелки к созданному решению, по крайней мере забесплатно. Чем больше будут с вами возиться и чем больше придется изменять изначальный алгоритм тем дороже вам обойдется конечный продукт. Если конечно вы изначально не напишите 5 нулей в бюджете и не оговорите, что все хотелки по ходу должны быть учтены. За $1к на такой сервис не рассчитывайте (то есть, как скажите, так в лучшем случае и напишут, что с большой степенью вероятности вас устроит не очень.)

Цитата:

Я не хочу тратить своё личное время (которое, как известно, деньги) на чтение по 150 раз одного и того же фрагмента текста.

А пропускать и сразу переходить к следующему не пробовали? Или вспоминаете, что уже читали только после прочтения всех 150 повторов?

Цитата:

Когда я что-то ищу в базе данных скачанных документов - часто бывает что нужно, чтобы это была новая, ранее не читанная инфа.

Надо полагать, что программа должна, кроме прочего, еще обладать телепатическими способностями (директли с вашей памятью), попутно согласовывая найденной телепатически со всеми известными базами данных на предмет новизны?

Цитата:

Т.е. выкидывать из выдачи 1000 страничную книгу целиком только потому что в ней встречаются какие-то 3-5 слов исключений как-то глупо.

А половину/треть/четверть этой книги из-за этих 3-5 исключений можно выбросить? Например, выбрасываем из словарей слова на А, потому что в них есть слова 'арбуз', 'абрикос' и 'ананас', про которые вы уже читали.

Цитата:

Ведь файл-исходник никуда не исчезает.

То есть вы предлагаете сначала много часов обрабатывать. Потом прочитать полученные огрызки. А потом прочитать исходные файлы, чтобы убедиться, что обработано правильно и ничего не пропущено? И так по каждому запросу, поскольку по определению нельзя быть уверенным, что при предлагаемом вами статистическому методу отбраковки, не забракован наиболее достоверный и полный источник инфы.

Цитата:

И если Вам стало интересно частью чего является данный кусок текста - Вы легко сможете найти исходник.

Как же вы это узнаете, если у вас в итоге будет только один единственный и неповторимый источник перед глазами? Вернетесь к исходным файлам, сделаете запрос и прочитаете все 150 источников полностью, чтобы сравнить и найдете лучший? Вам не кажется, что в этом алгоритме поиска шаг с дедублированием лишний?

Цитата:

Но я ищу инфу не в прозе Шекспира, а по научным и техническим текстам.

Разницы абсолютно никакой с Шекспиром в смысле проблем поиска.
Дедублируете 1000 диссертаций. Только одна является оригиналом. Получаете тот же самый вариант "огрызков Шекспира". Будете перечитывать все первоисточники?

Цитата:

Поэтому мне важен сам факт как таковой, а откуда он - дело десятое.

Вы ищите факты или просто наборы слов? Поскольку это разные вещи. В первом случае - это логический (то есть, осмысленный) поиск, во втором - просто операции с набором символов.

Цитата:

К примеру такая строка: "В контроллере бла-бла-бла можно установить максимум 12 модулей ля-ля-ля".
Мне этой инфы более чем достаточно.
И какой документ является первоисточником этой инфы, а какой - просто копипаста - мне насрать.

То есть, если в найденном единственном случае 12 модулей устанавливают, чтобы его сломать, а в остальных, выброшенных, чтобы его починить, то вас устроит найденный вариант и остальные первоисточники вы перечитывать не станете?

Как итог, все больше убеждаюсь, что вы еще сами не знаете, что вы собственно хотите. У вас все пока на уровне фантазий - как сказку сделать былью.
Такое, как уже сказал, в принципе возможно двумя путями
- самостоятельно.
- или задорого.
Забесплатно - помощников жалко.

Модерирует : ShIvADeSt
Версия для печати • Подписаться • Добавить в закладки
На первую страницу • к этому сообщению • к последнему сообщению