Jonmey
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Цитата: И я удивляюсь почему до сих пор никто из разработчиков программ полнотекстового поиска типа архивариус, search inform, Google desktop search и т.п. не озадачился проблемой фильтрации повторяющихся или уже просмотренных кусков текста. Не файлов, а именно текстовых фрагментов внутри файла. | Наиболее вероятных причин четыре - никому или почти никому это не нужно; - невозможно удовлетворить хотелки широкого круга потенциальных юзеров; - невозможно или непропорционально сложно/дорого реализовать программно; - непропорционально велики удельные затраты времени/ресурсов при работе желаемого алгоритма; Или их комбинации, что случается чаще всего. Цитата: Ведь это реально бесит, когда поисковик раз за разом находит тебе тыщи фрагментов, которые ты либо уже читал, либо они просто повторяются. | Машина не способна оценить достоверность информации в каждом из них. Рецептом клизмы разные врачи могут лечить от разного. А если тупо отсеять по вашему методу, то с гарантией чуть меньше, чем 100-ной, рецепта клизмы от запора вы не найдете в результатах поиска, зато найдете его в рецепте, например, приворотного зелья для любви, так и не узнав, что клизма чаще применяется для первого случая. Цитата: Скажем так. Меня бы устроило нахождение похожих фрагментов текста длиной не более 10 тыс символов | Вам тут толсто намекают вторую страницу, что в первую очередь нужно определить нижнюю, а не верхнюю границу размеров фрагмента - чем он короче, тем больше проблем. Цитата: Я думаю вполне можно ограничиться выборкой из не более чем 1000 файлов. | Самограничение - дело хорошее, но принципиально это не облегчает написание алгоритма. Но может сделать его бесполезным для остальных юзеров, что понижает ценность и мотивированность написания в глазах потенциального программиста. Цитата: Мной движут чисто практические и меркантильные интересы. | О, тогда вам и карты в руки. Тут вроде есть тема написания софта за деньги. Сначала озвучиваете бюджет в скавэ, начиная с трех нулей. Чтобы ваше объявление заметили и прочли. Потом излагаете задачу. Попросите демки для выбора исполнителя (не рассчитывайте на типа пробные версии [которые вы утяните, не расплатившись, а потом будете пытаться сломать; речь о программных огрызках, которые работают только чтобы продемонстрировать некоторые возможности). Далее платите до половины бюджета (или оговоренной суммы) и ждете. Вот тогда вы можете рассчитывать подержать в руках полноценные, но ограниченные версии решения. Учитывайте один момент - если сразу не сформулируете задачу точно и с примерами, то потом, когда заплатите половину, не сможете бесконечно изменять или добавлять свои хотелки к созданному решению, по крайней мере забесплатно. Чем больше будут с вами возиться и чем больше придется изменять изначальный алгоритм тем дороже вам обойдется конечный продукт. Если конечно вы изначально не напишите 5 нулей в бюджете и не оговорите, что все хотелки по ходу должны быть учтены. За $1к на такой сервис не рассчитывайте (то есть, как скажите, так в лучшем случае и напишут, что с большой степенью вероятности вас устроит не очень.) Цитата: Я не хочу тратить своё личное время (которое, как известно, деньги) на чтение по 150 раз одного и того же фрагмента текста. | А пропускать и сразу переходить к следующему не пробовали? Или вспоминаете, что уже читали только после прочтения всех 150 повторов? Цитата: Когда я что-то ищу в базе данных скачанных документов - часто бывает что нужно, чтобы это была новая, ранее не читанная инфа. | Надо полагать, что программа должна, кроме прочего, еще обладать телепатическими способностями (директли с вашей памятью), попутно согласовывая найденной телепатически со всеми известными базами данных на предмет новизны? Цитата: Т.е. выкидывать из выдачи 1000 страничную книгу целиком только потому что в ней встречаются какие-то 3-5 слов исключений как-то глупо. | А половину/треть/четверть этой книги из-за этих 3-5 исключений можно выбросить? Например, выбрасываем из словарей слова на А, потому что в них есть слова 'арбуз', 'абрикос' и 'ананас', про которые вы уже читали. Цитата: Ведь файл-исходник никуда не исчезает. | То есть вы предлагаете сначала много часов обрабатывать. Потом прочитать полученные огрызки. А потом прочитать исходные файлы, чтобы убедиться, что обработано правильно и ничего не пропущено? И так по каждому запросу, поскольку по определению нельзя быть уверенным, что при предлагаемом вами статистическому методу отбраковки, не забракован наиболее достоверный и полный источник инфы. Цитата: И если Вам стало интересно частью чего является данный кусок текста - Вы легко сможете найти исходник. | Как же вы это узнаете, если у вас в итоге будет только один единственный и неповторимый источник перед глазами? Вернетесь к исходным файлам, сделаете запрос и прочитаете все 150 источников полностью, чтобы сравнить и найдете лучший? Вам не кажется, что в этом алгоритме поиска шаг с дедублированием лишний? Цитата: Но я ищу инфу не в прозе Шекспира, а по научным и техническим текстам. | Разницы абсолютно никакой с Шекспиром в смысле проблем поиска. Дедублируете 1000 диссертаций. Только одна является оригиналом. Получаете тот же самый вариант "огрызков Шекспира". Будете перечитывать все первоисточники? Цитата: Поэтому мне важен сам факт как таковой, а откуда он - дело десятое. | Вы ищите факты или просто наборы слов? Поскольку это разные вещи. В первом случае - это логический (то есть, осмысленный) поиск, во втором - просто операции с набором символов. Цитата: К примеру такая строка: "В контроллере бла-бла-бла можно установить максимум 12 модулей ля-ля-ля". Мне этой инфы более чем достаточно. И какой документ является первоисточником этой инфы, а какой - просто копипаста - мне насрать. | То есть, если в найденном единственном случае 12 модулей устанавливают, чтобы его сломать, а в остальных, выброшенных, чтобы его починить, то вас устроит найденный вариант и остальные первоисточники вы перечитывать не станете? Как итог, все больше убеждаюсь, что вы еще сами не знаете, что вы собственно хотите. У вас все пока на уровне фантазий - как сказку сделать былью. Такое, как уже сказал, в принципе возможно двумя путями - самостоятельно. - или задорого. Забесплатно - помощников жалко. | Всего записей: 1319 | Зарегистр. 17-01-2011 | Отправлено: 00:42 24-05-2019 | Исправлено: Jonmey, 00:42 24-05-2019 |
|