Компьютеры

Какое программное обеспечение лучше всего для удаления дубликатов похожих фотографий и текстовых документов?

Автор: Peter Berry
Дата создания: 12 Июль 2021
Дата обновления: 11 Май 2024
Anonim
Программы для поиска и удаления дубликатов файлов на компьютере или ноутбуке 🔍🗂️💻
Видео: Программы для поиска и удаления дубликатов файлов на компьютере или ноутбуке 🔍🗂️💻

Содержание

Саймон занимается разработкой программного обеспечения со времен бумажной ленты. Он разработал нишевое программное обеспечение для управления информацией.

С появлением цифровых фотоаппаратов и дешевых, обширных хранилищ многие люди, делающие фотографии, счастливы, возможно, возвращаясь из отпуска с тысячами цифровых изображений, где у них когда-то могло быть несколько рулонов цветной слайд-пленки (которых обычно хранилось 36 изображений). Слегка разные кадры одной и той же сцены часто существуют в виде групп в тысячах цифровых изображений, но послепраздничное намерение выбрать лучший снимок из каждой группы редко реализуется.

Хотя не существует программного обеспечения, которое могло бы выбрать лучшую фотографию из группы, оно может определять группы похожих фотографий и предоставлять возможность удалять ненужные фотографии или перемещать выбранные в другое место. Это может значительно сократить усилия, необходимые для редактирования больших коллекций цифровых изображений до приемлемого размера.

Почему это важно для текстовых документов?

Подобные, но не идентичные текстовые документы удивительно распространены, особенно в хранилище, совместно используемом несколькими пользователями, которые могут совместно создавать их.В исследованиях, проведенных автором в больших и малых организациях, не было ничего необычного в том, что 40% всех текстовых документов были членами группы из двух или более с аналогичным или идентичным содержанием. Даже для отдельных домашних пользователей процесс сохранения документа Office в формате PDF может создать два документа, которые различаются битовыми шаблонами, но имеют одинаковое текстовое содержимое.


Совместное создание очень распространено в организациях, и часто возникают трудности с поиском последней версии совместно созданного документа до того, как он будет выпущен за пределами организации. "Вы не заметили мои изменения!" - частое обвинение в этой ситуации. Системы управления документами решают эту проблему с помощью своих средств регистрации и возврата, но они не используются повсеместно, и даже если они доступны, пользователи могут не использовать их.

Алгоритмы обнаружения похожих фотографий

Существует множество возможных алгоритмов обнаружения сходства на фотографиях, и большая часть программного обеспечения не дает подробных сведений о том, как оно работает. Однако тот, который работает (dupeGuru), работает, создавая версию каждого входного изображения с очень низким разрешением 15 x 15 пикселей и сравнивая компоненты цвета пикселей. Доля этих 225 пикселей, которые совпадают, используется для определения сходства. Процесс прост, но требует больших вычислительных ресурсов и занимает много времени: сопоставление 1300 фотографий заняло 13 минут на ноутбуке со средними характеристиками. Различия в производительности программ на паре тестовых изображений указывают на то, что они используют разные алгоритмы.


А как насчет Интернета?

В настоящее время существует ряд поисковых систем по изображениям (например, Google Images, Preposteo), которые найдут вам изображение, подобное тому, которое вы загружаете или выбираете. Однако, похоже, что в настоящее время нет никаких сетевых средств для поиска и редактирования групп похожих фотографий в большой коллекции. Это может измениться в будущем, поскольку скорость загрузки возрастет и потребуются более требовательные к вычислениям методы сопоставления. Similar.Pictures - это технически сложное веб-приложение для определения групп похожих фотографий и выполнения поиска изображений. В нем подробно описан алгоритм измерения сходства, но отсутствуют какие-либо возможности для изменения пороговых значений сходства или действий групп похожих фотографий. Работая через веб-браузер, он может работать на любой платформе, но очень медленно работает с большими группами файлов.

Программное обеспечение для поиска похожих фотографий

Существует большое количество продуктов для дедупликации различных типов файлов, почти все из которых имеют дело с точным дублированием, когда дублированные файлы имеют одинаковый битовый шаблон и, следовательно, одинаковую контрольную сумму. Некоторые также предлагают обнаружение похожих изображений, которые не имеют идентичных битовых шаблонов, и некоторые из них рассмотрены ниже. Для оценки качества сопоставления сходства в качестве теста использовались два изображения, показанные ниже. Для человека они очень похожи, но не на все протестированные программы.


Сайты загрузки программного обеспечения, такие как Softpedia и CNET, являются хорошими источниками специализированного программного обеспечения, но многие программы (особенно условно-бесплатные) не изменялись в течение многих лет, и поддержка в случае возникновения проблем может отсутствовать. Softpedia предлагает независимые обзоры всего загружаемого программного обеспечения.

dupeGuru

Это бесплатный продукт с открытым исходным кодом, предлагающий различные методы сравнения файлов, а также анализ изображения (или режим изображения). К ним относятся имя файла, размер и контрольная сумма, которые могут быстро идентифицировать идентичные файлы. Он работает в Windows, Linux и OS X. dupeGuru имеет параметр справки (датированный 2016 годом) и API. Сходство порога устанавливается в меню «Параметры» как «Жесткость фильтра». Пример вывода показан ниже.

Флажок в левом столбце для файлов без ссылки позволяет выбрать файл. Опции для отмеченных и выбранных файлов, доступные в пункте меню Действия, включают перемещение, копирование, удаление и многие другие.

Нет простого способа сравнения похожих изображений: если выбраны все изображения в кластере и нажата кнопка «Открыть с помощью приложения по умолчанию», каждое изображение появляется в отдельном экземпляре программы по умолчанию, что затрудняет сравнение.

dupeGuru не обнаружил никакого сходства между двумя тестовыми изображениями даже при настройке порогового значения Most Results.

Возможность dupeGuru находить и обрабатывать дубликаты файлов, не являющихся изображениями, достигается за счет простоты выбора из кластеров дублированных изображений.

Поиск похожих изображений

Это еще один бесплатный продукт (от Tago Software). Обработка выполняется несколько быстрее, чем dupeGuru: обработка 1288 изображений занимает 7,5 минут для наиболее точного сканирования. Он позволяет сравнивать похожие изображения, как показано ниже, но не предлагает никаких вариантов действий. Его кластеризация очень проста: один и тот же файл отображается как дубликат двух разных оригиналов. Помощи нет, а экран «О программе» датирован 2012 годом, поэтому кажется вероятным, что никаких разработок не было в течение многих лет.

Программа поиска похожих изображений обнаружила 74% сходства между двумя тестовыми изображениями.

Duplicate Photo Cleaner

Этот продукт от WebMinds описывается как условно-бесплатное ПО на некоторых сайтах загрузки, но его лучше описать как коммерческий продукт с ознакомительным или демонстрационным режимом. В ознакомительном режиме большинство функций, кроме отключенного сканирования, невозможно, поэтому без регистрации продукта, которая фактически является покупкой лицензии, невозможно предпринять какие-либо действия. Лицензия стоит 49,90 долларов США.

Результаты стандартного сканирования показаны ниже. Сканирование выполняется быстро: 18 изображений в секунду на локальном диске. Экран результатов в режиме Multi-Viewer, показанный ниже, показывает миниатюры изображений, что позволяет легко просматривать результаты после нажатия кнопки «Выбрать все оригиналы». В режиме табличного просмотра изображения отображаются попарно (как и в других программах), а в режиме дерева оригиналы и дубликаты отображаются в виде дерева.

Качество группировки, как правило, очень хорошее на необработанных изображениях с камеры, но сбой алгоритма очевиден на двух выделенных красным кластерах, которые имеют похожий контент, но были разделены (не сгруппированы вместе). Сходство между двумя тестовыми изображениями составило 34%, что указывает на более строгий алгоритм, чем в других программах. Однако любой автоматический алгоритм подобия иногда дает сбой по сравнению с человеческим оценщиком.

Варианты действий: перемещение или удаление либо оригиналов (как отмеченных), либо дубликатов. При необходимости есть функция отмены. Однако действие по перемещению как оригиналов, так и недублированных файлов в указанную папку недоступно, хотя это может быть достигнуто путем удаления всех дубликатов и копирования или перемещения папки в указанное место.

Duplicate Photo Cleaner имеет ряд других очень полезных функций: настройка размера эскизов позволяет детально проверять сгруппированные изображения, а изменение изображения, помеченного как исходное (все из которых можно экспортировать), просто заключается в установке и снятии флажка с эскизов.

Наилучшие результаты были получены при многократном проходе через данные, сначала с высоким порогом, а затем с более низким.

Похожие изображения

Это бесплатное программное обеспечение, но загруженная версия датирована 2013 годом. Интерфейс прост и не понравится наивному пользователю. Файла помощи нет. Кнопка для начала обработки помечена как «Поиск». Пороговое значение интерпретируется иначе, чем все другие протестированные программы - уменьшение порога уменьшает количество найденных совпадений.

Обработка выполняется быстро (7 изображений в секунду), но результаты сравнения отображаются только в виде серии пар изображений, что затрудняет обработку кластеров из более чем двух файлов.

Действия заключаются в удалении одного из пары показанных изображений. Могут применяться различные правила автоматического удаления в зависимости от даты файла, размера, разрешения или от того, находится ли изображение на правой или левой панели. Для удаления всех дубликатов можно использовать автоматическое правило.

Подобные изображения зависали при обработке папки, содержащей только два тестовых изображения, поэтому оценить производительность не удалось.

Find.Same.Images.OK

Это бесплатное ПО от разработчика с большим энтузиазмом из Германии, которое предлагает большое количество бесплатных продуктов. Интерфейс снова прост, с изобилием дисплеев и настроек, которые могут отпугнуть наивного пользователя. Однако сканирование выполняется быстро (3 минуты для 1288 изображений), и результаты сканирования отображаются ниже:

Результаты отображаются в виде пар совпадающих файлов на основе порогового значения сходства, которое может быть установлено от 90 до 55% в раскрывающемся списке схожести над списком результатов. Можно установить другие параметры сканирования, управляющие обнаружением повернутых, перевернутых или негативных изображений.

С файлами можно выполнить действие, щелкнув правой кнопкой мыши выбранный файл (или файлы), чтобы переместить, скопировать или удалить их.

Сходство, измеренное между двумя тестовыми изображениями, составило менее 55%, что является минимальным доступным значением.

Поиск дубликатов изображений визуального сходства

Это коммерческий продукт от MindGems. Его демонстрационный режим заключается в том, что отображаются только имена первых 10 повторяющихся групп, а действия с файлами отключены. Стоимость лицензии составляет 24,95 долларов США. В нем есть файл справки, а продукт датирован 2017 годом. Интерфейс выходит за рамки отображения повторяющихся пар, устраняя необходимость просмотра всех файлов в кластере перед выполнением действий, но содержит гораздо больше функциональных возможностей, чем наивный пользователь хотел бы видеть. Для пользователя, желающего подняться по кривой обучения, доступно большое количество опций и настроек.

После выбора папки, содержащей изображения, и запуска сканирования (которое снова занимает менее 3 минут для 1288 файлов), отображается следующий экран.

На дисплее отображаются эскизы всех изображений, которые были сгруппированы в аналогичный кластер, если выбрана опция Multi-Preview и выбран любой файл в группе. В режиме предварительного просмотра отображается только первый файл в группе и выбран файл. ID группы отображается в крайнем правом столбце дисплея.

Неудача алгоритма подобия очевидна на изображении, показанном выше, где два кластера похожих файлов были объединены, и все они имеют сходство более 90% с первым файлом в группе. Эта проблема противоположна расщеплению кластеров, которое происходит в других продуктах, но, по-видимому, встречается гораздо чаще. На паре тестовых изображений Visual Similarity Duplicate Finder обнаружил сходство 78%, что согласуется с тем, что алгоритм подобия более подвержен ложным срабатываниям, чем другие программы.

Действия выполняются путем выбора вкладки «Автоматическая проверка и удаление / перемещение» или «Копировать», как показано ниже, и нажатия кнопки «Выполнить» со странным названием.

Duplicate Cleaner Pro (версия 4.1.1)

Этот продукт британской фирмы Digital Volcano включает в себя обнаружение дубликатов для фотографий, аудиофайлов и документов с использованием режимов изображения, документа или звука. Точное дублирование можно оценить по диапазону метаданных файла и контрольным суммам двоичного содержимого. Режим обнаружения включает переменный порог схожести для режимов сканирования документов и изображений.

Идентификация похожих, но не идентичных текстовых документов - основная функция, которую можно найти только в некоторых потребительских товарах (особенно FindAlike). Однако программа не определяет PDF-версии документа Word как идентичные и не идентифицирует документы Word, сохраненные в разное время или с небольшими изменениями в текстовом содержимом, как похожие, даже с порогом сходства 10%. Похоже, что термин «подобное содержимое файла» не относится к текстовому содержимому документов.

Продукт имеет некоторые отличительные черты неуклюжести: доступны очень обширные функциональные возможности, но не все они должным образом задокументированы, хотя средства справки и поддержки выглядят очень хорошо, с онлайн-форумом, доступным для решения проблем. Для эффективного использования продукта необходимы некоторые эксперименты, которые могут отпугнуть пользователей, не желающих исследовать и экспериментировать с программным обеспечением. Пример детали, доступной в критериях поиска (или, скорее, соответствия) показан ниже.

Категории схожести фиксированных изображений очень близкие, хорошие и свободные соответствуют сходствам 97%, 88% и 65%, но метод их оценки не указан. Скорее всего, он будет таким же, как тот, который используется DupeGuru, где небольшие изменения положения оказывают драматическое влияние на показатель сходства, как показано ниже.

Все приведенные выше пары изображений будут оценены человеком как очень похожие, но не алгоритмом подобия.

Скорость обработки сходства изображений умеренная: около 5 изображений / сек. Обработка точного совпадения выполняется намного быстрее. Оценка времени, оставшегося для сканирования, не дается после его запуска.

Группы изображений, сгруппированные с помощью Duplicate Cleaner Pro, отображаются с помощью отдельной кнопки, при этом можно прокручивать различные группы и файлы, помеченные для удаления, перемещения или переименования. Также можно идентифицировать папки с похожим содержимым.

Работа с файлами в повторяющихся или почти повторяющихся кластерах хорошо поддерживается, с рядом опций для принятия решения о том, какие файлы выполнять в группе кластеров, а также для действий, которые необходимо предпринять, включая удаление, перемещение, копирование и замену по ссылке. Выявление папок с дублированным содержимым особенно полезно. Однако сортировка файлов и папок по размеру, которая очень полезна в этом процессе, не работает.

Несмотря на эти ограничения, Duplicate Cleaner Pro предлагает широкий спектр функций по разумной цене (49 австралийских долларов или 35 долларов США) и, похоже, был вознагражден более чем 2 миллионами загрузок. Он предлагает бесплатный пробный период, но с некоторыми ограничениями производительности.

PictureEcho (версия 2.0)

PictureEcho исходит от Sorcim (Pvt) Ltd, пакистанской компании в Равалпинди, которая предлагает ряд приложений для дедупликации и управления данными. PictureEcho утверждает, что «выполняет подобный человеку анализ визуально похожих изображений». Регистрация программы стоит 39,97 долларов США в год, но нет никаких указаний на то, какие возможности предоставляются после регистрации: незарегистрированная версия может быть ограничена некоторым образом, но ограничения не указаны.

В то время как опция «Точное совпадение» позволяет адекватно определять идентичные изображения, функция «Подобное совпадение» предоставляет четыре варианта, три из которых группируют изображения исключительно на основе различий между временами захвата изображений. Сканирование с этими параметрами выполняется очень быстро. Четвертый вариант не включает сравнение времени и, похоже, использует некоторую форму анализа изображений. Сканирование происходит намного медленнее. Результаты не впечатляют.

PictureEcho может быть полезен, если состояние почти дублирования указывается разницей во времени между изображениями, но его анализ изображений, близких к совпадению, не позволяет контролировать степень сходства между изображениями. Продукт не рекомендуется.

Краткое описание программного обеспечения для похожих фотографий

Шкала оценок: 1 (Плохо), 3 (Среднее), 5 (Отлично).

Обратите внимание, что производительность пары тестовых изображений не обязательно отражает производительность других изображений, так как количество ложных положительных / отрицательных результатов будет зависеть от природы сопоставляемых изображений.

ПродуктРасходыКачество интерфейсаСкоростьПроизводительность на тестовых изображенияхЗаметки

dupeGuru

Бесплатно

2

1

1

Нет встроенного просмотра матчей

Поиск похожих изображений

Бесплатно

2

4

4

Никаких действий

Очиститель дубликатов фотографий

49,90 долларов США

5

5

3

Простые действия и управление

Похожие изображения

Бесплатно

1

4

1

Сложное действие, зависает на некоторых папках

Find.Same.Images.OK

Бесплатно

1

3

2

Идиосинкразический интерфейс

Поиск дубликатов изображений визуального сходства

24,95 доллара США

3

4

5

Сложный интерфейс

Дубликат Очиститель Pro

35 долларов США

4

2

3

Включает точное соответствие аудио и документов. Требуются исследования и эксперименты.

В целом, Duplicate Photo Cleaner будет рекомендуемым продуктом, но вы должны быть готовы заплатить лицензионный сбор. Это имеет тенденцию давать ложноотрицательные результаты, но это можно преодолеть несколькими проходами, сначала с высоким порогом, а затем с более низким, чтобы подобрать другие совпадения. Его интерфейс прост и хорошо продуман. Бесплатные продукты имеют плохой интерфейс и требуют от пользователя некоторого терпения. SimilarImages, вероятно, лучший, но он зависает в некоторых папках. Duplicate Cleaner Pro включает сопоставление аудио и точное сопоставление документов по привлекательной цене. Его интерфейс всеобъемлющ, но может устрашить наивного пользователя.

Поиск похожих текстовых документов

Программное обеспечение для обнаружения похожих текстовых документов встречается гораздо реже, чем для фотографий. В настоящее время эта возможность чаще всего используется для юридического раскрытия информации, и многие программные пакеты, предназначенные для этой цели, включают некоторую возможность для поиска таких документов. Эти пакеты обычно недоступны для загрузки и тестирования. Эта область представляет значительный исследовательский интерес как одна из границ искусственного интеллекта, и существует множество статей о методах оценки сходства.

Задача поиска последней версии документа является простой, если все документы всегда хранятся в системе управления документами, но часто происходят внесистемное хранение и обработка, что делает последнюю версию в системе управления документами не обязательно самой последней. версия.

Похоже, что существует только один подобный продукт для обнаружения текстовых документов, нацеленный более широко, чем юридическое обнаружение, и доступен для загрузки и тестирования.

FindAlike

FindAlike - продукт австралийской компании Aleka Consulting. Стоимость лицензии для одного пользователя составляет 89 долларов, а для загрузки предоставляется 30-дневный оценочный период. FindAlike работает, создавая вектор документа из текстового содержимого документов и сопоставляя эти векторы для оценки сходства и обнаружения кластеров похожих документов. Создание и перемещение документов в локальных и общих файловых системах отслеживается с помощью индексирования Microsoft Windows.

FindAlike состоит из отдельного компонента и надстройки Office. При использовании надстройки Office файлы с текстом, аналогичным тексту текущего открытого документа, отображаются вместе с датой их изменения, что позволяет легко обнаруживать более свежие версии открытого документа. Автономный компонент позволяет выбрать любой файл в качестве целевого для сопоставления схожести. Оба компонента поддерживают тегирование (ручное и автоматическое в зависимости от содержимого) и поиск, а также предложение места назначения контейнера, если оно используется в сочетании с системой управления документами. Если к электронным письмам прикреплены похожие файлы, отображаются отправитель и получатель.

FindAlike имеет настраиваемый допуск схожести, а сканирование дискового хранилища может включать локальные и сетевые диски. На сетевых дисках не обязательно должна быть установлена ​​операционная система Windows. Он также обеспечивает индексированный поиск по этим дискам (и по локальной электронной почте).

Эта статья точна и правдива, насколько известно автору. Контент предназначен только для информационных или развлекательных целей и не заменяет личного или профессионального совета по деловым, финансовым, юридическим или техническим вопросам.

Самые читаемые

Увлекательные посты

Как скрыть и удалить все сообщения в Facebook
Интернет

Как скрыть и удалить все сообщения в Facebook

Кент - создатель контента, которому нравится делиться своими знаниями о потребительских технологиях. Ей нравится играть в Black De ert Mobile.Какой бы ни была ваша причина, по которой вы хотите скрыть...
Четыре категории компьютерного оборудования
Компьютеры

Четыре категории компьютерного оборудования

Альфред - давний преподаватель и энтузиаст компьютеров, который работает с широким спектром компьютерных устройств и устраняет их неисправности.Компьютерное оборудование относится к физическим устройс...