Is there a way I can have a hash value as input when searching for files and a complete list of files and their locations as output?
This could be helpful when trying to pin point file duplicates. I often times find myself in situations where I have a bunch of files that I know I already have stored in some location but I don’t know where. They are essentially duplicates.
For instance, I could have a bunch of files on a portable hard drive, and also hard copies of those files on the internal hard drive of a desktop computer… but I’m not sure of the location! Now if the files are not renamed, I could do a file name search to try to locate the hard copy on the desktop. I could then compare them side by side and in case they are the same I could delete the copy I have on the portable hard drive. But if the files have been renamed on either one of the hard drives this would probably not work (depending on how much the new names differ from the original).
If a file is renamed, but not edited, I could calculate its hash value, e.g. SHA1 value is 74e7432df4a66f246b5214d60b190b67e2f6ce52
. I would then like to have this value as input when searching for files and have the operating system search through a given directory or the entire file system for files with this exact SHA1 hash value and output a complete list of locations where these files are stored.
I’m using Windows, but I am generally interested in knowing how something like this could be achieved, regardless of operating system.
asked Dec 24, 2013 at 12:52
4
Linux example:
hash='74e7432df4a66f246b5214d60b190b67e2f6ce52'
find . -type f -exec sh -c '
sha1sum "$2" | cut -f 1 -d " " | sed "s|^\\||" | grep -Eqi "$1"
' find-sh "$hash" {} ; -print
This code is more complex than you would think it should be because:
- it is intended to correctly handle filenames with spaces, newlines, backslashes, quotations, special characters etc. (change
-print
to-print0
to parse them further); - it is intended to accept hash(es) as regex (compatible with
grep -E
i.e.egrep
),
e.g.'^00|00$'
will match if the file hash starts or ends with00
; a more practical example is searching by many hashes at once:'74…|a9…|…|…|…'
(ellipses for brevity, use full hashes).
You can use other *sum
tools with compatible interface (e.g. md5sum
).
answered Jul 7, 2017 at 11:19
Kamil MaciorowskiKamil Maciorowski
67.5k22 gold badges130 silver badges191 bronze badges
4
This is an intriguing question. I have been using a tool called fdupes to accomplish something similar. Fdupes will recursively search through directories and compare every file with every other file. First it compares size, and if the sizes are identical then it creates hashes of the files and compares that, if the hashes are the same then in actually goes through each file byte by byte and compares it.
When if finds all the files that are truly identical you can have it do several things. I have it delete the duplicate and create a hardlink in it’s place (thus saving me HDD space), although you can have it simply output the locations of the duplicate files and not do anything with them. This is the scenario you are asking about.
Some downsides with fdupes are that as far as I know it’s Linux only, and since it compares every file to every other file it takes quite a bit of I/O and time to run. It does not “search” for a file per say, but it would list all the files that have an identical hash.
I would highly recommend it and I set it to run in a cron job every day so that I never have any unnecessary duplicates of my data (it excludes my backups of course).
Fdupes Source Page
answered Dec 24, 2013 at 20:38
tbenz9tbenz9
6,9173 gold badges28 silver badges32 bronze badges
If you have PowerShell v.4.0 or higher, you can use the command:
Get-ChildItem _search_location_ -Recurse | Get-FileHash |
Where-Object hash -eq (Get-FileHash _search_file_).hash | Select path
Where _search_location_
is folder or disk where you want to search for a duplicate and _search_file_
is a file that has a duplicate somewhere. You can put this command in a loop to search for several files or add | Remove-Item
at the end of the line to automatically delete duplicates.
Also note that this command is suitable for small search folders only – it will take a lot of time if your search location has thousands of files (like a whole HDD).
Seth
8,9701 gold badge18 silver badges34 bronze badges
answered Dec 20, 2016 at 15:31
I like to use simple tools that I happen to already have so here is a way to do that with Windows PowerShell (so it obviously only works on windows). It is actually a small edit to Alex K’s answer however the question was how to search using hashes, whereas his answer searched for a copy of a specific file.
Get-ChildItem "_search_location_" -Recurse | Get-FileHash | Where-Object hash -eq _hash_here_ | Select path
Simply replace _search_location_
with what directory you wish to search and replace _hash_here_
with the hash of the file you wish to find.
Seth
8,9701 gold badge18 silver badges34 bronze badges
answered Jul 7, 2017 at 7:22
1
There’s a tool ($) called FileLocator Pro that can search by file hash (SHA-x or MD5).
Excerpt from this page:
http://www.mythicsoft.com/filelocatorpro/help/en/advanced_criteria.htm
Note: If the expression type is set to ‘File Hash’ then the containing
text box can include a comma separated list of hash values or a
pointer to a file containing a list of hash values, e.g.5A9C9B42A16F5E1985B7B0A019114C7A,675C9B42A16F5E1985B7B0A019114C7A
or,
=c:FileHashTable.txt
The actual algorithms used to calculate the hash, e.g. SHA1, MD5, are
specified in the Options tab.
answered Dec 30, 2013 at 13:42
snowdudesnowdude
2,86017 silver badges20 bronze badges
Here’s an example for an MD5 algorithm:
Get-ChildItem "_search_location_" -Recurse | Get-FileHash -Algorithm MD5 | Where-Object hash -eq _hash_here_ | Select path
Replace _search_location_
with what directory you wish to search and replace _hash_here_
with the hash of the file you wish to find.
If you want to search for a hash besides the sha256 hash you add -Algorithm _algorithm_
after Get-FileHash
where _algorithm_
is the chosen algorithm.
Beware that this requires PowerShell 4.0 and will recalculate every hash for every file for every search!
Seth
8,9701 gold badge18 silver badges34 bronze badges
answered Jul 7, 2017 at 7:39
Voidtools Everything 1.5 search tool has an option to add a column of various hashes, such as CRC-32, CRC-64, MD5, SHA-1, SHA-256 for each file.
You can then search for a particular hash as well, for example md5:71E..
answered Apr 22 at 19:53
RudolphRudolph
2121 gold badge5 silver badges20 bronze badges
. алгоритмы гашиш кому удается создать буквенно-цифровую строку обычно фиксированной длины из текста, пароля или файла. В этой цепочке хранится сводка всей информации о файле или элементе ввода, и ее цель состоит в том, чтобы пароль был нечитаемым или файл был зашифрован по соображениям безопасности. Тогда мы покажем как мы можем искать файлы по хешу в Windows .
Для этого нам придется использовать инструмент, который не позволяет именно этого, поиск файлов путем хеширования в Windows. Умный поиск файлов et программное обеспечение, хотя и бесплатное, но представляет собой поисковую систему, которая предлагает возможность простого поиска файлов с помощью хеширования в Windows.
Это приложение использует несколько критериев для поиска файлов по хешу, одним из которых является то, что оно позволяет искать файлы по хеш-значению. Он совместим с MD5, SHA1, SHA256, SHA512 или TIGER192 , среди прочего, и для этого вам просто нужно указать значение хеш-функции в поле поиска и путь для начала.
Smart File Finder покажет нам файл, который соответствует критериям, установленным в поиске, и покажет нам имя файла и путь, по которому он находится. Кроме того, можно указать приложению исключить определенные файлы или папки из результатов поиска, использовать известные подстановочные знаки или оставить скрытые файлы и каталоги.
Другой вариант – использовать сценарий PowerShell. который можно найти на Github и который откроет окно с формой для поиска файлов путем хеширования в Windows. В этой форме мы должны указать Хеш MD5 и маска, в которой мы хотим искать . Результат даст нам имя файла, которое соответствует заданному хешу и пути.
Чтобы использовать этот метод, первое, что нужно сделать, это открыть PowerShell, зайдите в Github и скопируйте код скрипта , затем скопируйте его в интерфейс Power Shell. Теперь, чтобы запустить скрипт, просто нажмите кнопку воспроизведения, и появится окно, в котором мы можем указать хеш MD5 и путь, по которому мы хотим искать. Нажмите «Поиск», и процесс поиска начнется автоматически. Когда это будет сделано, мы сможем увидеть имя и путь к искомому файлу, который соответствует заданному хешу.
Ищем и скачиваем непопулярные и старые файлы в интернете
Время на прочтение
14 мин
Количество просмотров 194K
Преимущественно медиафайлы. На полном серьезе, без шуток.
Введение
Бывает, случается так, что вы хотите скачать альбом 2007 года исполнителя, который кроме вас известен 3.5 людям, какой-нибудь испанский ска-панк или малопопулярный спидкор европейского происхождения. Находите BitTorrent-раздачу, ставите на закачку, быстро скачиваете 14.7%, и… все. Проходит день, неделя, месяц, а процент скачанного не увеличивается. Вы ищете этот альбом в поисковике, натыкаетесь на форумы, показывающие ссылки только после регистрации и 5 написанных сообщений, регистрируетесь, флудите в мертвых темах, вам открываются ссылки на файлообменники вроде rapidshare и megaupload, которые уже сто лет как умерли.
Увы, частая ситуация в попытке хоть что-то скачать
Такое случается. В последнее время, к сожалению, случается чаще: правообладатели и правоохранительные органы всерьез взялись за файлообмен; в прошлом году закрылись или были закрыты KickassTorrents, BlackCat Games, what.cd, btdigg, torrentz.eu, EX.ua, fs.to, torrents.net.ua, и еще куча других сайтов. И если поиск свежих рипов фильмов, сериалов, музыки, мультиков все еще не представляет большой проблемы, несмотря на многократно участившееся удаления со стороны правообладателей контента из поисковых систем, торрент-трекеров и файлообменников, то поиск и скачивание оригинала (DVD или Blu-Ray) фильмов и сериалов или просто ТВ-рипов 7-летней давности на не-английском и не-русском языке — не такая уж простая задача.
Зачем это нужно?
• Отсутствие некоторых релизов на дисках
В случае с видео, иногда случается так, что картину дублируют и транслируют по телевидению в какой-то стране, а на дисках не выпускают. Капперы выкладывают ТВ-рипы в файлообменные сети или BitTorrent, затем выходят DVD в другой стране, без соответствующей аудиодорожки, например, французской, и люди вынуждены либо качать DVDRip с хорошим качеством видео без французской дорожки, либо ТВ-рип с ней. Проходит время, ТВ-рип раздают все меньше и меньше людей, он удаляется с файлообменников из-за неактивности, и все — французский релиз становится скачать гораздо сложнее.
Проблему можно было бы решить, совместив аудиодорожку из ТВ-рипа с доступным видео из DVD, что не всегда так просто, как кажется. Этим никто не занялся и ТВ-версия умерла.
• Отличие контента ТВ- и DVD-версии
Например, мультсериал «Дарья» лишился почти всей музыки, которая была в ТВ-версии, из-за юридических проблем с перелицензированием. Долгое время люди, желающие посмотреть данный сериал, стояли перед выбором: либо полноценная ТВ-версия с музыкой и плохим качеством видео, либо DVD-версия с хорошим качеством, но без музыки.
• Региональные различия
Справедливы как для видео, так и для музыки. Мультсериал W.I.T.C.H. выпускался с 4 разными опенингами, только один из которых попал на DVD.
Зачастую, музыкальные альбомы, выпускаемые для рынка Японии, содержат бонусные треки, которых нет в других изданиях.
Как вы уже поняли, причин может быть множество. Где искать непопулярные и старые файлы?
Usenet
Usenet — распределенная сеть из серверов, синхронизирующих информацию между собой. Структура Usenet напоминает что-то среднее между форумами и электронной почтой: в «новостных группах» (так называются тематические категории в Usenet) сообщения имеют древовидную структуру, пользователи могут подписываться на конкретные группы, читать и писать в них. Как и в Email, у сообщений есть тема (subject), которая позволяет ориентироваться в содержании дискуссий. Сейчас используется преимущественно для обмена файлами.
История Usenet
Появившаяся в 1979 году, в до-интернетовскую эпоху сеть использовала прямые модемные соединения для передачи информации через UUCP и была инструментом преимущественно текстового общения. В свое время Usenet конкурировал с BBS, существовали специальные шлюзы в и из Fidonet. С приходом интернета, сообщения Usenet начали передаваться по TCP/IP, используя протокол NNTP, который остается относительно используемым и вне Usenet (например, можно читать огромное количество публичных списков рассылок через gmane и RSS-фиды через gwene, причем, в отличие от списков рассылок, вы всегда можете посмотреть всю историю, а не только сообщения с момента вашей подписки).
С увеличением пропускной способности линий, улучшением модемов и их протоколов, к девяностым сеть уже вовсю использовали для передачи бинарных файлов: вареза, музыки, видеофайлов. Делалось это примерно таким же образом, как и в Email: файл разбивается на небольшие части (тома), кодируется печатными символами в 7-битной кодировке с использованием Base64 или uuencode, и отправляется в ньюсгруппу. Кодирование в 7 бит добавляет около 30% накладных расходов на передачу файла. Спецификация позволяет использовать большинство символов из ASCII-таблицы, поэтому в 2001 году появляется алгоритм передачи файлов yEnc, увеличивающий файл всего на 1-2%, экранируя только символы переноса строки, NULL-байты и символ равенства (=). Им пользуются и по сей день.
Для контроля целостности и восстановления поврежденных или отсутствующих данных используется Parchive.
До 2008 года крупнейшие Usenet-провайдеры хранили бинарные файлы около 100-150 дней с момента их загрузки (так называемый retention time, срок хранения файлов). С 2008 года самые крупные провайдеры вообще перестали что-либо удалять, и на текущий момент можно без проблем скачать файлы восьмилетней давности, а провайдеры поменьше выставили retention time в 1000+ дней, что тоже немало. К этому моменту текстовое общение в Usenet сошло на нет и сеть использовалась преимущественно для хранения и передачи файлов.
Начиная где-то с середины 2011 года за сетью начали следить правообладатели, из-за чего Usenet-провайдерам пришлось удалять файлы, что сильно повлияло на целостность релизов. Некоторые провайдеры сделали автоматизированные системы удаления файлов, чтобы правообладатели могли удалять загрузки самостоятельно. Дабы предотвратить или хотя бы замедлить обнаружение файлов правообладателями, энтузиасты начинают загружать файлы с обфусцированными именами, в архивах под паролями, и добавляют их в каталоги систем индексации релизов (indexers), доступ к которым, как правило, осуществляется либо за деньги, либо по приглашениям. Обычными способами ни найти, ни скачать такие релизы не удастся.
В современной России о Usenet почти никому не известно, хотя рунет зарождался именно с него, по протоколу UUCP, и был одним из двух рабочих каналов для связи с Западом во время путча 1991 года (второй — FIDO). Сейчас Usenet наиболее популярен в странах, законы которых позволяют штрафовать пользователей за скачивание или раздачу контента, защищенного авторским правом, например, в Германии. В отличие от BitTorrent, узнать IP-адресы пользователей Usenet сторонней организации невозможно.
Подключение к Usenet
Полноценно пользоваться сетью бесплатно, скорее всего, не получится: либо столкнетесь с низким временем хранения файлов (10-30 дней), либо с низкой скоростью, либо получите доступ только к текстовым группам. Придется купить доступ у какого-нибудь провайдера или их реселлеров. Большинство провайдеров имеют два типа тарифов: месячный абонемент без ограничений по количеству скачанного (unlimited) и пакет трафика без ограничения по времени (block). Если вы собираетесь качать файлы из сети пару раз в месяц, block-доступа вам хватит надолго.
Крупнейшими провайдерами являются Altopia, Giganews, Eweka, NewsHosting, Astraweb.
Теперь нужно каким-то образом получить nzb-файл с метаинформацией, это что-то вроде .torrent-файла. Если у вас его нет, нужно воспользоваться поисковиком-индексатором.
Индексаторы
Общедоступные индексаторы завалены спамом с вирусами и ищут, как правило, плохо, но, тем не менее, подходят для поиска устаревших файлов, загруженных около 5 и более лет назад.
Вот некоторые из них:
- binsearch.info
- binzb.com
- nzbindex.com
- nzbsearch.net
- nzbking.com
Бесплатные индексаторы, требующие регистрацию, больше подходят для файлов посвежее. Они хорошо каталогизированы, релизы имеют не только название, но и описание с картинкой.
- nzbfinder.ws
- nzbid.org
- nzbnoob.com
- nzb.ag
- nzbfriends.com
- usenet-crawler.com
- drunkenslug.com
- nzbgeek.info
Последние два особенно рекомендую, в них можно найти множество обфусцированных релизов.
Существуют и узконаправленные сайты. Например, индексатор аниме anizb и музыки albumsindex.
Скачивание с Usenet
Давайте попробуем скачать фильм The FP 2011 года, достаточно неизвестный и непопулярный, BDRip’а которого в 1080p так просто найти мне не удалось. Для этого вам нужно найти nzb-файл и импортировать его в программу для закачки, например, NZBGet или SABnzbd, предварительно ее установив.
Заходим на nzbking.com, выполняем поиск по «the.fp.2011».
Видим в индексе файл, у которого доступна только одна часть из 3867. Такой файл не скачать, поэтому индексатор отображает этот параметр красным цветом.
Файлы, защищенные паролем, как правило, являются просто фейками.
На второй странице обнаруживается DVDRip, с адекватным размером, в архиве без пароля — хороший знак.
На третьей странице находим BDRip и несколько DVDRip’ов, похожих на настоящие (судя по размеру файла и дате загрузки).
Выбираем файлы, которые хотим скачать, нажимаем кнопку «Download NZB», скачиваем .nzb-файл и импортируем его в NZBGet или SABnzbd, предварительно вписав данные своего Usenet-аккаунта в настройки программы. Начинается скачивание со скоростью канала моего провайдера.
По окончанию скачивания, NZBGet автоматически распакует архивы и удалит их. Файл размером 6.74 ГБ, загруженный 4.5 года назад, скачался за 15 минут!
IRC / DCC / XDCC
Internet Relay Chat — протокол текстового общения, до сих пор пользующийся популярностью у разработчиков свободного ПО, администраторов торрент-трекеров, анимешников и авторов ботнетов из-за своей простоты. Появившийся в 1989 году, IRC стал стандартом групповых чатов в интернете на долгие годы, и начинает терять популярность только к середине 2000-х, с приходом ICQ и Jabber. В IRC существует возможность передачи файлов — DCC, на основе которой в 1994 году был написан первый бот для автоматического распространения доступных боту файлов — Xabi DCC (отсюда и название — XDCC).
На сегодняшний день существуют как отдельные каналы, так и целые серверы, посвященные файлообмену через XDCC. Почти у любой мало-мальски серьезной аниме релиз-группы, у которой даже может не быть веб-сайта, есть свой бот, с которого можно скачать все релизы группы независимо от их возраста. Популярность XDCC обусловлена функциональностью скриптов, легкостью их настройки и администрирования: выкладывающему релиз достаточно загрузить каким-либо образом файл на сервер с ботом, например по FTP, а бот сам добавит его в индекс, оповестит пользователей на канале о появлении нового файла, автоматически отправит его пользователям, подписавшимся на обновления этого бота (например, если это новый эпизод сериала).
В специальных IRC-сетях распространяют варез, свежие и не очень фильмы, музыку, игры, книги. XDCC не наделен вниманием правообладателей, поэтому у ботов можно найти множество вещей, которые сложно найти в других местах.
Индексаторы
Многие (но не все) XDCC-боты индексируются специальными скриптами, предоставляющими веб-интерфейс для эффективного поиска файлов.
Общие индексаторы контента:
- ixirc.com
- xdcc.eu
- sunxdcc.com
- cr4wl.ga
Индексаторы аниме:
- news.kae.re
- nibl.co.uk
- intel.haruhichan.com
Скачивание из IRC
Вам потребуется IRC-клиент, подойдет практически любой (подавляющее большинство клиентов поддерживает DCC). Подключаемся к интересующему вас серверу из списка, заходим на канал. Крупнейшие серверы с книгами:
- irc.undernet.org, канал #bookz
- irc.irchighway.net, канал #ebooks
Варезом:
- irc.criten.net, канал #elitewarez
- irc.infatech.net, канал #elitewarez
- irc.scenep2p.net, канал #the.source
Фильмами:
- irc.abjects.net, канал #moviegods
- irc.abjects.net, канал #beast-xdcc
Мультфильмами и аниме:
- irc.rizon.net, канал #news
- irc.xertion.org, канал #cartoon-world
Все версии ботов принимают команду !find
или @find
для поиска файлов, после чего отправляют результаты личным сообщением. Для популярных запросов на каналах с большим количеством ботов вас буквально заспамит ответами, поэтому, если канал поддерживает команду @search
, лучше воспользоваться ей — специальный индексатор канала отправит вам результаты одним файлом через DCC.
Попробуем скачать «How Music Got Free» («Как музыка стала свободной» по-русски) — замечательная книга об истории музыкальной индустрии, технологиях обмена музыкой и человеке, который почти в одиночку стащил 2000 альбомов и выложил их в сеть.
Бот присылает результат поиска в виде ZIP-архива с текстовым файлом:
Отправляем боту запрос на скачивание файла:
…и принимаем его!
Конечно, не обязательно искать напрямую на канале. Если вы нашли нужный файл через индексатор, можете сразу запросить его у бота командой, которую вам сгенерирует сайт.
DC++
Direct Connect-сеть представляет собой клиент-серверную архитектуру, где все коммуникации, кроме непосредственно обмена файлами, происходят через сервер. В DC++ есть возможность расшаривания файлов и директорий, поиск файлов с учетом их типа (видео, аудио, архивы, документы, образы дисков), ссылки на файлы, независящие от имени файла и, конечно же, чат, из-за чего DC++-хабы были очень популярны в локальных сетях интернет-провайдеров РФ. Сибирский провайдер GoodLine рекламировал свой внутрисетевой хаб на уличных рекламных щитах, писал ПО для упрощения файлообмена и даже встраивал его в свои Set-top box, чтобы клиенты могли смотреть новинки кинематографа прямо с телевизора. На хабе сидело более 100000 человек — больше, чем в любом другом хабе в мире.
Из-за того, что пользователю достаточно указать путь к файлам, к которым он хочет открыть публичный доступ, в DC++ можно найти жуткое, малоизвестное старьё, которое, по мнению пользователя с этим файлом, уж точно никому не сдалось, но он его все равно расшарил, так, на всякий случай.
3 человека раздают видеоурок 11-летней давности, который ни одному вменяемому человеку смотреть не захочется, поверьте.
Скачивание из DC++
Вам потребуется какой-нибудь DC-клиент. Под Windows рекомендую FlylinkDC++ (который, к тому же, поддерживает BitTorrent), под Linux — EiskaltDC++ и AirDC++ Web. Далее нужно подключиться к популярным хабам, лучше сразу к десятку. Список хабов есть в самих программах, но можно воспользоваться специальной страницей и скопировать адреса оттуда.
Настоятельно рекомендую включить «активный» режим, пробросить порты, ввести ваш внешний IP-адрес в настройках программы и удостовериться, что к вам возможны подключения извне, иначе, в «пассивном» режиме у вас будут ограничения на количество результатов поиска, вы не сможете качать файлы с других пользователей в «пассивном» режиме.
Поиск и скачивание файлов интуитивно понятно: вводите название, опционально выбираете тип контента и фильтр по размеру, нажимаете кнопку поиска, кликаете два раза по результату, файл начинает скачиваться. Также можно посмотреть все файлы пользователя (и, например, скачать папку с найденным файлом целиком), нажав правой кнопкой по конкретному результату и выбрав соответствующий пункт меню.
Если нужного вам файла не нашлось, имеет смысл периодически повторять поиск. Некоторые люди запускают DC-клиент только тогда, когда им нужно что-то скачать, и вам нужно поймать момент, чтобы найти файл у таких пользователей.
Из-за ограничений протокла NMDC, одновременный поиск нескольких файлов затруднен, результаты одного поискового запроса могут перемешиваться и отображаться в соседних окнах поиска, поэтому лучше не искать несколько файлов одновременно. У хабов, работающих по протоколу ADC, таких ограничений нет, но и таких хабов удручающе мало (их URI начинается с adc://
, а не с dchub://
).
Индексаторы
Поиск внутри программы может найти только файлы пользователей, находящихся в DC-сети на момент поиска, поэтому индексаторы очень полезны для нахождения и скачивания файлов с редко запускающих программу людей.
Насколько мне известно, полноценный индексатор DC++ есть только один — spacelib.dlinkddns.com (и его второй адрес dcpoisk.no-ip.org). Поиск основан на движке Sphinx и учитывает морфологию (в том числе и русского языка). Поисковик генерирует magnet-ссылки для результатов поиска, которые можно поставить на закачку в клиенте.
Иногда он подолгу недоступен, например, в прошлый раз он не работал два месяца подряд.
eDonkey2000 (ed2k), Kad
ed2k — протокол децентрализованной передачи файлов, требующий сервер-хаб для нахождения пользователей и соединения с ними. Был протоколом №1 для передачи файлов среди всех слоев населения, до закрытия самого популярного сервера Razorback 2 в 2006 году и роста популярности BitTorrent.
eDonkey2000 выжил. Этому поспособствовал протокол полностью децентрализованного обмена Kad, который был внедрен в сторонние клиенты незадолго до закрытия Razorback 2 и главного сервера оригинальной программы, уступающей в функциональности и скорости альтернативным реализациям.
В ed2k можно найти примерно то же самое, что и в DC++ — старые файлы, ТВ-шоу на разных языках, разнообразную музыку, игры, варез, старые книги по программированию, математике, биологии. Новинки, разумеется, тоже в наличии. Хоть протокол и поддерживает чаты и просмотр всех файлов пользователя в открытом доступе, эти функции по умолчанию отключены, и, скорее всего, вам не удастся пообщаться с интересующими вас людьми через программу.
Скачивание в eDonkey2000 / Kad
Как вы уже догадались, потребуется ed2k-клиент. Хороший выбор для Linux — aMule, для Windows, наверное, eMule, хоть он и не обновлялся с 2011 (Обновление: появилась официальная версия eMule от сообщества, доступная для скачивания на официальном сайте, она обновляется). Крайне рекомендую пробросить порты, чтобы иметь возможность скачивать с пользователей за NAT (LowID).
Процесс поиска и скачивания файлов очень похож на таковой в DC++ — вводим поисковой запрос, получаем результаты поиска с пользователей, находящихся онлайн, кликаем на файлы для начала скачивания.
Файл отобразится в результатах даже в том случае, у пользователей, находящихся онлайн, есть только его части, но не файл целиком.
Попробуем найти малоизвестный документальный фильм 2009 года We Live In Public — картину, повествующую о событиях 90-х, которые частично предсказали современный интернет. Часть времени в фильме уделяется сайту pseudo.com — сервису аудио- и видеотрансляций, основанном в 1993 году.
Вводим поисковую фразу, получаем результаты:
Кликаем, начинается скачивание:
Загрузка файла может растянуться на недели и месяцы. По какой-то причине, многие пользователи сети имеют отвратительное интернет-соединение, да еще и появляются раз в неделю на пару часов, а то и меньше.
Soulseek
Soulseek — централизованная сеть обмена музыкальным файлами по принципу P2P, созданная в 2000 году одним из разработчиков Napster. Долгое время была популярна среди слушателей и авторов IDM и прочей электронной музыки, и по сей день сеть развивается и остается хорошим местом для поиска аудиофайлов. Есть групповые и приватные чаты, возможность раздачи файлов только друзьям, удобный поиск музыки с указанием битрейта и других характеристик аудиофайлов. Некоторые поисковые запросы цензурируются.
Существует официальный кроссплатформенный проприетарный клиент SoulseekQt и два развивающихся неофициальных: Nicotine+ и Museek+.
BitTorrent DHT
Все популярные клиенты BitTorrent могут искать пиров и обмениваться торрент-файлами через распределенную хеш-таблицу (DHT). Этим пользуются не только компании, отслеживающие раздающих файл пользователей, по договору с правообладателями контента, но и индексаторы, которые пытаются получить torrent-файл с infohash из DHT-запроса и сохранить его в своей базе. Индексаторы могут найти нигде не опубликованный или просто редкий торрент по названию директории или файла, а также различные дубликаты интересующего вас торрента с потенциальными сидерами.
Ранее самым популярным индексатором был ныне неработающий btdigg, на смену ему, с некоторым запозданием, пришли следующие сайты:
- bitsnoop.com
- godht.com
- btdb.in
- digbt.org
- btdb.in
- btkitty.bid
- kikibt.net
- btdig.com (не имеет отношения к оригинальному btdigg, хоть и страница в wikipedia говорит об обратном)
К сожалению, подобные сервисы не живут долго: два моих любимых, fastbot и BTKitty.red, не открывались на момент написания статьи.
Файлообменники и FTP-серверы
Почти в каждом регионе существуют свои местные файлообменники, пользующиеся популярностью у конкретной языковой группы. Например, на uloz.to можно найти много чешского и словацкого контента, zone-telechargement.ws подойдет любителям французского языка, а chomikuj.pl для поляков.
Индексаторы FTP-серверов нечасто находят нужные файлы, но попытаться стоит:
- mmnt.net
- searchftps.net
- filemare.com
- ftpsearch.lostclus.kiev.ua
- filewatcher.com
- krasfs.ru
- ftplike.com
Поисковики по популярным файлообменникам тоже существуют, но не всегда эффективны:
- filediva.com
- rapid-search-engine.com
- alluc.ee
До совсем недавнего времени большое количество контента можно было найти на ex.ua, но увы.
Как искать
Не всегда достаточно искать файлы только по названию материала, так можно упустить сценические релизы.
Рели́зная гру́ппа — сообщество людей-энтузиастов, объединенных идеей свободы информации. Выпускает электронные копии CD или DVD с фильмами, музыкой, программами и играми для компьютеров и игровых приставок, руководствуясь правилами релизов и соревнуясь со своими коллегами-конкурентами в скорости и качестве выпуска таких копий (релизов). Сообщество релизных групп, объединенных одной темой (музыка определенного жанра, кинофильмы или варез), называется сценой.
https://ru.wikipedia.org/wiki/Релизная_группа
Сценические релизы очень часто содержат сокращенные или намеренно испорченные имена архивов, которые нельзя найти обычным поиском по имени файла. Чтобы узнать настоящее имя, нужно поискать его в специальных индексаторах сцен-релизов: layer13.net, pre.corrupt-net.org и predb.me.
Попробуем узнать сценическое название архивов с релизом We Live In Public от PUZZLE на Layer13:
NFO-файл называется «puzzle-wlip.nfo». Названия архивов практически всегда, в 99% случаев совпадают с названием NFO, поэтому попробуем поискать это название в Usenet-индексаторе:
Ура, теперь мы можем скачать DVD фильма!
Обычные поисковые системы вроде Google не всегда будут вам помощниками. Во-первых, Google следует букве закона и удаляет (скрывает) результаты с сайтов, о которых сообщают ему правообладатели в рамках DMCA, во-вторых, поиск контента с названием из спецсимволов затруднен: проблемно найти что-либо о W.I.T.C.H., вам постоянно подсовывают информацию о Witch, The Witch или Blair Witch. Я предпочитаю пользоваться DuckDuckGo, Bing и метапоисковиком SearX — через них можно найти материалы, недоступные в Google.
Если вас интересует релиз на конкретном языке, уместней узнать локализованное название и совершать поиск по нему. Получить подобную информацию можно на Wikipedia, IMDb и других подобных сайтах.
Для аниме есть anidb, хранящий информацию о релизах групп на разных языках. Карточка группы, как правило, содержит ссылку на сайт или IRC-канал, где можно пообщаться с ее членами и скачать файлы через XDCC.
Помимо источника, разрешения видео, языков аудиодорожек и субтитров, на anidb есть TTH-хеш для DC++ и ed2k-ссылка для каждого файла.
Заключение
Примерно так я ищу нужные мне файлы. В посте намеренно не упомянуты очевидные вещи, вроде покупки дисков с Amazon или Ebay и поиска по популярным открытым и закрытым Torrent-трекерам. Все способы применимы для медиаконтента из Европы и США, мне никогда не приходилось искать, например, арабский и индийский контент, поэтому не могу сказать, насколько они эффективны.
Скрытый текст
А еще Usenet можно использовать для дешевого хранения резервных копий: шифруем файлы, покупаем доступ в Usenet за $10, загружаем файлы, через 4 года опять покупаем доступ и скачиваем их за еще одни $10. В отличие от облаков, в Usenet не нужно оплачивать хранение файлов. Но без фанатизма, а то удалят.
Поиск по хешу
Технология поиска по преднастроенным наборам контрольных сумм файлов (хеш-сумм) служит для обнаружения определенных файлов в файловых системах рабочих станций.
В системе реализованы возможности добавления хеш-сумм отдельных файлов и банков хешей, настраиваемых в Консоли администратора или в менеджере банков хешей.
Для создания условия поиска по хеш-суммам:
- На панели инструментов нажмите стрелку комбинированного меню Искать и выберите в меню Поиск по хешам.
- В выпадающем списке Добавить выберите опцию добавления хеш-суммы (доступные для выбора алгоритмы хеш-функции MD5, SHA-1 и SHA-256) или банка хешей, либо нажмите кнопку Менеджер банков хешей для создания и добавления собственного банка хешей или просмотра и редактирования содержимого добавленных ранее банков (подробнее см. Менеджер банков хешей).
- Если требуется, укажите дополнительные ограничивающие условия, как описано в главе Создание поискового запроса.
Примечание:
Вы также можете управлять банками в Консоли администратора при условии наличия соответствующих прав пользователя (подробнее см. Настройка банков хешей Руководства системного администратора SecureTower).
This tutorial explains how to find files by hash in Windows. Here I will talk about 2 different tools for Windows to find files via their SHA1, MD5, or SHA256 hash. These tools take a folder in which you want to look for a specific file and the corresponding unique hash. After that, these software look for the file and show you the result. However, these cannot do this operation in bulk. You can only find a single file at a time by providing the hash. And not only the hash, but you can search your files via other criteria as well. You can opt to search files by content, publisher, name or a mask.
There are a lot of file search software out there which use traditional methods for searching files. But if you want to search for a specific file by its hash, then you can’t do that with those software. And that’s where the tools I have mentioned below come in handy. You just have to specify a hash value and path to the folder to start search. And then these software will show you the matching file.
To find files by hash, I have listed a free software and a small script that you can run on your PC easily. Both the tools can easily find files by their MD5 hash and yield the result. I have explained about both the tools in different sections of this article.
Find Files by Hash in Windows using Smart File Finder
Smart File Finder is a very powerful file finder software to find files in Windows using various criterias. And one of those criteria is by searching files using the hash value. It supports MD5, SHA1, SHA256, SHA512, TIGER192 and some other hash types. Just specify the hash value in the search field and the path to start the search. After that, it will show you what file matches the criteria. In the result, it shows the path and name of the file. And the result that it shows can be exported to a file.
This file search software allows you to opt for certain other options to assist the search. You can opt to include, exclude some files and folder to appear in the result. Also, you can opt to leave hidden files and subdirectories if you want. And the best part is that it supports wild card feature that you can use to narrow down the search.
Using this software to search for files by their hash is very simple. If you have a generated hash value, then you can enter that in the software. For that, run the software right after downloading it and then in Search type drop down specify the hash type that you have. After that, enter the hash value in search string box, folder to start file search, and hit the Search button. Also, before starting the search, you can opt to specify some other parameters to assist the search. It will start looking for files in the specified folder and if it finds the matching file, it will show that to you.
Find Files by Hash in Windows using a PowerShell Script
Apart from using a software to search files by hash, you can use a simple script to do the same. I found a script on GitHub that opens a window form and lets you specify a MD5 hash and a folder to search file in that. It is a simple script that you can easily execute on your Windows PC. After finding the file, matching the hash you have specified, it will show its name and path to you. However, you cannot copy that or select it.
It is very simple to use this script to search files by hash. The following steps will help you in learning how to use this script.
Step 1: Open PowerShell ISE. To open that, you can type “PowerShell” in Start and it will show up. The interface of PowerShell ISE looks like this screenshot.
Step 2: Go to this link and copy all the code. Next, paste the code on the interface of the PowerShell ISE.
Step 3: Now, to run the script, simply click on the ‘play’ button and a window will appear. You can specify the MD5 hash and path to the folder in which you want to look up for the file. Finally, hit the Search button and it will start looking for the target file. When it finds the file, it will show its name and path on its interface. See the screenshot below.
In this way, you can use this simple PowerShell script to find files by its MD5 hash. The speed of the search completely depends on the number of files inside the folder that you have specified. So, it is taking a long time to find your file, then it is okay. However, I really wish that it would have come with the option to specify filters.
Closing Thoughts
Normally, file search software use the file name or any other piece of text to find files. But the software I have mentioned above uses a whole different approach to locate a file. Hash is a unique value and if you don’t know the name, or any other information except hash about a file, then you can use these software. Both the tools will easily find the target file by simply providing the hash value.