用.NET开发的磁力搜索引擎——btbook.net「建议收藏」

用.NET开发的磁力搜索引擎——btbook.net「建议收藏」去年10月份开始研究相关的协议与资料,中途乱七八糟的事情差点没坚持下来,寒假期间修修补补,上礼拜把Btbook发布了,经过社交网络发布之后,发生了裂变式的分享,上线第三天UV就达到了两万多,也算是对这

大家好,又见面了,我是你们的朋友全栈君。

UPDATE:项目已于2018年停止维护。

        去年10月份开始研究相关的协议与资料,中途乱七八糟的事情差点没坚持下来,寒假期间修修补补,上礼拜把Btbook发布了,经过社交网络发布之后,发生了裂变式的分享,上线第三天UV就达到了两万多,也算是对这几个月工作的一点肯定吧。

        界面比较简洁,一共三个页面:首页、列表页、详情页。如果你需要下载对应的文件,电脑里面需要安装一款支持磁力链接的软件,例如迅雷,QQ旋风,BitComet等。

用.NET开发的磁力搜索引擎——btbook.net「建议收藏」

DHT Protocal

        一个种子主要包含元信息(文件标题、文件大小、文件列表等)和Tracker服务器信息,每当一个用户想要下载一个文件,客户端会先询问Tracker服务器,目前有哪些电脑正在下载这个文件,这些电脑被称为“peer”,然后客户端会向这些peer分别请求文件的各个片段,等每个片段都下载完成之后再组合成一个完整的文件,至此整个下载过程完毕。

        由此可见,Tracker服务器相当于提供了一种“路由”服务,在整个下载过程中挥舞着指挥棒。但近年来由于打击盗版等原因,一些Tracker服务器开始陆续关闭,没有Tracker用户还怎么用种子下载文件呢?后来bt协议进行了扩充,添加了DHT(Distributed Hash Table) ,它把Tracker的路由服务分散到了BT网络中的每个节点,那么一个种子由哪个或哪些节点负责路由服务呢?

        首先,每个种子都有一个对应的20字节的hash,这个hash有sha1算法得到,每个节点也有一个20字节的id,通常是随机的20字节。如果这时有两个节点A和B,怎么判断这个种子放在A好还是B好呢?通过Kademlia算法计算种子hash和节点id的异或值(称为距离),异或值最小(距离最近)的那个节点更适合提供这个种子的路由。

       那整个网络之间的节点是如何进行沟通的呢?根据DHT Protocal,主要有四种请求:ping,find_node,get_peers,announce_peer。这四种消息其实都是字典类型,要经过B编码之后才能被对方正确的处理,使用UDP协议进行发送,这四种请求都会影响自己维护的一张路由表。

路由表

        路由表主要用于存储跟自己打过交道的节点信息,节点信息包含IP、Port和节点ID信息。而路由表由一个个的吊桶(Bucket)组成,在这里我简称它为“桶”。每个桶只能存储一定节点ID在一定范围的节点信息,并且桶的容量有限,一般规定一个桶只能存储8个节点。起初路由表里面只有1个桶,这个桶能存储的节点ID范围在2^0至2^160,也就是任何节点它都能保存,等这个桶满了之后怎么办?——分裂。例如桶(min, max)分裂为两个桶后,两个桶能保存的范围分别为(min, max/2), (max/2, max),原先的那个桶里面的8个节点也要重新分配到分裂后的两个桶中。

        伟大的毛主席说过,只要有一拨人,就分左中右。节点也是这样,分为good、questionable和bad,“good”指过去15分钟内该节点跟我有过联系,如果15分钟内该节点没有跟我联系过,它会变成“questionable”状态,客户端就会向它发出几个ping,如果没有收到回应,它就变为“bad”,可以把它从路由表中删除。

KPRC Protocal

1. ping

        注意这里的ping,不是你用cmd黑框框里面的ping。这个请求主要用户询问对方是否在线,比较简单,主要用于维护自己路由表里面的节点。

2. find_node

        顾名思义,find_node就是为了查询节点,它根据对方节点的id询问DHT网络,收到这个请求的节点,会把自己路由表中与该节点距离最接近的8个节点返回。

3. get_peers

        get_peers用于查找一个资源hash对应的peer,它询问路由表中与该hash最接近的8节点,收到该请求的节点如果发现自己知道对应的peer,返回这些peer的信息,否则返回它自己路由表中跟该hash最近的8个节点信息。发起get_peers的节点在收到peer信息了,则跟peer建立连接,正式开始下载文件片段。如果收到的是节点信息,则选出这些节点中跟hash最近的几个节点,递归的get_peers,直到发现peer。有两种情况要控制这种递归的返回:1. 超时,在一定时间内如果没有发现peer,则放弃。2. 已经发现了跟该hash最近的节点,但它没有peer信息。

4. announce_peer

        announce_peer用于在自己get_peers发现peers之后发送,发送的对象是先前回复过自己get_peers的节点,告诉对方自己发现了peer,你们也可以“备份”一下,减小整个网络查询该hash的次数。

磁力链接

        以前一个种子对应一个文件,现在一个hash对应一个文件,通过hash构造的磁力链接就可以下载一个文件。磁力链接的构造方式如下:

magnet:?xt=urn:btih:{hash}

        磁力链接中的hash就是一个40个字符组成的字符串,由20字节的hash计算得来:

public static string ToHexString(byte[] hash)
{
    var sb = new StringBuilder();
    foreach (var b in bytes)
    {
        sb.Append(b.ToString("X2"));
    }
    return sb.ToString();
}

        例如构造了一个磁力链接:magnet:?xt=urn:btih:EAE833FFE5A06B42B9B8C3F239660B537579C8A3 ,用迅雷打开后,迅雷就会下载对应的种子,然后下载该资源。

用.NET开发的磁力搜索引擎——btbook.net「建议收藏」

Btbook是什么

        Btbook主要由DHT网络爬虫,种子下载分析器,一个搜索网站组成。

        DHT网络爬虫用一些“交友策略”,例如我可以递归的find_node,尽可能多的认识DHT网络中的节点,让自己加入到对方的路由表中。剩下的事情就是等待对方的请求,所有的请求都正常的给予回复,对于announce_peer请求,则记录下资源的hash,交给种子下载分析器处理。

        当然随机在网络发起请求,不会有太多节点把你加入它的路由表,因为你们“距离”不够近。所以我想出了一种动态构造爬虫节点ID算法,使得它和网络任意节点的距离都较近,从而让对方路由表加入自己,后续能够收到更多的资源请求信息,实际测下来资源收集速度有上百倍的提升。

        种子下载分析器通过hash下载对应的种子文件,从种子文件中获取文件标题、文件列表、文件大小等元信息,保存到索引文件中。

        搜索网站用ASP.NET MVC搭建,用于处理用户的搜索,内部使用Elasticsearch做索引,对用户的搜索内容进行分词,对一些敏感词汇进行过滤,从索引文件中获取标题与搜索内容最匹配的结果,默认按资源的创建时间进行排序,突出“新”。

        因为整个DHT网络是被我实时监听的,一旦网络中有人分享了内容,我就有概率捕获这个资源,所以一些最新的资源往往都能被索引,是“追剧者”的神器。

使用Btbook

        如果你用电脑访问btbook,你的电脑安装了支持磁力链接的软件即可。如果你使用的是移动设备,你可以安装迅雷手机版之类的软件(“手雷”),把btbook添加进收藏,在手雷中打开btbook,就可以直接在手机中下载文件了。Btbook的网址是:http://btbook.net/ ,考虑了移动版浏览器兼容性,have fun!

        用.NET开发的磁力搜索引擎——btbook.net「建议收藏」        用.NET开发的磁力搜索引擎——btbook.net「建议收藏」

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/155332.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 数据仓库 数据集市_实时数仓应用场景

    数据仓库 数据集市_实时数仓应用场景#实时数仓项目-数据采集与ODS层配置canal实时采集mysql数据一、mysql开启binlog二、安装配置canal采集数据到kafka三、启动kafka消费者验证ODS层数据处理导入hbase一、flink采集kafka数据配置canal实时采集mysql数据一、mysql开启binlog修改mysql的配置文件(linux:/etc/my.cnf,Windows:\my.ini)log-bin=mysql-bin#开期binlogbinlog-format=ROW#选择ROW

    2022年9月27日
    2
  • 打印机服务器显示未连接,解决win10打印机提示“无法连接打印机 后台处理程序未运行”的方法…

    打印机服务器显示未连接,解决win10打印机提示“无法连接打印机 后台处理程序未运行”的方法…如今大家在办公室中最常见的两样设备就数电脑和打印机了吧?办公人员对于打印机的使用是非常频繁的,每天都要使用。因此一旦打印机出现故障就会对我们的工作效率产生影响。近日有用户将电脑升级为win10之后发现自己的打印机不能正常的运行,每次点击打印之后就会出现:“无法连接到打印机,后台处理程序未运行”的提示。不知道你遇到这个故障的时候是如何解决的,若是还没有找到解决的方法可以使用下面的教程进行处理哦!方法…

    2022年5月1日
    155
  • 光纤交换机划分zone图解

    光纤交换机划分zone图解 HP光纤存储交换机 用户:admin出厂密码:password出厂IP:10.77.77.77 用串口连上交换机,help查出可用的命令IpaddrShow 命令查看IP地址,然后用IE浏览器输入http://10.77.77.77登陆交换机。   划分ZONE点击左下角图标  输入用户admin密码password,进入

    2022年5月21日
    53
  • pycharm远程连接服务器及同步

    pycharm远程连接服务器及同步文章目录 pycharm 远程连接服务器及同步 ref 概述实际步骤其他设置注意推荐使用方式 nohup 命令 pycharm 远程连接服务器及同步 refpycharm 连接 ssh 笔记 Pycharm 运行服务器环境设置 python 开发环境的配置 Linux pycharm pyenv 概述用到服务器的地方大概有 建立 ssh 终端连接 一个服务器可以新建一个 sshsession 建立 SFTP 连接同步文件 一个服务器可以新建一个 deployment 建立 ssh 远程环境 一个远程环境可以新建一个 sshin

    2025年9月27日
    4
  • ubuntu16.04安装qt5_qt安装哪些组件

    ubuntu16.04安装qt5_qt安装哪些组件Qt是一个跨平台的C++图形用户界面库,我们平时所说所使用的Qt,准确的来说是它的GUI编程部分。Qt提供给应用程序开发者建立图形用户界面所需要的功能,并且Qt很容易扩展。基本上,Qt和XWindow上的Motif、Openwin、GTK等图形界面库和Windows平台上的MFC、OWL、VCl以及ATl是相同类型的东西。一.安装Qt第一步:http://download.qt.io/ar……

    2022年10月15日
    3
  • postMessage的使用

    postMessage的使用postMessage是H5的API,用来解决跨页面通信的。postMessage的使用分为发送方和接收方。发送方的代码用法如下:otherWindow.postMessage(message,targetOrigin,[transfer]);otherWindow是接收方的window对象。可以通过以下几种方法获得,例如window.open()方法返回的值就是打开页面的window对象,或…

    2022年7月13日
    35

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号