介绍
许多人合理地担心他们的个人信息和隐私是大公司的自由。 虽然有许多不同的项目,其目标是允许用户回收他们的数据的所有权,但仍然有一些正常的计算领域,用户很难摆脱商业控制的产品。
搜索引擎是一个领域,许多隐私意识的人抱怨。YaCy是为了解决使用数据的目的,您不打算搜索引擎提供商的问题的项目。 YaCy是对等搜索引擎,这意味着没有集中的权限或服务器存储您的信息。 它通过连接到也运行YaCy实例和爬网的人的网络来创建网站的分布式索引。
在本指南中,我们将讨论如何在Ubuntu 12.04 VPS实例上开始使用YaCy。 然后,您可以使用它来为搜索对等体的全球网络贡献,或为您自己的页面和项目创建搜索索引。
下载组件
YaCy在包之外有很少的依赖。 在现代Linux发行版上所需要的唯一的东西应该是开放的Java开发工具包版本6。
我们可以通过键入以下命令从默认的Ubuntu存储库中获取:
sudo apt-get update
sudo apt-get install openjdk-6-jdk
这将需要一段时间来下载所有必需的组件。
一旦完成,你可以从最新版本的YaCy的项目的网站 。 在右侧,右键单击或控制单击GNU / Linux的链接,并选择复制链接位置:
回到您的VPS,切换到您的用户的主目录并使用wget下载程序:
cd ~
wget http://yacy.net/release/yacy_v1.68_20140209_9000.tar.gz
下载完成后,您可以将文件解压缩到自己的目录中:
tar xzvf yacy*
我们现在拥有运行我们自己的搜索引擎所需的所有组件。
启动YaCy搜索引擎
我们几乎准备好开始使用YaCy搜索引擎。 在我们开始之前,我们需要调整一个参数。
切换到YaCy目录。 从这里,我们将能够进行必要的更改,然后启动服务:
cd ~/yacy
我们需要向文件添加管理员用户名和密码组合,以便我们可以浏览整个界面。 使用文本编辑器,打开YaCy默认初始化文件:
nano defaults/yacy.init
这是一个非常长的配置文件,好评论。 我们正在寻找的参数称为adminAccount
。
搜索adminAccount
参数。 您将看到它目前未设置:
adminAccount=
adminAccountBase64MD5=
adminAccountUserName=admin
您需要设置以下格式的管理员帐户和密码:
adminAccount=admin:your_password adminAccountBase64MD5= adminAccountUserName=admin
这将允许您在启动服务后登录Web界面的管理部分。
保存并关闭文件。
准备就绪后,请键入以下内容以启动服务:
./startYACY.sh
这将启动YaCy搜索引擎。
访问YaCy Web界面
我们现在可以使用您的网络浏览器访问我们的搜索引擎:
http://server_ip:8090
您应该看到主要的YaCy搜索页面:
正如你所看到的,这是一个相当常规的搜索引擎页面。 如果您愿意,您可以使用提供的搜索栏搜索,无需任何其他配置。
我们将探索管理界面,因为这为我们提供了更多的灵活性。 点击页面左上角的“管理”链接:
您将进入基本配置页面:
这将讨论一些常见的选项,您可能希望立即设置。
首先,它询问语言偏好。 如果列出的其他语言更适合您的用途,请更改此选项。
第二个问题决定如何使用此YaCy实例。 默认配置是使用您的计算机加入搜索和索引Web的全球搜索网络。 这就是基于对等的搜索如何替代传统的搜索引擎。
这将有助于您加入同行提供一个伟大的搜索资源,并将允许您利用其他人已经开始的工作。
如果您不想使用YaCy作为传统搜索引擎,您可以选择第二个选项为单个站点创建搜索门户,或使用它通过选择第三个选项为本地网络建立索引。
现在,我们将选择第一个选项。
第三个设置是为此计算机创建唯一的对等名称。 如果您有多个服务器运行YaCy,这变得越来越重要,如果你想与他们专门对等。 无论哪种方式,请在此处选择唯一的名称。
对于第四部分,取消选择“为YaCy配置路由器”,因为我们的搜索引擎安装在不在传统路由器后面的VPS上。
完成后,单击“设置配置”。
抓取网站为全球指数做贡献
您现在可以使用您的YaCy对等体上保留的索引进行搜索。 搜索结果将变得越来越准确,越多的人参与系统。
我们可以通过抓取我们的YaCy实例上的网站来贡献,以便其他同行可以找到我们抓取的页面。
要开始此过程,请点击左侧“索引生成”部分下的“抓取工具/收割机”链接。
如果您尝试搜索某些内容,但没有获得所需的结果,请考虑开始使用您的实例为网站上的网页编制索引。 它将使您的搜索更准确为自己和同行。
在“开始网址”部分中输入要索引的网址:
这应该填充YaCy在有问题的URL上找到的链接的列表。 您可以选择您输入的原始网址,也可以选择使用您输入的网页中的链接列表。
此外,您可以选择是否要对域中的任何链接编制索引,还是只想索引那些作为给定URL的子路径的索引。
所不同的是,如果在输入http://example.com/about
中,第一选择是指数http://example.com/sites
,而第二选择是位于所述输入路径的下方仅索引页( http://example.com/about/me
)。
您可以限制抓取将索引的文档数。 完成后,点击“开始新抓取”开始抓取所选网站。
单击左侧的“创建监视器”链接以查看索引的进度。 你应该看到这样的:
您的服务器将以每秒2个请求的速率抓取指定的网址,直到链接超出链接或达到您设置的限制为止。
如果您之后搜索与抓取相关的网页,则您编入索引的结果将有助于结果。
使用YaCy作为您的网站
YaCy可以使用的一件事是为您的网站提供搜索功能。 您可以将网站索引配置为仅限于您的域的搜索引擎。
首先,在左侧的“对等控制”部分下选择“管理控制台”。 在管理控制台中,返回到“基本配置”页面。
这一次,对于第二个问题,选择“为您自己的网页搜索门户”:
单击底部的“设置配置”。
接下来,您需要抓取您的域以生成将通过搜索工具提供的内容。 再次点击左侧“索引生产”部分下的“抓取工具/收割机”链接。
在“开始网址”字段中输入您的网址。 选择您的选项后,点击“开始新抓取”:
接下来,点击左侧“搜索设计”部分下的“搜索集成到外部网站”链接。
有两种不同的方式配置YaCy搜索。 我们将使用第二个,称为“通过选定的YaCy Peer进行远程访问”。
您将看到YaCy自动生成您需要嵌入您网站的网页中的代码:
在您的网站上,您需要创建一个包含此代码的网页。 您可能必须调整IP地址和端口以匹配安装YaCy的服务器的配置。
对于我的网站,我创建了一个search.html
在我的服务器的文档根目录页。 我做了一个简单的html页面,并包括由YaCy生成的代码:
<html> <head> <title>Test</title> </head> <body> <h1>Search page</h1> <p>Here we go...</p> <script src="http://111.111.111.111:8090/jquery/js/jquery-1.7.min.js" type="text/javascript" type="text/javascript"></script> <script> $(document).ready(function() { yconf = { url : 'http://111.111.111.111:8090', title : 'YaCy Search Widget', logo : '/yacy/ui/img/yacy-logo.png', link : 'http://www.yacy.net', global : false, width : 500, height : 600, position : ['top',30], theme : 'start' }; $.getScript(yconf.url+'/portalsearch/yacy-portalsearch.js', function(){}); }); </script> <div id="yacylivesearch"> <form id="ysearch" method="get" accept-charset="UTF-8" action="http://111.111.111.111:8090/yacysearch.html"> Live Search <input name="query" id="yquery" class="fancy" type="text" size="15" maxlength="80" value=""/> <input type="hidden" name="verify" value="cacheonly" /> <input type="hidden" name="maximumRecords" value="20" /> <input type="hidden" name="resource" value="local" /> <input type="hidden" name="urlmaskfilter" value=".*" /> <input type="hidden" name="prefermaskfilter" value="" /> <input type="hidden" name="display" value="2" /> <input type="hidden" name="nav" value="all" /> <input type="submit" name="Enter" value="Search" /> </form> </div> </body> </html>
然后,您可以保存文件并通过以下方式从Web浏览器访问该文件:
http://your_web_domain/search.html
我的页面看起来像这样:
在输入字词时,您应该会看到您网域中与查询相关的网页:
结论
你可以使用YaCy在很多方面。 如果您希望为全球索引做出贡献,以便为公司维护的搜索引擎创建可行的替代方案,您可以轻松地抓取网站,并允许您的服务器成为其他用户的对等方。
如果你需要一个伟大的搜索引擎为您的网站,YaCy也提供了这个选项。 YaCy非常灵活,是解决隐私问题的有趣解决方案。