如何配置YaCy作为替代搜索引擎或网站的搜索工具

介绍

许多人合理地担心他们的个人信息和隐私是大公司的自由。 虽然有许多不同的项目,其目标是允许用户回收他们的数据的所有权,但仍然有一些正常的计算领域,用户很难摆脱商业控制的产品。

搜索引擎是一个领域,许多隐私意识的人抱怨。YaCy是为了解决使用数据的目的,您不打算搜索引擎提供商的问题的项目。 YaCy是对等搜索引擎,这意味着没有集中的权限或服务器存储您的信息。 它通过连接到也运行YaCy实例和爬网的人的网络来创建网站的分布式索引。

在本指南中,我们将讨论如何在Ubuntu 12.04 VPS实例上开始使用YaCy。 然后,您可以使用它来为搜索对等体的全球网络贡献,或为您自己的页面和项目创建搜索索引。

下载组件

YaCy在包之外有很少的依赖。 在现代Linux发行版上所需要的唯一的东西应该是开放的Java开发工具包版本6。

我们可以通过键入以下命令从默认的Ubuntu存储库中获取:

sudo apt-get update
sudo apt-get install openjdk-6-jdk

这将需要一段时间来下载所有必需的组件。

一旦完成,你可以从最新版本的YaCy的项目的网站 在右侧,右键单击或控制单击GNU / Linux的链接,并选择复制链接位置:

YaCy下载链接

回到您的VPS,切换到您的用户的主目录并使用wget下载程序:

cd ~
wget http://yacy.net/release/yacy_v1.68_20140209_9000.tar.gz

下载完成后,您可以将文件解压缩到自己的目录中:

tar xzvf yacy*

我们现在拥有运行我们自己的搜索引擎所需的所有组件。

启动YaCy搜索引擎

我们几乎准备好开始使用YaCy搜索引擎。 在我们开始之前,我们需要调整一个参数。

切换到YaCy目录。 从这里,我们将能够进行必要的更改,然后启动服务:

cd ~/yacy

我们需要向文件添加管理员用户名和密码组合,以便我们可以浏览整个界面。 使用文本编辑器,打开YaCy默认初始化文件:

nano defaults/yacy.init

这是一个非常长的配置文件,好评论。 我们正在寻找的参数称为adminAccount

搜索adminAccount参数。 您将看到它目前未设置:

adminAccount=
adminAccountBase64MD5=
adminAccountUserName=admin

您需要设置以下格式的管理员帐户和密码:

adminAccount=admin:your_password
adminAccountBase64MD5=
adminAccountUserName=admin

这将允许您在启动服务后登录Web界面的管理部分。

保存并关闭文件。

准备就绪后,请键入以下内容以启动服务:

./startYACY.sh

这将启动YaCy搜索引擎。

访问YaCy Web界面

我们现在可以使用您的网络浏览器访问我们的搜索引擎:

http://server_ip:8090

您应该看到主要的YaCy搜索页面:

YaCy主页

正如你所看到的,这是一个相当常规的搜索引擎页面。 如果您愿意,您可以使用提供的搜索栏搜索,无需任何其他配置。

我们将探索管理界面,因为这为我们提供了更多的灵活性。 点击页面左上角的“管理”链接:

YaCy管理链接

您将进入基本配置页面:

YaCy基本配置

这将讨论一些常见的选项,您可能希望立即设置。

首先,它询问语言偏好。 如果列出的其他语言更适合您的用途,请更改此选项。

第二个问题决定如何使用此YaCy实例。 默认配置是使用您的计算机加入搜索和索引Web的全球搜索网络。 这就是基于对等的搜索如何替代传统的搜索引擎。

这将有助于您加入同行提供一个伟大的搜索资源,并将允许您利用其他人已经开始的工作。

如果您不想使用YaCy作为传统搜索引擎,您可以选择第二个选项为单个站点创建搜索门户,或使用它通过选择第三个选项为本地网络建立索引。

现在,我们将选择第一个选项。

第三个设置是为此计算机创建唯一的对等名称。 如果您有多个服务器运行YaCy,这变得越来越重要,如果你想与他们专门对等。 无论哪种方式,请在此处选择唯一的名称。

对于第四部分,取消选择“为YaCy配置路由器”,因为我们的搜索引擎安装在不在传统路由器后面的VPS上。

完成后,单击“设置配置”。

抓取网站为全球指数做贡献

您现在可以使用您的YaCy对等体上保留的索引进行搜索。 搜索结果将变得越来越准确,越多的人参与系统。

我们可以通过抓取我们的YaCy实例上的网站来贡献,以便其他同行可以找到我们抓取的页面。

要开始此过程,请点击左侧“索引生成”部分下的“抓取工具/收割机”链接。

YaCy履带链接

如果您尝试搜索某些内容,但没有获得所需的结果,请考虑开始使用您的实例为网站上的网页编制索引。 它将使您的搜索更准确为自己和同行。

在“开始网址”部分中输入要索引的网址:

YaCy维基百科爬行

这应该填充YaCy在有问题的URL上找到的链接的列表。 您可以选择您输入的原始网址,也可以选择使用您输入的网页中的链接列表。

此外,您可以选择是否要对域中的任何链接编制索引,还是只想索引那些作为给定URL的子路径的索引。

所不同的是,如果在输入http://example.com/about中,第一选择是指数http://example.com/sites ,而第二选择是位于所述输入路径的下方仅索引页( http://example.com/about/me )。

您可以限制抓取将索引的文档数。 完成后,点击“开始新抓取”开始抓取所选网站。

单击左侧的“创建监视器”链接以查看索引的进度。 你应该看到这样的:

YaCy创建监视器

您的服务器将以每秒2个请求的速率抓取指定的网址,直到链接超出链接或达到您设置的限制为止。

如果您之后搜索与抓取相关的网页,则您编入索引的结果将有助于结果。

使用YaCy作为您的网站

YaCy可以使用的一件事是为您的网站提供搜索功能。 您可以将网站索引配置为仅限于您的域的搜索引擎。

首先,在左侧的“对等控制”部分下选择“管理控制台”。 在管理控制台中,返回到“基本配置”页面。

这一次,对于第二个问题,选择“为您自己的网页搜索门户”:

YaCy基本配置

单击底部的“设置配置”。

接下来,您需要抓取您的域以生成将通过搜索工具提供的内容。 再次点击左侧“索引生产”部分下的“抓取工具/收割机”链接。

在“开始网址”字段中输入您的网址。 选择您的选项后,点击“开始新抓取”:

YaCy抓取自己的域

接下来,点击左侧“搜索设计”部分下的“搜索集成到外部网站”链接。

有两种不同的方式配置YaCy搜索。 我们将使用第二个,称为“通过选定的YaCy Peer进行远程访问”。

您将看到YaCy自动生成您需要嵌入您网站的网页中的代码:

YaCy autogenerate html

在您的网站上,您需要创建一个包含此代码的网页。 您可能必须调整IP地址和端口以匹配安装YaCy的服务器的配置。

对于我的网站,我创建了一个search.html在我的服务器的文档根目录页。 我做了一个简单的html页面,并包括由YaCy生成的代码:

<html>
  <head>
    <title>Test</title>
  </head>
  <body>
    <h1>Search page</h1>
    <p>Here we go...</p>
<script src="http://111.111.111.111:8090/jquery/js/jquery-1.7.min.js" type="text/javascript" type="text/javascript"></script>
<script>
$(document).ready(function() {
yconf = {
url      : 'http://111.111.111.111:8090',
title    : 'YaCy Search Widget',
logo     : '/yacy/ui/img/yacy-logo.png',
link     : 'http://www.yacy.net',
global   : false,
width    : 500,
height   : 600,
position : ['top',30],
theme    : 'start'
};
$.getScript(yconf.url+'/portalsearch/yacy-portalsearch.js', function(){});
});
</script>
<div id="yacylivesearch">
<form id="ysearch" method="get" accept-charset="UTF-8" action="http://111.111.111.111:8090/yacysearch.html">
Live Search <input name="query" id="yquery" class="fancy" type="text" size="15" maxlength="80" value=""/>
<input type="hidden" name="verify" value="cacheonly" />
<input type="hidden" name="maximumRecords" value="20" />
<input type="hidden" name="resource" value="local" />
<input type="hidden" name="urlmaskfilter" value=".*" />
<input type="hidden" name="prefermaskfilter" value="" />
<input type="hidden" name="display" value="2" />
<input type="hidden" name="nav" value="all" />
<input type="submit" name="Enter" value="Search" />
</form>
</div>
  </body>
</html>

然后,您可以保存文件并通过以下方式从Web浏览器访问该文件:

http://your_web_domain/search.html

我的页面看起来像这样:

YaCy嵌入式搜索

在输入字词时,您应该会看到您网域中与查询相关的网页:

YaCy示例搜索

结论

你可以使用YaCy在很多方面。 如果您希望为全球索引做出贡献,以便为公司维护的搜索引擎创建可行的替代方案,您可以轻松地抓取网站,并允许您的服务器成为其他用户的对等方。

如果你需要一个伟大的搜索引擎为您的网站,YaCy也提供了这个选项。 YaCy非常灵活,是解决隐私问题的有趣解决方案。

作者:Justin Ellingwood
赞(52) 打赏
未经允许不得转载:优客志 » 系统运维
分享到:

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏