www.国产视频,一级看片免费视频囗交动图,波多野结衣高清无码中文456,中国一级特黄特级毛片,69mmWWW路cOm,天天摸夜夜摸黄片,aaaaaaaaa在线观看

Apache Nutch免費(fèi)下載 最新軟件|熱門(mén)排行|軟件分類(lèi)|軟件專(zhuān)題|廠商大全

您的位置: 首頁(yè)編程開(kāi)發(fā)編程工具 → Apache Nutch v2.3 最新版

Apache Nutch

v2.3 最新版 Apache Nutch 網(wǎng)友評(píng)分:8
  • 軟件大?。?span>7.10M
  • 軟件語(yǔ)言:中文
  • 軟件類(lèi)型:國(guó)產(chǎn)軟件
  • 軟件類(lèi)別:免費(fèi)軟件 / 編程工具
  • 更新時(shí)間:2017-03-27 15:12
  • 運(yùn)行環(huán)境:WinAll, WinXP, Win7
  • 軟件等級(jí):4級(jí)
  • 軟件廠商:
  • 官方網(wǎng)站:暫無(wú)
好評(píng):50%頂一個(gè)
壞評(píng):50踩一個(gè)

同類(lèi)相關(guān)軟件

軟件介紹

軟件標(biāo)簽: ApacheNutch 編程工具

Apache Nutch是一款用于java編程工具的搜索引擎軟件,快速完成java數(shù)據(jù)編程,智能檢索java資源便捷使用??靵?lái)綠色資源網(wǎng)下載體驗(yàn)吧!

軟件介紹

Nutch是一個(gè)開(kāi)源Java 實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲(chóng)。Nutch誕生于2002年8月,是Apache旗下的一個(gè)用Java實(shí)現(xiàn)的開(kāi)源搜索引擎項(xiàng)目,自Nutch1.2版本之后,Nutch已經(jīng)從搜索引擎演化為網(wǎng)絡(luò)爬蟲(chóng),接著Nutch進(jìn)一步演化為兩大分支版本:1.X和2.X,這兩大分支最大的區(qū)別在于2.X對(duì)底層的數(shù)據(jù)存儲(chǔ)進(jìn)行了抽象以支持各種底層存儲(chǔ)技術(shù)。Nutch 致力于讓每個(gè)人能很容易, 同時(shí)花費(fèi)很少就可以配置世界一流的Web搜索引擎.

使用原理

在創(chuàng)建一個(gè)WebDB之后(步驟1), “產(chǎn)生/抓取/更新”循環(huán)(步驟3-6)根據(jù)一些種子URLs開(kāi)始啟動(dòng)。當(dāng)這個(gè)循環(huán)徹底結(jié)束,Crawler根據(jù)抓取中生成的segments創(chuàng)建索引(步驟7-10)。在進(jìn)行重復(fù)URLs清除(步驟9)之前,每個(gè)segment的索引都是獨(dú)立的(步驟8)。最終,各個(gè)獨(dú)立的segment索引被合并為一個(gè)最終的索引index(步驟10)。

其中有一個(gè)細(xì)節(jié)問(wèn)題,Dedup操作主要用于清除segment索引中的重復(fù)URLs,但是我們知道,在WebDB中是不允許重復(fù)的URL存在的,那么為什么這里還要進(jìn)行清除呢?原因在于抓取的更新。比方說(shuō)一個(gè)月之前你抓取過(guò)這些網(wǎng)頁(yè),一個(gè)月后為了更新進(jìn)行了重新抓取,那么舊的segment在沒(méi)有刪除之前仍然起作用,這個(gè)時(shí)候就需要在新舊segment之間進(jìn)行除重。

軟件截圖

下載地址 電腦版

用戶(hù)評(píng)論

熱門(mén)評(píng)論

最新評(píng)論

發(fā)表評(píng)論 查看所有評(píng)論(0)

昵稱(chēng):
請(qǐng)不要評(píng)論無(wú)意義或臟話(huà),我們所有評(píng)論會(huì)有人工審核.
字?jǐn)?shù): 0/500 (您的評(píng)論需要經(jīng)過(guò)審核才能顯示)