欧美成人精品手机在线观看_69视频国产_动漫精品第一页_日韩中文字幕网 - 日本欧美一区二区

LOGO OA教程 ERP教程 模切知識(shí)交流 PMS教程 CRM教程 開(kāi)發(fā)文檔 其他文檔  
 
網(wǎng)站管理員

[轉(zhuǎn)帖]攔截惡意蜘蛛爬取網(wǎng)站鏈接的方法

liguoquan
2024年10月12日 16:10 本文熱度 736
:攔截惡意蜘蛛爬取網(wǎng)站鏈接的方法


總有壞人想爬我網(wǎng)站的數(shù)據(jù),看我用這 10 招干他!_攔截惡意蜘蛛爬取網(wǎng)站鏈接的方法

如何防止網(wǎng)站被爬蟲(chóng)?

1、使用協(xié)議條款

robots.txt 是一個(gè)放置在網(wǎng)站根目錄下的文件,用于告訴搜索引擎的爬蟲(chóng)哪些部分不希望被抓取。

舉個(gè)例子,可以在 robots.txt 文件中添加如下規(guī)則來(lái)禁止特定目錄或文件被抓取:

User-agent: *
Disallow: /private/
Disallow: /important/
  • 1
  • 2
  • 3
  • 4

雖然大多數(shù)合規(guī)的爬蟲(chóng)會(huì)遵守這些規(guī)則,但惡意爬蟲(chóng)可能會(huì)忽視它,所以,僅憑 robots.txt 不能完全阻止所有爬蟲(chóng)。但它是防護(hù)的第一步,起到一個(gè)聲明和威懾的作用。

可以在網(wǎng)站的服務(wù)條款或使用協(xié)議中明確禁止爬蟲(chóng)抓取數(shù)據(jù),并將違反這些條款的行為視為違法,如果網(wǎng)站內(nèi)容被惡意爬蟲(chóng)抓取并造成了損害,robots.txt 可以作為違反這些條款的證據(jù)之一。

2、限制數(shù)據(jù)獲取條件

比起直接暴露所有數(shù)據(jù),可以要求用戶(hù)登錄或提供 API 密鑰才能訪(fǎng)問(wèn)特定數(shù)據(jù)。還可以為關(guān)鍵內(nèi)容設(shè)置身份驗(yàn)證機(jī)制,比如使用 OAuth 2.0 或 JWT(JSON Web Tokens),確保只有授權(quán)用戶(hù)能夠訪(fǎng)問(wèn)敏感數(shù)據(jù),有效阻止未經(jīng)授權(quán)的爬蟲(chóng)獲取數(shù)據(jù)。

3、統(tǒng)計(jì)訪(fǎng)問(wèn)頻率和封禁

可以利用緩存工具如 Redis 分布式緩存或 Caffeine 本地緩存來(lái)記錄每個(gè) IP 或客戶(hù)端的請(qǐng)求次數(shù),并設(shè)置閾值限制單個(gè) IP 地址的訪(fǎng)問(wèn)頻率。當(dāng)檢測(cè)到異常流量時(shí),系統(tǒng)可以自動(dòng)封禁該 IP 地址,或者采取其他的策略。

需要注意的是,雖然 Map 也能夠統(tǒng)計(jì)請(qǐng)求頻率,但是由于請(qǐng)求是不斷累加的,占用的內(nèi)存也會(huì)持續(xù)增長(zhǎng),所以不建議使用 Map 這種無(wú)法自動(dòng)釋放資源的數(shù)據(jù)結(jié)構(gòu)。如果一定要使用內(nèi)存進(jìn)行請(qǐng)求頻率統(tǒng)計(jì),可以使用 Caffeine 這種具有數(shù)據(jù)淘汰機(jī)制的緩存技術(shù)。

4、多級(jí)處理策略

為了防止 “誤傷”,比起直接對(duì)非法爬蟲(chóng)的客戶(hù)端進(jìn)行封號(hào),可以設(shè)定一個(gè)更靈活的多級(jí)處理策略來(lái)應(yīng)對(duì)爬蟲(chóng)。比如,當(dāng)檢測(cè)到異常流量時(shí),先發(fā)出警告;如果爬蟲(chóng)行為繼續(xù)存在,則采取更嚴(yán)厲的措施,如暫時(shí)封禁 IP 地址;如果解封后繼續(xù)爬蟲(chóng),再進(jìn)行永久封禁等處罰。

具體的處理策略可以根據(jù)實(shí)際情況來(lái)定制,也不建議搞的太復(fù)雜,別因此加重了系統(tǒng)的負(fù)擔(dān)。

5、自動(dòng)告警 + 人工介入

可以實(shí)現(xiàn)自動(dòng)告警能力,比如在檢測(cè)到異常流量或爬蟲(chóng)行為時(shí),系統(tǒng)能自動(dòng)發(fā)出企業(yè)微信消息通知。然后網(wǎng)站的管理員就可以及時(shí)介入,對(duì)爬蟲(chóng)的請(qǐng)求進(jìn)行進(jìn)一步分析和處理。

這點(diǎn)之前也給大家分享過(guò),不止是針對(duì)爬蟲(chóng),企業(yè)的線(xiàn)上系統(tǒng)最好接入全方面的告警,比如接口錯(cuò)誤、CPU / 內(nèi)存占用率過(guò)高之類(lèi)的。

6、爬蟲(chóng)行為分析

非法爬蟲(chóng)和正常用戶(hù)的行為一般是有區(qū)別的,爬蟲(chóng)往往遵循特定的訪(fǎng)問(wèn)模式。比如正常用戶(hù)每道題目都要看一會(huì)兒、看的時(shí)間也不一樣,而爬蟲(chóng)一般是按照固定的順序、固定的頻率來(lái)獲取題目,很明顯就能識(shí)別出來(lái)。

比如下面這種情況,有可能就是爬蟲(chóng):

7、請(qǐng)求頭檢測(cè)

每個(gè)發(fā)送到服務(wù)器的請(qǐng)求都有請(qǐng)求頭信息,可以通過(guò)檢查請(qǐng)求頭中的 User-Agent 和 Referer 等標(biāo)識(shí)符,對(duì)爬蟲(chóng)請(qǐng)求進(jìn)行攔截。

當(dāng)然,這招只能防防菜鳥(niǎo),因?yàn)檎?qǐng)求頭是可以很輕松地偽造的,只要通過(guò)瀏覽器自帶的網(wǎng)絡(luò)控制臺(tái)獲取到響應(yīng)正常的請(qǐng)求頭信息,就可以繞過(guò)檢測(cè)了。

8、自主公開(kāi)數(shù)據(jù)

記得大學(xué)上信息安全課的時(shí)候,學(xué)到一個(gè)知識(shí)點(diǎn):防止網(wǎng)絡(luò)攻擊的一種方法是,讓攻擊者的成本大于實(shí)際的收益。比如密碼 10 分鐘有效,破解密碼要花 15 分鐘,就不會(huì)有人去破解。

用到爬蟲(chóng)場(chǎng)景上,我們的做法是,不做任何限制,直接讓所有人不登錄也能查看到我們網(wǎng)站的題目數(shù)據(jù)!而且還提供了題目的各種篩選功能、收藏功能。大多數(shù)同學(xué)只是為了自己學(xué)習(xí),這樣一來(lái),就沒(méi)有必要花時(shí)間去爬數(shù)據(jù)了~

9、溯源技術(shù)

雖然題目都是公開(kāi)的,但有些我們專(zhuān)門(mén)請(qǐng)大廠(chǎng)大佬們來(lái)寫(xiě)的優(yōu)質(zhì)題解是僅會(huì)員可見(jiàn)的。如果有用戶(hù)使用爬蟲(chóng)抓取了這部分?jǐn)?shù)據(jù),可就要小心了!一般來(lái)說(shuō),只要你在一個(gè)網(wǎng)站登錄了,就一定會(huì)有訪(fǎng)問(wèn)記錄,如果你泄露了網(wǎng)站登錄后才可見(jiàn)的內(nèi)容、尤其是付費(fèi)內(nèi)容,網(wǎng)站管理員一定有辦法追溯到你是誰(shuí)。

比較常用的溯源技術(shù)就是水印、盲水印等。對(duì)于我們的面試?guó)啠旧砭褪峭ㄟ^(guò)微信登錄的,而且如果你是會(huì)員,肯定還有支付記錄。這些技術(shù)不僅幫助標(biāo)記數(shù)據(jù)源,還可以在數(shù)據(jù)被濫用時(shí)追蹤其來(lái)源,從而增強(qiáng)數(shù)據(jù)的保護(hù)。

10、科普法律

除了上面這些方法外,還可以通過(guò)接入反爬服務(wù)、接入驗(yàn)證碼、增加動(dòng)態(tài)時(shí)間戳等方式進(jìn)一步限制爬蟲(chóng)。但是要記住,爬蟲(chóng)是沒(méi)有辦法完美防御的!因?yàn)槟銦o(wú)法限制真實(shí)的用戶(hù),攻擊者完全可以模擬真實(shí)用戶(hù)的訪(fǎng)問(wèn)方式來(lái)獲取你的網(wǎng)站數(shù)據(jù),比如找 10 個(gè)用戶(hù),每人獲取幾百題。

所以我的最后一個(gè)方法是 —— 科普法律。可以在網(wǎng)站上發(fā)布明確的法律聲明,告知用戶(hù)未經(jīng)授權(quán)的抓取行為是違法的,可以對(duì)爬蟲(chóng)行為起到一定的威懾作用。并且還通過(guò)發(fā)布視頻和文章的方式,讓廣大程序員朋友們提高法律意識(shí)。爬蟲(chóng)是有一定風(fēng)險(xiǎn)的,自己學(xué)習(xí)倒沒(méi)問(wèn)題,但是千萬(wàn)別給人家的網(wǎng)站造成壓力了,搞不好就有破壞計(jì)算機(jī)系統(tǒng)的嫌疑了!

最后

從時(shí)代發(fā)展的角度看,網(wǎng)絡(luò)安全的知識(shí)是學(xué)不完的,而且以后要學(xué)的會(huì)更多,同學(xué)們要擺正心態(tài),既然選擇入門(mén)網(wǎng)絡(luò)安全,就不能僅僅只是入門(mén)程度而已,能力越強(qiáng)機(jī)會(huì)才越多。


該文章在 2024/10/12 16:10:24 編輯過(guò)
關(guān)鍵字查詢(xún)
相關(guān)文章
正在查詢(xún)...
點(diǎn)晴ERP是一款針對(duì)中小制造業(yè)的專(zhuān)業(yè)生產(chǎn)管理軟件系統(tǒng),系統(tǒng)成熟度和易用性得到了國(guó)內(nèi)大量中小企業(yè)的青睞。
點(diǎn)晴PMS碼頭管理系統(tǒng)主要針對(duì)港口碼頭集裝箱與散貨日常運(yùn)作、調(diào)度、堆場(chǎng)、車(chē)隊(duì)、財(cái)務(wù)費(fèi)用、相關(guān)報(bào)表等業(yè)務(wù)管理,結(jié)合碼頭的業(yè)務(wù)特點(diǎn),圍繞調(diào)度、堆場(chǎng)作業(yè)而開(kāi)發(fā)的。集技術(shù)的先進(jìn)性、管理的有效性于一體,是物流碼頭及其他港口類(lèi)企業(yè)的高效ERP管理信息系統(tǒng)。
點(diǎn)晴WMS倉(cāng)儲(chǔ)管理系統(tǒng)提供了貨物產(chǎn)品管理,銷(xiāo)售管理,采購(gòu)管理,倉(cāng)儲(chǔ)管理,倉(cāng)庫(kù)管理,保質(zhì)期管理,貨位管理,庫(kù)位管理,生產(chǎn)管理,WMS管理系統(tǒng),標(biāo)簽打印,條形碼,二維碼管理,批號(hào)管理軟件。
點(diǎn)晴免費(fèi)OA是一款軟件和通用服務(wù)都免費(fèi),不限功能、不限時(shí)間、不限用戶(hù)的免費(fèi)OA協(xié)同辦公管理系統(tǒng)。
Copyright 2010-2025 ClickSun All Rights Reserved