一站式社交平臺數據抓取利器MediaCrawler
當前位置:點晴教程→知識管理交流
→『 技術文檔交流 』
前言一站式社交平臺數據抓取利器,帶你玩轉小紅書、抖音、快手、B站和微博數據分析 不經意間,來查看MediaCrawler倉庫源碼,發現作者已經刪庫了。看來是領獎了。才幾天不到的時間Star數量已經直逼10K了,增長速度近乎瘋狂。 作者在這里也明顯進行了標注使用了無頭瀏覽器 那到底什么事無頭瀏覽器呢?無頭瀏覽器(Headless Browser)是一種瀏覽器程序,沒有圖形用戶界面(GUI),但能夠執行與普通瀏覽器相似的功能。無頭瀏覽器能夠加載和解析網頁,執行JavaScript代碼,處理網頁事件,并提供對DOM(文檔對象模型)的訪問和操作能力。
無頭瀏覽器其實就是看不見的瀏覽器,所有的操作都要通過代碼調用 API 來控制,所以瀏覽器能干的事兒,無頭瀏覽器都能干,而且很多事兒做起來比標準的瀏覽器更簡單。 能夠干什么呢?我舉幾個常用的功能來說明一下無頭瀏覽器的主要使用場景
這個倉庫如何使用呢首先這是一個Python庫,當然要安裝必要的Python環境,這個我就不多說了,通過GPT或者在網上搜索都可以進行安裝好。 最后運行命令后,會出現一個二維碼,比如這里我測試的是小紅書,出現二維碼之后,我們用小紅書App來掃描,并進行確認身份,這樣無頭瀏覽器就能識別并記住我們的身份信息,后續就可以通過該身份進行抓取一些數據了。
好了,OK ,數據就被這么簡單的抓取下來了。
轉自博客園,作者aehyok https://www.cnblogs.com/aehyok/p/18086730 該文章在 2024/3/27 17:48:43 編輯過 |
關鍵字查詢
相關文章
正在查詢... |