一、工作職責
1、需求分析與規劃:與團隊成員或客戶溝通,了解數據需求,確定需要爬取的數據類型、來源和頻率。規劃爬蟲程序的實現方案,包括架構設計、技術選型等。
2、爬蟲程序開發與維護:編寫爬蟲程序,利用HTTP請求模擬瀏覽器行為,訪問目標網站并抓取所需數據。對爬蟲程序進行調試和維護,確保穩定運行和高效爬取。
3、數據解析與提?。悍治瞿繕司W站的頁面結構和數據格式,使用正則表達式XPath、CSS選擇器等技術提取所需數據。對抓取到的數據進行清洗、去重、格式化等處理,確保數據質量。
4、反爬蟲應對:了解并分析目標網站的反爬蟲策略,采取相應的手段應對,如設置請求頭、使用代理IP、模擬用戶行為等。不斷優化爬蟲策略,降低被封禁的風險。
5、性能優化與擴展:不斷優化爬蟲程序的性能和穩定性,提高爬取效率和數據準確性。根據需求擴展爬取范圍和功能,滿足新的數據需求。
6、法律合規與道德考量:遵守相關法律法規和道德準則,尊重網站的使用條款和robots.txt文件。確保爬取行為的合法合規,不侵犯他人的合法權益。
二、崗位職責:
1、精通至少一種編程語言(如Python、Java等),熟悉正則表達式、XPath等技術;
2、熟悉HTTP協議、TCP/IP協議等網絡通訊原理;熟悉MySQL數據庫,了解MySQL索引優化、查詢優化和存儲優化,熟悉大數據開發框架;
3、負責從互聯網上自動獲取和提取數據,以滿足企業的數據分析和業務需求,為企業的決策支持、市場研究、產品優化等提供數據基礎。
(前期需到上海工作2個月,包住宿與午餐)
專業要求: 計算機科學與技術,電子與計算機工程,計算機應用技術,計算機網絡技術,軟件工程(可接受應屆生)