兼職崗位,任務包,地點鄭州,需現場測試,介意勿投!!!
1.需求數據:工程項目相關的招中標等公開數據
2.需求字段:公告標題、發布時間、詳情鏈接、公告正文、相關附件、網站所屬地址信息
3.開發要求:根據提供模板,基于python使用scrapy框架開發
4.驗收標準:spider代碼基于模板可遷移運行,使用項目代碼可正常采集,采集到的數據需求字段完整、無誤,按要求采集周期內的全部數據,過濾非需求公告,網站不改版的情況下可長期使用;
5.交付要求:交付完整代碼,數據我們自己運行采集
6.需求數量:50個目標網站
任職要求:
1、計算機相關專業,有2年以上爬蟲開發經驗。
2、精通Python語言,至少熟練掌握主流爬蟲框架中的一種;
3、熟悉常見反爬機制,驗證碼識別,IP代理池、應用Ip池、headers認證和cookie等;
4、有處理大規模數據的經驗,對分布式爬蟲有實際操作經驗者優先。