工作職責:
1.配置火車頭采集任務,從互聯網采集數據并入庫,涉及數據種類包含但不限于新聞/論壇/博客等。
2.維護火車頭采集腳本,保證站點架構變動后數據的正常采集。
3.搜集站點以及評測站點的可采集性,依據客戶及產品需求。
4.設計采集源數據庫(MySQL/Oracle),對數據清洗關聯及簡單分析,包含建表/存儲過程/觸發器/事件等。
5.日常監測數據采集相應服務的正常運行。
6.編碼采集網站內容。
任職要求:
1.熟練使用火車頭采集器。
2.熟悉html標簽。
3.熟悉javascript相關內容。
4.熟練使用json數據解析以及提取。
5.熟練使用xpath,正則表達式等提取內容。
6.熟悉http協議。
7.熟練使用mysql或者oracle數據庫。
8.至少會java或者python其中一門語言。
9.了解數據采集原理以及代理等。