苏州太谷电力股份有限公司

Python爬虫工程师

12K-22K|南京|3年以下|本科|全职

爬虫的进度

收藏 投个简历
工作职责:

具体要求:
1. 熟悉 Python,有分布式爬虫架构、数据挖掘经验;
2· 熟悉网页抓取原理及技术,熟悉基于Cookie的网站登录原理,熟悉基于正则表达式、Xpath、CSS等网页信息抽取技术;
3. 熟悉网络编程(TCP/HTTP 协议),具有 Linux 下编程经验和操作经验;;
4· 熟悉多线程,熟悉使用至少一种关系型数据库(MYSQL)等,熟悉NOSQL、hbase技术者优先;
5. 了解分布式系统的设计与实现,能够解决反爬虫、网络异常等各种常见爬虫问题;
6. 优秀的分析、解决问题能力,对处理未知的、挑战性问题充满激情;



主要职责:
1. 负责爬虫系统的设计、研发与维护;
2. 设计爬虫策略与算法,提升平台的抓取效率;
3. 持续优化系统,提高系统的稳定性及性能;
4· 网站、网页、链接的特征挖掘;对指定的多个网站进行网页抓取、数据的提取、清洗、入库;开发垂直站点定向抓取程序,持续优化系统已有模块性能;
5· 能实时监控爬虫的进度和警报反馈;

办公地点

南京-雨花台区-南京市雨花台区软件大道168号润和创智中心C栋3楼

查看地图