python如何快速爬數據?
來源:
奇酷教育 發表于:
其實利用通用技術,多進程、多線程和協程的手段,可以實現加速爬數據。
曾經有新聞報道一個公司的員工,調高了線程數,加速爬數據,導致對方網站流量監控報警,然后就涼了。
其實利用通用技術,多進程、多線程和協程的手段,可以實現加速。

關于加速需要學習的知識點:
1.理解阻塞、非阻塞、同步、異步、并發、并行概念
2.熟悉python隊列的使用以及MQ的概念
3.多進程、進程池和進程間通信
4.多線程、線程封裝、線程全局變量、線程互斥、守護線程以及join的用法
5.協程、yield關鍵字、gevent、猴子補丁
6.異步請求輪子
7.常見解決方案:多線+異步(scrapy的原理)或 多進程+異步