[python]爬取手机号码前缀和地区信息

简介: [python]爬取手机号码前缀和地区信息

概述

使用python爬取手机号码前缀7位、区号和地区。

小网站不容易,对爬虫也挺友好,就不放链接了。

代码

import requests
from lxml import etree
from fake_useragent import UserAgent
import time
def parse_page(url,header,cookie):
    """ 解析url,并写到文件中 """
    resp = requests.get(url,headers=header,cookies=cookie)
    html = etree.HTML(resp.text)
    filename = "phonenum.txt"
    # 爬取手机前缀
    phone_number_1 = html.xpath("//tr[@class='even']/td[1]/a/text()")
    # 爬取所在地区
    phone_number_1_city = html.xpath("//tr[@class='even']/td[2]/text()")
    # 爬取地区区号
    phone_number_1_citynum = html.xpath("//tr[@class='even']/td[4]/text()")
    phone_number_2 = html.xpath("//tr[@class='odd']/td[1]/a/text()")
    phone_number_2_city = html.xpath("//tr[@class='odd']/td[2]/text()")
    phone_number_2_citynum = html.xpath("//tr[@class='odd']/td[4]/text()")
    # 使用zip()组合爬取结果,并追加到文件中
    for i,j,k in zip(phone_number_1,phone_number_1_citynum,phone_number_1_city):
        with open(filename,"a",encoding="utf-8") as f_obj:
            f_obj.write(f"{i},{j},{k}\n")
    for x,y,z in zip(phone_number_2,phone_number_2_citynum,phone_number_2_city):
        with open(filename,"a",encoding="utf-8") as f_obj:
            f_obj.write(f"{x},{y},{z}\n")
        
def cookie_to_dict(cookie_src):
    cookie_dict = {}
    for i in cookie_src.split('; '):
        cookie_dict[i.split('=')[0]] = i.split('=')[1]
    return cookie_dict
def main():
    """ 执行主程序 """
    ua = UserAgent()
    # 地址很简单,直接range
    for page in range(1,1234):
        # 网站地址
        phone_url = "...........%d"%page
        phone_headers = {"User-Agent": ua.random}
        # 填写自己的cookie
        cookie_src = ""
        cookie = cookie_to_dict(cookie_src)
        parse_page(phone_url,phone_headers,cookie)
        print(f"page: {page}")
        # 暂停2秒,防止目标网站宕机
        time.sleep(2)
if __name__ == '__main__':
    main()

结果

爬取了463600条数据,部分数据如下:

...
...
1999451,0776,广西 百色
1999449,0772,广西 来宾
1999447,0774,广西 梧州
1999445,0778,广西 河池
1999443,0776,广西 百色
1999441,0771,广西 南宁
1999438,0931,甘肃 兰州
1999436,0931,甘肃 兰州
1999434,0943,甘肃 白银
1999432,0943,甘肃 白银
1999430,0943,甘肃 白银
1999418,0931,甘肃 兰州
1999416,0931,甘肃 兰州
1999414,0941,甘肃 甘南
1999412,0941,甘肃 甘南
...
...
相关文章
|
2月前
|
传感器 机器学习/深度学习 算法
【室内导航通过视觉惯性数据融合】将用户携带的智能手机收集的惯性数据与手机相机获取的视觉信息进行融合研究(Matlab代码实现)
【室内导航通过视觉惯性数据融合】将用户携带的智能手机收集的惯性数据与手机相机获取的视觉信息进行融合研究(Matlab代码实现)
111 2
|
4月前
|
API 数据安全/隐私保护 开发者
企业微信自动加好友软件,导入手机号批量添加微信好友,python版本源码分享
代码展示了企业微信官方API的合规使用方式,包括获取access_token、查询部门列表和创建用户等功能
|
4月前
|
前端开发 数据安全/隐私保护 Python
虚拟物流单号生成器, 虚拟快递单号假物流信息, 虚拟快递单号在线生成【python框架】
这个虚拟物流单号生成系统包含以下功能:支持多种主流快递公司的单号生成
|
4月前
|
数据安全/隐私保护 数据格式 Python
快递单号模拟生成器, 虚拟物流信息在线生成,虚假快递单号生成器【python】
支持多种主流快递公司生成符合各快递公司规则的快递单号自动生成收发件人信息
|
4月前
|
JSON 前端开发 API
快递单号生成器在线, 快递单号模拟生成器, 虚拟物流信息在线生成【python】
项目包含三个主要模块:快递单号生成器核心逻辑、Flask Web应用程序和前端HTML页面
|
4月前
|
JSON API 数据安全/隐私保护
车辆五项信息查询 API 的实践指南:通过Python调用赋能车辆信息标准化
本API通过车牌号快速获取车辆五项核心信息,包括品牌、登记日期、车架号等,助力二手车评估、维修、保险等场景实现数字化转型。数据源自权威公安交管库,日更同步,毫秒级响应,满足高并发需求,符合隐私保护规范,是推动汽车后市场智能化的重要工具。
232 0
|
5月前
|
API Python
VIN码查询API的实战指南:获取二手车信息以Python为例
随着机动车保有量上升,中国二手车市场迎来发展机遇。本文介绍如何通过VIN码查询API获取车辆详细信息,提升交易透明度与安全性。
126 1
|
4月前
|
机器人 测试技术 API
自动加好友软件手机免费版,无限制qq自动加人软件,python脚本插件分享
这个示例仅展示了基础的网页自动化测试原理,实际平台都有完善的反自动化机制。建议学习正规
|
9月前
|
存储 算法 API
【01】整体试验思路,如何在有UID的情况下获得用户手机号信息,python开发之理论研究试验,如何通过抖音视频下方的用户的UID获得抖音用户的手机号-本系列文章仅供学习研究-禁止用于任何商业用途-仅供学习交流-优雅草卓伊凡
【01】整体试验思路,如何在有UID的情况下获得用户手机号信息,python开发之理论研究试验,如何通过抖音视频下方的用户的UID获得抖音用户的手机号-本系列文章仅供学习研究-禁止用于任何商业用途-仅供学习交流-优雅草卓伊凡
1366 82
|
5月前
|
存储 Android开发
一键新机安卓无限, 免root改手机机型, 手机信息修改型号伪装
AndroidManifest.xml配置 资源文件管理 各系统服务的Hook

推荐镜像

更多