使用python提取url中的顶级域名及其后缀

        提取url中的信息,可以使用python中的urlparse模块进行解析,但是有个缺陷是无法提取顶级域名。参考博文:https://blog.csdn.net/weixin_44799217/article/details/124591187

        提取较为复杂的url信息,还可以使用tld模块。

安装方法:

         通过tld模块可以提取一个url中的顶级域名(不包含后缀部分)、顶级域名(包含后缀部分)、域名后缀和子域名部分(不含后缀)。

注意:使用tld模块时,域名中必须包含协议(HTTP等),否则会报错。

示例代码1:

import tld

url1 = 'www.baidu.com/test/index.php?username=dgw'
url2 = 'http://www.baidu.com/test/index.php?username=dgw'

ret = tld.get_fld(url1)
print(ret)

 示例代码2:

import tld

url1 = 'www.baidu.com/test/index.php?username=dgw'
url2 = 'http://www.baidu.com/test/index.php?username=dgw'

ret = tld.get_fld(url2)
print(ret)

 示例代码3:

import tld

url = 'http://www.baidu.com/test/index.php?username=dgw'

ret = tld.get_tld(url, as_object=True)
print(ret)


print(ret.domain)
print(ret.extension)
print(ret.fld)
print(ret.subdomain)
print(ret.suffix)

详见tld库:tld · PyPI 


版权声明:本文为weixin_44799217原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。