2021.5.22 Python爬虫实战:效率办公,从下载文献开始...

百度学术中,当我们查找论文原文时,需要知道该论文的DOI(Digital Object Identifier),通过它可以方便、可靠地链接到论文全文。但是,如果我们所需查找的同主题论文数目繁多,这时候我们再手动操作,难免机械重复、劳心劳力。于是乎,我们可以通过Python来帮助我们实现论文的自动化查找。

主要思路是:爬取DOI→构建sci-hub下载链接→下载到指定文件夹


Python源代码如下:

【注】编辑器为JupyterNotebook!

# 导入所需模块
import requests
import re
# 获取URL信息
def get_url(key):
    url = 'https://xueshu.baidu.com/s?wd=' + key + '&ie=utf-8&tn=SE_baiduxueshu_c1gjeupa&sc_from=&sc_as_para=sc_lib%3A&rsv_sug2=0'
    return url
# 设置请求头
headers = {
    'user-agent':
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'Referer': 'https://googleads.g.doubleclick.net/'
}
# 获取相关论文的DOI列表
def get_paper_link(headers, key):
    response = requests.get(url=get_url(key), headers=headers)
    res1_data = response.text
    # 找论文链接
    paper_link = re.findall(r'<h3 class=\"t c_font\">\n +\n +<a href=\"(.*)\" data-click',
                            res1_data)

    doi_list = []  # 用一个列表接收论文的DOI
    for link in paper_link:
        response2 = requests.get(url=link, headers=headers)
        res2_data = response2.text
        # 提取论文的DOI
        try:
            paper_doi = re.findall(r'\'doi\'}\">\n +(.*?)\n ', res2_data)
            if str(10) in paper_doi[0]:
                doi_list.append(paper_doi)

        except:
            pass
    return doi_list

【注】调用上一个代码块中的get_paper_link()函数,传入参数为“请求头”和“关键词”。

下方的代码块为测试代码:

a = get_paper_link(headers, 'apple')
print(a)

测试结果如下:

以上结果表明:获取的论文doi正常。 


# 构建sci-hub下载链接
def doi_download(headers, key):
    doi_list = get_paper_link(headers, key)
    lst = []
    for i in doi_list:
        lst.append(list(i[0]))
    for i in lst:
        for j in range(8, len(i)):
            if i[j] == '/':
                i[j] = '%252F'
            elif i[j] == '(':
                i[j] = '%2528'
            elif i[j] == ')':
                i[j] = '%2529'
            else:
                i[j] = i[j].lower()
    for i in range(len(lst)):
        lst[i] = ''.join(lst[i])
    for doi in lst:
        down_link = 'https://sci.bban.top/pdf/' + doi + '.pdf'
        print(down_link)
        file_name = doi.split('/')[-1] + '.pdf'
        try:
            with open(file_name, 'wb') as f:
                r = requests.get(url=down_link, headers=headers)
                f.write(r.content)
                print('下载完毕:' + file_name)
        except:
            print("该文章为空")
            pass
# 检索及下载
key = input("请输入您想要下载论文的关键词(英文):")
doi_download(headers, key)

Philosophy(哲学)为例,运行结果如下:

 我们打开已经下载好的一篇论文:

全过程约 1 min,可见用Python进行论文自动化下载,的确在一定程度上提高了我们的工作效率!


笔者目前本科在读,因课业缘故回复评论速度较慢,以后一定改正,还望各位监督。

同时,由于本人非科班出身,学习计算机编程全凭兴趣,因此水平有限,不足之处还请指教

最后感谢友友们的阅读和指正,源代码已做修改,之前的bug已经修复啦!


版权声明:本文为weixin_49733245原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。