热门话题白皮书HR资料
编程之美 | 一个HTML文件,找出里面的正文
2024.05.24

程序员的惊奇之处就是别人用工具学习怎样做的时候,你早已用你的几行代码实现了自己想做的事情~


一个HTML文件,找出里面的正文





Talk is cheap. Show me the code.--Linus Torvalds





“编程之美,让你爱上编程的美。”

挑战下面编程题目,一起体验编程的乐趣!



本期题目:

一个HTML文件,找出里面的正文




编程之美独有福利:

这个栏目就是为了培养大家编程动手习惯并且提高编程能力的一个平台,我们现如今给参与这个栏目的提供如下福利:

  • 源码分享

  • 每周评比编程之星(奖励牛客大礼包一份,这回是充满惊喜,每个大礼包里不一定包括什么)

  • 企业实习工作机会

  • 独家名誉及待遇

  • 参与开源项目

  • 定期的分享讲座

    等等等等!


我们想进行一些不一样的玩法,让学习变得更有趣!无论你找到工作与否,即使是已经工作了,你也要有一个练手交流的平台~


当然啦,重要的是来练习自己的编程能力,分享代码,交流技术的过程,这个过程中,你提升的不只是一点点~


为了让牛友能够更高效,更好的学习,特意为大家建了一个群:牛客编程之美源码群 595665246,只给真正想参与这个栏目和真正想学习的人开放,会在群里定期分享源码,只让真正想学习的人来参加,所以只有参与栏目(在本栏目下发出自己的代码的)才能加,加的时候备注一下牛客昵称~



编程之星

每一期的玩法都不一样!每一期的编程之星的规则也不一样~~重要的是人人都参与进来

本期编程之星评比规则:由工程师来评选~


注:因为目前群成员比较多,本着只让真正想参与的人进来的原则,可能后期会整理群啦,对这个没有兴趣的我们就会把位置让给真正有兴趣参加的人啦~





栏目介绍

编程之美,是牛客网推出的新栏目,每周推出一个项目供大家练手讨论交流。如果你有想实现的项目问题,欢迎私信牛妹~另外!另外!如果有好玩的项目题目可以私信牛妹,一经采用有奖励哦~~如果你有写博客或者公众号的习惯,也欢迎加牛妹qq:1037532015私信。



参考代码:

#!/usr/bin/env python
#coding: utf-8
from goose import Goose
from goose.text import StopWordsChinese
import sys
reload(sys)
sys.setdefaultencoding(
reload(sys)
sys.setdefaultencoding("utf-8")


# 要分析的网页url
url = 'http://www.ruanyifeng.com/blog/2015/05/thunk.html'
def extract(url):
    '''
    提取网页正文
    '''
    提取网页正文
    '''
    g = Goose({'stopwords_class': StopWordsChinese})
    article = g.extract(url=url)
    
    article = g.extract(url=url)
    return article.cleaned_text


if __name__ == '__main__':
    
    print extract(url)


↓↓↓点击阅读原文,分享你的代码