博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
一个完整的大作业
阅读量:7143 次
发布时间:2019-06-29

本文共 1884 字,大约阅读时间需要 6 分钟。

一个完整的大作业——新闻

1.选一个自己感兴趣的主题。

2.网络上爬取相关的数据。

3.进行文本分析,生成词云。

4.对文本分析结果解释说明。

5.写一篇完整的博客,附上源代码、数据爬取及分析结果,形成一个可展示的成果。

 

本次大作业选择的主题是新闻,其链接是http://news.sina.com.cn/world/:

 

网络上爬取相关的数据:

import requestsfrom bs4 import BeautifulSoupurl = 'http://news.sina.com.cn/world/'res = requests.get(url)res.encoding = 'UTF-8'soup = BeautifulSoup(res.text, 'html.parser')for news in soup.select('.news-item'):    h2 = news.select('h2')    if len(h2) > 0:        time = news.select('.time')[0].text        title = h2[0].text        href = h2[0].select('a')[0]['href']        print(title,time,href)

 

进行文本分析,生成词云:

import requestsfrom bs4 import BeautifulSoupfrom os import path  from scipy.misc import imread    import jieba  import sys  import matplotlib.pyplot as plt  from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator    text = open('D:\\world.txt').read()  wordlist = jieba.cut(text)     #cut_all = True  wl_space_split = " ".join(wordlist)  #print wl_space_split d = path.dirname(__file__)  nana_coloring = imread(path.join(d, "D:\\1.jpg"))  my_wordcloud = WordCloud( background_color = 'white',                                mask = nana_coloring,                                     max_words = 5000,                                        stopwords = STOPWORDS,                              max_font_size = 80,                                    random_state = 20,            )   # generate word cloud   text_dict = {   'you': 2993,   'and': 6625,   'in': 2767,   'was': 2525,   'the': 7845,}my_wordcloud = WordCloud().generate_from_frequencies(text_dict)#my_wordcloud.generate(text_dict)  image_colors = ImageColorGenerator(nana_coloring)   my_wordcloud.recolor(color_func=image_colors)  plt.imshow(my_wordcloud)    plt.axis("off")             plt.show()   my_wordcloud.to_file(path.join(d, "cloudimg.png"))

 

生成云图:

 

由词云可以看出,在国际里面,美国特朗普是最大关注点。

转载于:https://www.cnblogs.com/diaowen/p/7764019.html

你可能感兴趣的文章
在CI框架中如何实现伪静态
查看>>
ORACLE Postgresql中文排序
查看>>
UBOOT到内核到文件系统设置需要注意点
查看>>
卡尔曼滤波简介——4.方差比较
查看>>
mysql -- 预处理语句
查看>>
Silverlight如何调用淘宝API
查看>>
ESP8266- AP模式的使用
查看>>
hdu 1503 LCS输出路径【dp】
查看>>
博客园开张第一天
查看>>
java绘图
查看>>
The Semantic Web, Linked Data and Open Data
查看>>
用PHP逐行读取TXT文件
查看>>
从Android中Activity之间的通信说开来[转]
查看>>
SSH 常用命令
查看>>
模型思维_第1-4课_学习笔记
查看>>
linkin大话面向对象--方法详解
查看>>
Linkin大话Java和internet概念
查看>>
Linux指令--cp
查看>>
.Net多线程
查看>>
【物联网智能网关-01】通过AD采集获取温湿度
查看>>