首页 >  开题报告  > 正文

基于大数据的网络舆情分析系统

选题目的及意义:
    随着计算机技术和通信技术的飞速发展,互联网作为继报纸、广播、电视之后的“第四媒体”早已融入了人们的日常生活。网络公民对企业、民生、政府管理、反腐败、社会道德等热点问题踊跃发表意见,形成一种强大的舆论压力,起影响甚至超过了报刊、电视等传统媒体。网络已经成为反映社会舆情的最主要载体。
在舆情媒体规模、媒体种类等发展迅猛的情况下,舆情导向的监测预警显得愈发重要,尤其是对于网络的舆情检测。网络相对其他媒体的开放性和相对自由的宽松度,是的许多人的发言摆脱了权力体制的管制或限制,可以无所顾忌的畅所欲言。但是由于网络的虚拟性,使得许多偏激主义者和阴谋家有机可乘,使得网络上很容易出现庸俗、灰色的言论。用一些带有强烈感情色彩的负面谣言蛊惑煽动网民,对网络的和谐环境、社会的稳定都构成威胁。因此必须对网络舆情进行有效监督,正确引导舆论导向。
由于我国的网络舆情还存在以下特殊情况:首先,由于历史的原因,我国曾长期处于封闭状态,很容易受到外来文化思想冲击;其次,目前我国正处于社会转型期,不可避免的存在诸多矛盾,容易使一些人出现情绪化冲动,以至于不能分辨是非;最后,少数社会管理者对于舆论习惯性回避或堵塞。因此,对网络舆情进行监控,分析,及时发现网络上有负面影响的舆情言论,防范误导性舆论的社会危害于未然,把握正确舆论前进导向,为构建社会和谐的舆情保驾护航。
选题研究动态:
国内外普遍重视网络舆情分析关键技术的研究,舆情分析涉及到的技术非常多,其核心为网络信息抓取技术、自然语言处理技术、Web挖掘技术。
(1)网络信息抓取技术
网络上的信息量无穷无尽,为了帮组人们从浩瀚的信息海洋中获取想要的信息,搜索引擎成为了一种有效的网络信息获取工具。其工作原理是,利用一个称为网络爬虫(Crawler)的工具,采用多线程并发搜索技术,在互联网中访问各节点,定期搜索信息抓取网页,并根据网络连接提取其他网页,对网页进行分析。
    目前国内外研究较多的关于爬虫技术的主要研究方向有:通用爬虫技术:即从一组URL源扩充到整个Web的信息采集;主题爬虫技术:即选择性的搜索那些与预先定义好的主题集相关页面进行采集。其中,主题爬虫技术是目前网络抓取技术的研究热点。
(2)自然语言处理技术
在国外,自然语言处理技术起步较早,话题检测与跟踪(Topic Detection and Tracking, TDT)引领该领域技术的发展。TDT是一种面向在信息流进行未知未知话题识别和已知话题跟踪的信息处理技术。TDT已经研究了多年,期间积累了丰富的文本分类算法,将这些算法应用到网络舆情挖掘中来,并且针对其特点加油画,可以解决舆情挖掘中的话题发现与追踪的首要问题。
虽然自然语言处理技术在国内起步较晚,但也已经在舆情信息分析技术方面取得了一些成绩:1)语料库研究:中国科学院计算技术研究所开发出的汉语词法分析系统ICTCLAS,该系统分词速度500KB/s左右,分词精度达98.45%,是目前全球最受欢迎的汉语分词开源系统。2)语篇理解研究:东北工学院的姚天顺教授和哈尔滨工业大学的王开铸教授等在计算机语言学的机器翻译和文本摘要技术的研究进行了有价值的尝试并取得了一定的成绩。3)概念层次网络理论:中国科学院的黄曾阳提出了一个以语义表达为基础的,融语义、语法、语用为一体的自然语言理解的理论体系,HNC概念层次网络理论,这一理论的提出为自然语言理解研究开辟了一条崭新的思路,HNC理论研究现在已经发展为国内自然语言理解研究的重要流派。
(3)Web挖掘技术
Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取用户感兴趣的、有价值的模式和隐藏信息。根据对Web数据的感兴趣程度不同,Web挖掘一般分为:Web内容挖掘、Web结构挖掘、Web用法挖掘三种。
文本分类、聚类技术是数据挖掘以及模式识别的基本技术,目前在Web挖掘中,也是最常用的两项技术。   
基本内容:
(1)资源采集:利用爬虫工具从制定网站抓取信息并制定抓取策略。
(2)网页预处理:将采集到的网页信息,通过分析网页结构,提取出系统需要的信息,包括标题、发布时间、发布人、点击量、回复量、正文内容等。
(3)舆情分析:该系统的核心部分,包括对网页进行分类,聚类,形成类别信息,话题信息和热点信息,并通过关键词词库实现人名识别、地名识别、机构名识别。
(4)资源检索:实现对舆情信息检索,主要为关键字的全文检索。
(5)文本分类:对信息进行分类。主要包括文章主题分类、正文与回复分类、舆情热度分类、倾向性分类。
(6)归档管理:方便使用者实现对重要舆情信息进行归档管理。
(7)系统管理:主要包括用户管理、权限管理、日志管理。
 
解决的主要问题:
1、主题爬虫技术的研究及设计。
2、Web信息挖掘技术的研究。
3、网络舆情热点发现的研究。
4、网络舆情趋势分析技术的研究。
5、网络舆情倾向性研究。
6、后台管理及前台操作的设计及开发。
  研究方法:
本系统分为网络数据采集,舆情信息分析,后台管理,前台展示四部分。通过查找论文,翻阅文献对每一部分的单独学习。通过网络教程学习编程语言。最后再整个系统进行设计开发并测试可行性。
 
研究步骤及措施: 
1. 确定课题研究方向; 
2. 收集资料,整理资料; 
3. 制定系统的流程与构架;
4. 编写程序,测量分析;
5. 完成论文的初稿,对论文进行修改。
第1~2周:搜集该课题资料,充分做好准备工作。
第3~4周:编写论文目录,实现毕业论文的总体框架。
第5~6周:阅读相关资料,完成开题报告。
第7~11周:认真学习课题相关知识,继续搜集资料,系统的完善相应知识。第12~13周:完成毕业论文的编写、修改。
 

以上是本题目部分介绍,若需要完整版或不符合您的要求,请联系客服QQ:840612233

上一篇:我的驴友网的设计与优化

下一篇:最后一页

相关文章: