小说数据分析软件(小说数据分析师)

网友投稿 997 2022-12-28

本篇文章给大家谈谈小说数据分析软件,以及小说数据分析师对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享小说数据分析软件的知识,其中也会对小说数据分析师进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

常用统计分析软件汇总

我们在工作过程中或者更在找工作的过程中,常常发现大家数据分析的软件或统计分析的软件有很多。我们这里对常用的统计分析软件做一个简单的介绍。

Excel是我们最常见的办公工具,对于数据量并不是很大的数据,Excel可以很灵活便捷的处理。其便利程度甚至高于以下提及的任何一个软件。所以Excel一定要学好,不仅要掌握好Excel基本的功能,还要熟练使用Excel公式、Excel图表等功能。

可以说是目前最标准的最权威的统计学软件。SAS是一个程序化的软件,这么说是因为在SAS中用程序写比用菜单要简便快捷。广泛应用于银行、金融行业、生物医药等行业。
SAS既可以处理横截面数据、时间序列数据,也可以处理面板数据。

擅长处理横截面数据。SPSS的界面和菜单做的很优秀(除了翻译不标准很让人无奈之外),其外观基本上和Excel很像。在SPSS的使用过程中,我们可以用菜单很方便快捷进行操作。这很方便初学者进行学习,而不用特意去学习编写程序。广泛应用于电信行业、市场咨询行业。如果数据量在几千万行,用SPSS和SAS处理时长差不多。但是对于更大的数据量(亿以上级别),SAS就会比SPSS在处理速度上凸显优势。

擅长处理时间序列数据,计量经济学方向应用广泛。

擅长处理面板数据。和SPSS用户群重叠度比较高。

R语言对于横截面数据、时间序列数据、面板数据都能处理。其特点在于R软件是开源的软件,其中有异常丰富(约有1万多个)的可以调用的“包”。

本身不是统计学软件,但是其中有统计工具箱。工程领域用的多。

其实作为一名数据分析师来说,以上的分析软件并不需要每一个都掌握,我们只需要精通最擅长的一门,同时掌握另外一门作为辅助也就可以了。这就像是武侠小说里面的大侠,一定有最擅长的一门兵器,但是同时呢,肯定也有其他能够使得上手的兵器。而关于到底使用什么软件呢?一定要根据以上提及的软件的特点,结合上行业的特点来决定。任何脱离行业和业务的数据分析都无从谈起。
另外,这里不得不提及一个问题,以上的各个数据分析软件是否有高低贵贱之分呢?我个人认为是没有的。其道理就像是,我们在选择不同的工具,其出发点都在于这个工具一定可以最快捷方便的解决目前的问题。杀鸡焉用牛刀,杀鸡用杀鸡刀,宰牛当然用牛刀。

写小说用什么软件好?

橙瓜码字作为支持Windows/MacOS/iOS/Android手机电脑多端环境运行小说数据分析软件的专业写作软件小说数据分析软件,自2019年2月上线内测。4月公测,5月正式上线,一路走来倍受用户推崇和喜爱。
橙瓜码字是橙瓜为作家量身打造的专业码字工具,各种贴心功能设计让码字变得轻松,如今橙瓜码字已经更迭到5.0版本,让我们着重向您介绍一下橙瓜码字的几大核心功能吧。
一,多平台和系统兼容,手机电脑一键储存云同步
多平台云同步,支持电脑、手机端和平板电脑,苹果和安卓,只需一个账号,就可以同步在线,云端储存,随时备份。伴随着网络文学的发展,网络文学创作者的职业和身份也越来越多元化,从学生到职场白领,从家庭主妇到农民工人,大家纷纷开始利用闲暇时间进行网络文学创作。
不同的平台和一个账号多平台数据共通云同步也给大家带来小说数据分析软件了便利,无论是在学校的课余时间,出差时无法携带电脑还是上班的途中,手机、电脑、平板都可以成为小说数据分析软件你的码字工具,橙瓜码字让你的文学创作更加方便。
二,时光机云端和本地备份,不怕丢稿
电脑手机突然没电关机等情况是许多作者会面对的问题,突发状况的产生使得很多人无法找回自己花了几十分钟甚至几个小时写好的稿子,橙瓜码字时光机每章有十个云端备份以及一个本地备份,完全不担心丢稿,面对突发情况也能通过时光机马上恢复自己的辛苦劳动成果。
三,小黑屋强制锁定,战队房间在线拼字告别懒惰
小黑屋强制锁定和在线拼字功能,让你告别懒惰和孤独的码字方式。拥有小黑屋模式的橙瓜码字,拥有时间和字数锁定码字,当你完成设定目标之后,将无法离开码字页面,帮助你专注于写作,提高效率。除此之外,橙瓜码字还推出了战队模式和拼字玩法,用户可以加入自己喜欢的战队,不仅能一起码字,还能一起聊天分享趣事和想法,房间拼字可以进行随机匹配或者指定加入,在设定了目标字数的房间,拼字模式不仅能获得大量的橙瓜币奖励,还能激励自己提高速度去竞争,多种码字互动玩法,让码字多些乐趣
四,一键投稿,秒杀商城,让你的创作无后顾之忧
数据统计功能和护眼模式是橙瓜推出的人性化设计,橙瓜码字不仅拥有多款护眼皮肤,还能在设计界面自定义皮肤背景,让你码字的眼睛不再疲劳。数据统计可以实时计算码字速度和每天码字记录,还能设定稿费标准进行稿费计算,实时看到自己的稿费收入。
网络文学的篇幅和剧情的创作让作者面对很多问题,取名困难或者有时候在不知情的情况下文章内带有了敏感词。在这里橙瓜码字的功能敏感词一键查找替换就让你摆脱了烦恼,橙瓜不仅自带海量的敏感词库,还支持作家自定义添加,能让你实时更新敏感词库。
而橙瓜的随机取名可以一键随机生成人名、地名、武器、功法等各种名字,让你码字取名又快又好听。橙瓜码字的导入导出功能支持多种文本的导入和导出,方便用户对文件进行转换存储,橙瓜码字更是具有一键排版的功能,让你的排版不再是问题。
最主要的是本次橙瓜码字更新还增加了一键投稿功能,汇聚了全文男频,女频和二次元等信誉网站的投稿方式,只需要在橙瓜码字页面点击按钮,就能获取最全的投稿方式。
此次橙瓜码字5.0版本不仅对于以上功能进行了优化和升级,更是添加了两大重量级功能——橙瓜数据的融合以及橙瓜秒杀商城的上线,橙瓜数据对全网数十个网站进行排名和数据分析,让你在码字之余也能实时掌握网络文学行业动向和风向。
橙瓜码字一直致力于服务和回报网络文学行业,作者可以通过码字、签到等方式免费获得橙瓜币,橙瓜币可以免费在橙瓜码字上兑换橙瓜码字会员,开启炫酷的码字特效和音效。更主要的是橙瓜秒杀商城定期上线大神签名书、橙瓜定制品、大神周边等可以被橙瓜币免费兑换的好物,让作者更有码字的动力。
在橙瓜码字的用户支持下,橙瓜码字已经更新到了5.0版本,不断的优化和升级,让橙瓜码字功能越来越齐全强大,越来越好用,同时也显示了橙瓜码字的追求——打造最好用的码字软件,致力于服务网络文学以及网络文学相关行业,和网络文学的诸位走向美好而又更光明的明天。

正在编写一个软件,小说阅读器,急需数据库详细设计,求高人指点

建议用Access或mysql
主表:小说名ID、小说名称
从表:小说ID、章节ID、章节名称、章节内容(根据不同的数据库而定字段类型,Access用memo字段)
在存入章节内容的时候,建议用固定长度字段流的形式存入。每一段“流”新建一条记录。
没有太多时间看,这点建议希望对你有用

MapReduce之金庸的江湖人物分析项目

通过一个综合数据分析案例:”金庸的江湖——金庸武侠小说中的人物关系挖掘“,来学习和掌握MapReduce程序设计。通过本项目的学习,可以体会如何使用MapReduce完成一个综合性的数据挖掘任务,包括全流程的数据预处理、数据分析、数据后处理等。
1 任务1 数据预处理
1.1 任务描述
从原始的金庸小说文本中,抽取出与人物互动相关的数据,而屏蔽掉与人物关系无关的文本内容,为后面的基于人物共现的分析做准备。

1.2 关键问题
1.2.1 中文分词和人名提取
使用开源的Ansj_seg进行分词。Ansj_seg不仅支持中文分词,还允许用户自定义词典,在分词前,将人名列表到添加用户自定义的词典,可以精确识别金庸武侠小说中的人名。
但实际测试的时候发现,Ansj_seg分词会出现严重的歧义问题,比如“汉子”属于人名列表中的人名(nr),但Ansj_seg可能会错误地将它分类为名词(n)。因此,如果根据词性提取人名,会导致最后提取的人名太少。解决方法是在提取人名的时候,需要在将人名加入用户自定义词典的同时,构造一个包含所有人名的字典,对分词的结果逐个进行测试,如果在字典里,就是人名。
1.2.2 文件传输
使用HDFS传递数据。考虑到人名列表文件已经存放在了HDFS里,所以使用HDFS的方式不需要移动人名列表文件,只需要在Configuration中设置文件在HDFS文件系统中的路径,然后在Mapper的setup()函数里调用HDFS的函数获取文件内容即可。
1.2.3 单词同现算法
两个单词近邻关系的定义:实验要求中已经说明,同现关系为一个段落。
段落划分:非常庆幸的是,小说原文中一个段落就是一行,因此,不需要自己定义FileInputFormat和RecordReader。
1.3 MapReduce设计
1.3.1 Mapper

1.3.2 Reducer

1.3.3 Driver

2 任务2 特征抽取:人物同现统计
2.1 任务描述
完成基于单词同现算法的人物同现统计。在人物同现分析中,如果两个人在原文的同一段落中出现,则认为两个人发生了一次同现关系。我们需要对人物之间的同现关系次数进行统计,同现关系次数越多,则说明两人的关系越密切。

2.2 关键问题
2.2.1 人名冗余
在同一段中,人名可能多次出现,任务一只负责提取出所有的人名,没有剔除多余的人名,任务必须在输出同现次数之前处理冗余人名。我的做法是在Mapper中创建一个集合,把所有人名放入集合中,集合会自动剔除冗余的人名。
2.2.2 同现次数统计
两个人物之间应该输出两个键值对,如“狄云”和“戚芳”,应该输出“<狄云,戚芳 1”和“<戚芳,狄云 1”。多个段落中允许输出相同的键值对,因此,Reducer中需要整合具有相同键的输出,输出总的同现次数。
2.3 MapReduce设计
2.3.1 Mapper

2.3.2 Reducer

3 任务3 特征处理:人物关系图构建与特征归一化
3.1 任务描述
根据任务2人物之间的共现关系,生成人物之间的关系图。人物关系使用邻接表的形式表示,人物是顶点,人物之间关系是边,两个人的关系的密切程度由共现次数体现,共现次数越高,边权重越高。另外需要对共现次数进行归一化处理,确保某个顶点的出边权重和为1。

3.2 关键问题
3.2.1 确保人物的所有邻居输出到相同结点处理
在Mapper结点将输入的键值对“<狄云,戚芳 1”拆分,输出新的键值对“<狄云 戚芳:1”,“狄云”的所有邻居会被分配给同一个Reducer结点处理。
3.2.2 归一化
在Reducer结点首先统计该人物与所有邻居同现的次数和sum,每个邻居的的同现次数除以sum就得到共现概率。为了提高效率,在第一次遍历邻居的时候,可以把名字和共现次数保存在链表里,避免重复处理字符串。
3.3 MapReduce设计
3.3.1 Mapper

3.3.2 Reducer

4.1 任务描述
经过数据预处理并获得任务的关系图之后,就可以对人物关系图作数据分析,其中一个典型的分析任务是:PageRank 值计算。通过计算 PageRank,我们就可以定量地获知金庸武侠江湖中的“主角”们是哪些。
4.2 PageRank原理
PageRank算法由Google的两位创始人佩奇和布林在研究网页排序问题时提出,其核心思想是:如果一个网页被很多其它网页链接到,说明这个网页很重要,它的PageRank值也会相应较高;如果一个PageRank值很高的网页链接到另外某个网页,那么那个网页的PageRank值也会相应地提高。
相应地,PageRank算法应用到人物关系图上可以这么理解:如果一个人物与多个人物存在关系连接,说明这个人物是重要的,其PageRank值响应也会较高;如果一个PageRank值很高的人物与另外一个人物之间有关系连接,那么那个人物的PageRank值也会相应地提高。一个人物的PageRank值越高,他就越可能是小说中的主角。
PageRank有两个比较常用的模型:简单模型和随机浏览模型。由于本次设计考虑的是人物关系而不是网页跳转,因此简单模型比较合适。简单模型的计算公式如下,其中Bi为所有连接到人物i的集合,Lj为认为人物j对外连接边的总数:

在本次设计的任务3中,已经对每个人物的边权值进行归一化处理,边的权值可以看做是对应连接的人物占总边数的比例。设表示人物i在人物j所有边中所占的权重,则PageRank计算公式可以改写为:

4.3.2 PageRanklter类
GraphBuilder将数据处理成可供迭代的格式,PageRank的迭代过程由PageRanklter类实现,包含一个Map和Reduce过程。Map过程产生两种类型的<key,value:<人物名,PageRrank值,<人物名,关系链表。第一个人物名是关系链表中的各个链出人物名,其PR值由计算得到;第二个人物名是本身人物名,目的是为了保存该人物的链出关系,以保证完成迭代过程。以上面的输出为例,则Map过程产生的键值对为<完颜萍, 1.0 0.005037,<小龙女, 1.0 0.017632,……,<一灯大师, #完颜萍:0.005037783;……。
Reduce过程将同一人物名的<key,value汇聚在一起,如果value是PR值,则累加到sum变量;如果value是关系链表则保存为List。遍历完迭代器里所有的元素后输出键值对<人物名,sum#List,这样就完成了一次迭代过程。
PR值排名不变的比例随迭代次数变化的关系图如下,由于我们考虑的是找出小说中的主角,所以只要关心PR值前100名的人物的排名的变化情况,可以看到迭代次数在10以后,PR值排名不变的比例已经趋于稳定了,所以基于效率考虑,选取10作为PR的迭代次数。
4.3.3 PageRankViewer类
当所有迭代都完成后,我们就可以对所有人物的PageRank值进行排序,该过程由PageRankViewer类完成,包含一个Map和Reduce过程。Map过程只提取迭代过程输出结果中的人物名以及对应的PageRank值,并以PageRank值作为key,人物名作为value输出。为了实现PageRank值从大到小排序,需要实现DescFloatComparator类来重写compare方法以达成逆序排序。由于可能存在PageRank值相同的情况,所以还需要一个reduce过程来把因PageRank值相同而汇聚到一起的人物名拆开并输出。

PageRankMapper

PageRankReducer

Driver类

5.1 任务描述
标签传播(Label Propagation)是一种半监督的图分析算法,他能为图上的顶点打标签,进行图顶点的聚类分析,从而在一张类似社交网络图中完成社区发现。在人物关系图中,通过标签传播算法可以将关联度比较大的人物分到同一标签,可以直观地分析人物间的关系。
5.2 标签传播算法原理
标签传播算法(Label Propagation Algorithm,后面简称LPA)是由Zhu等人于2002年提出,它是一种基于图的半监督学习方法,其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。LPA基本过程为:(1)每个结点初始化一个特定的标签值;(2)逐轮更新所有节点的标签,直到所有节点的标签不再发生变化为止。对于每一轮刷新,节点标签的刷新规则如下:对于某一个节点,考察其所有邻居节点的标签,并进行统计,将出现个数最多的那个标签赋值给当前节点。当个数最多的标签不唯一时,随机选择一个标签赋值给当前节点。
LPA与PageRank算法相似,同样需要通过迭代过程来完成。在标签传播算法中,节点的标签更新通常有同步更新和异步更新两种方法。同步更新是指,节点x在t时刻的更新是基于邻接节点在t-1时刻的标签。异步更新是指,节点x在t时刻更新时,其部分邻接节点是t时刻更新的标签,还有部分的邻接节点是t-1时刻更新的标签。若LPA算法在标签传播过程中采用的是同步更新,则在二分结构网络中,容易出现标签震荡的现象。在本次设计中,我们考虑到了两种更新方法,并进行了比较。
5.3 标签传播算法在mapreduce上的实现细节
5.3.1 LPAInit类
为实现LPA的迭代过程,需要先给每个人物赋予一个独特标签,标签初始化由LPAInit类完成,仅包含一个Map过程。标签由数字表示,Map过程由1开始,为每一个人物名赋予一个独特的标签。为了便于后面的可视化分析,我们需要把PageRank值和标签整合在一起,所以LPAInit的输入文件直接采用PageRank过程的输出文件,格式如下:

5.3.2 LPAIteration类
LPAIteration类完成标签的更新过程,其格式与LPAInit的输出格式一致,包含一个Map和Reduce过程。Map过程对输入的每一行进行切割,输出四种格式的<key,value:<人物名,关系链表,<人物名,PageRank值,<人物名,标签,<链出人物名,标签#起点人物名。第四种格式个键值对是为了将该节点的标签传给其所有邻居。
Reduce过程对value值进行识别,识别可以通过Map过程把预先定义好的特殊字符如‘#’、‘@’来实现前缀到value上来实现。由于人物关系图中的各个边都是有权重的,并且代表两个人物的相关程度,所以标签更新过程不是用边数最多的标签而是权重最大标签来更新,我们可以预先把权重最大的若干个保存到一个链表中,如果存在多个权重相同的标签,则随机选取一个作为该人名新的标签。异步方法更新标签需要使用一个哈希表来存储已经更新标签的人物名和它们的新标签,并且在更新标签时使用该哈希表里面的标签。同步方法更新标签则不需要存储已更新的标签。
本次设计中比较了同步和异步更新两种方法,下图为标签不变的比例随迭代次数的变化。可以发现,异步收敛速度更快,只要6次迭代即可完全收敛,且标签不变的比例可达100%。而同步更新方法则不能达到100%,说明人物关系图中存在子图是二部子图。
5.3.3 LPAReorganize类
LPA算法迭代收敛后,所有人物名的标签不再变化,但是此时的标签排列是散乱的,需要把同一标签的人物名整合在一起。该过程由LPAReorganize类完成,包含一个Map和Reduce过程。Map过程对输入的每一行进行切割,以<标签,人物名#PageRank值#关系链表格式输出。Reduce过程中,同一标签的人物名汇聚在一起,然后根据每个标签人物集合的大小从大到小排序,重新赋予标签(从1开始)。这样输出文件中同一标签的人物名就会聚集在一起。最后的输出格式如下:

5.3.2 LPAMapper类
LPAIteration类完成标签的更新过程,其格式与LPAInit的输出格式一致,包含一个Map和Reduce过程。Map过程对输入的每一行进行切割,输出四种格式的<key,value:<人物名,关系链表,<人物名,PageRank值,<人物名,标签,<链出人物名,标签#起点人物名。第四种格式个键值对是为了将该节点的标签传给其所有邻居。

5.3.2 LPAReducer类
Reduce过程对value值进行识别,识别可以通过Map过程把预先定义好的特殊字符如‘#’、‘@’来实现前缀到value上来实现。由于人物关系图中的各个边都是有权重的,并且代表两个人物的相关程度,所以标签更新过程不是用边数最多的标签而是权重最大标签来更新,我们可以预先把权重最大的若干个保存到一个链表中,如果存在多个权重相同的标签,则随机选取一个作为该人名新的标签。异步方法更新标签需要使用一个哈希表来存储已经更新标签的人物名和它们的新标签,并且在更新标签时使用该哈希表里面的标签。同步方法更新标签则不需要存储已更新的标签。

Driver类

6.1 可视化工具Gephi
Gephi是一款开源的跨平台的基于JVM的复杂网络分析软件。把PageRank和LPA的结果,转化为gexf格式,在Gephi中绘制图像并分析大数据实验结果,更加直观、易于理解。
gexf实际上是一种特殊的XML文件,python的gexf库提供了接口方便我们编辑和生成gexf文件,因此我们选择使用python处理PageRank和LPA的结果。顶点有两种属性,LPA生成的标签和PageRank计算的PR值,每条边的权重是PageRank计算出的值。在可视化的时候,标签决定顶点显示的颜色,PR值决定标签的
6.2 可视化预处理
编写一个python程序transform2xml.py,将数据分析部分得到的PR值,标签以及点连接关系处理成一个可供Gephi读取的gexf文件。
6.3 可视化结果

7 输出结果截图

7.2 同现次数统计

7.4 PageRank

智能分析的软件哪款用着好?

数据分析最常用的软件就是EXCEL,比如你要画一些图表,像折线图、柱形图、饼图等,EXCEL还是很方便的。专业的分析软件有很多,比如统计软件SPSS和SAS,还有R软件,MINiTAB。数据分析用什么软件,还是要看你的数据类型和你的分析的目的,如果你需要建模,你可以用SPSS或者SAS,这两个软件是世界通用的,里面有很多自动的模型,你只需要进行一些预处理,就可以利用这些模型出结果,但是你要有较深厚的统计学知识,否则结果你会看不懂的。一般的分析,用EXCEL就足够了,比如数据透视表,可以做很多的分类汇总和筛选,能满足你一般的分析需求。 关于小说数据分析软件和小说数据分析师的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 小说数据分析软件的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于小说数据分析师、小说数据分析软件的信息别忘了在本站进行查找喔。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:受欢迎的无代码开发平台(无代码开发平台免费)
下一篇:手机应用无代码开发平台(手机应用无代码开发平台有哪些)
相关文章