基于共词分析的国际企业研发文本知识挖掘可视化研究

作者：jkyxc 浏览数：次

摘要：科技文本挖掘为企业研发提供一个很好的了解同业竞争者研发知识的工具手段，而共词分析及其可视化是挖掘企业基础研发信息的重要方法。以国际大企业IBM公司为例，挖掘其基础研发知识结构并对其知识结构进行了可视化展示。

关键词：企业研发；科技文本挖掘；共词分析；可视化；IBM公司

中图分类号：F416 文献标识码：A

The Visualized Textual Mining Research of R & D in Internatinal Enterprizes Based on Co-word Analysis

YUE Hong-jiang

(School of Economics and Management,Nanjing University of Aeronautics and Astronautics, Nanjing 210016,China)[GK2!2]

Abstract:

Oriented technology R&D is the basis of R & D in the international enterprises.Science & Technology (S&T) text mining is used to extract technical intelligence from the open source global anthrax research literature. IBM Co. R&D literature infrastructure (prolific authors, key journals/ institutions/countries)is obtained with bibliometrics and literature of the co-keyword network for visualization.

一、前言

研发是现代大企业持续发展的核心，据不完全统计，目前世界500强企业研究开发的费用(R&D)占全球的近70%，并且这一比例还在不断上升，并垄断着世界技术创新70%以上的成果。在大企业技术创新体系中，面向技术的基础研发是整个研发环节之一。面向技术的基础研究是新技术、新发明的先导，信息技术、生物技术、激光技术、半导体技术、航空航天技术等都是基于基础研究的重大突破而产生出来的；企业面向技术的基础研究的重大进展往往可以推动高技术的重大突破，使公司获得市场竞争力和超额利润。

国际研发活动的一个重要内容就是技术监测或技术情报收集。20世纪90年代以来，在技术开发和市场管理的全球化过程中，特别是世界范围内的R&D资源在全球层面上实现集成管理，突出了了解国外其他公司技术发展的重要性，相应地也促进了技术情报工作的发展。

国际R&D中技术情报收集的途径多种多样，Jokob Edler等列举了跨国公司所采用的12种途径^[1]，其中包括因特网，在线数据分析。研发前沿通过各种不同媒介展现出来，包括各种科学与技术文本，主要有主要各种技术报告、学术论文、专利，以及其它媒体信息，还有研发的中试产品，等等。科技文献以每年6%的速度在增长^[2]。研发竞争情报对企业的竞争越来越重要。在互联网时代可以很容易的获取各种各样的信息，但面对日益快速发展的科学技术工业，特别是非结构化的知识数据管理仍然是一件复杂和费时的工作。

R&D管理是一个长期的劳动密集型过程，主要依靠科技专家广泛的知识和信息的积累。而随着全球化的发展，知识和信息呈爆炸性增长，以前的借助于手工信息处理已不再是主流的方法，随之而来的是借助于计算机辅助的信息提取、数据挖掘、信息处理技术，这些技术的有效运用，大大提高了企业研发知识和信息处理能力。

文献计量学、技术预测、技术评估、技术竞争情报等研究方法被应用到企业R&D管理和评价中去。文献计量学，特别是内容分析法曾是一种有效的展示企业研发信息的手段，但此方法有诸多局限性。近些年学者在关注“科技文本挖掘”（science and technology text mining）方法，用于分析科技文本的摘要和全文，这种方法可以有效的帮助企业R&D管理以及技术竞争情报等。特别是文本挖掘的可视化方法，可以充分展示企业R&D的主流、研究领域的结构动态，以及预测企业R&D技术目标。

而共词分析作为一种文本知识挖掘方法，也得到了广泛应用。我们想通过以共词这种文本挖掘方法在IBM公司研发中的应用，展示文本挖掘对企业R&D管理的意义。

二、文本挖掘与共词分析

（一）文本挖掘方法与意义

科技文本挖掘正是通过利用自然语言和统计技术探索半结构化科技文本的收集、分类，并通过可视化的展示，从大量的科技文本中获得可靠、有价值的信息。通过大量的在线文献数据库、专利数据库、企业网站、各类金融报表可以获得企业研发的信息。快速的技术跟踪要依靠互联网来有效的挖掘这些数据库，可以对文本分类、总结、聚类，以及文本的分布和趋势分析。更主要的是可以获得该研究主题领域的知识图谱，如技术突破点以及技术之间的关联，等等。

科技文本挖掘可以分五步来完成，文献的检索、数据提取、数据预处理、数据分析和数据可视化^[3]。文献的检索，依据要研究的对象，收集有关的文献条目，并对文献进行编码。数据提取，通过对重新编码的文献自动提取出相关特性，一类文献特性包括作者、作者单位、日期、作者地址，等等，另一类是通过自然语言技术得到文本的词、词的搭配、句子信息等。数据预处理，通过一定的运算法则检测和去处错误的数据，为后面的数据分析提供基础。数据分析，通过降维技术，如因子分析、主成分分析和聚类分析等，得到知识之间的关系、构成以及相似性。数据可视化，经过对数据的降维，可以通过二维或三维图展示出来，主要有多维尺度（Multidimensional Scaling (MDS)）、网络分析图（Social Network Analysis），确定文本网络之间的概念图谱或知识网络结构。

目前世界上常用的科技文本数据库主要有SCI（美国科学引文数据库）、EI（美国工程索引数据库）、MEDLINE（美国国家医学图书馆医学文献数据库）、INSPEC（英国机电工程师学会科学文摘数据库）、USPTO（美国专利局专利数据库）、ESP（欧洲专利局专利数据库）、PCI（美国德温特专利引文索引）。这些覆盖范围广的半结构化科技文献数据库大大提高了对全球范围内文本挖掘的广度和深度。

随着人们对文本挖掘的重视，国内外有许多种文本挖掘计算机程序，其中主要用于科技文本挖掘非商业软件主要有SITKIS（http://users.tkk.fi/~hschildt/sitkis/）、ARROWSMITH（http://kiwi.uchicago.edu/）、BIBEXCEL（http://www.umu.se/inforsk/Bibexcel/index.html）、BIBTECHMON(http://www.arcs.ac.at/S/ST/BibTechMon)、T-LAB（http://www.tlab.it）。上述软件都是针对大型文献数据库而设计的。

文本挖掘是企业研发人员、研发管理者、研发管理和资助管理部门以及企业研发竞争情报人员获得有用信息的手段。能够在企业制定战略计划时提供全面的指示，也能在产品开发阶段提供指导，

在产品开发过程中导向新的性能和创新，也可以新技术突破的机会以及新研究领域的开辟。

科技文本挖掘增强了人们对全球技术文献的了解，通过非相关文献之间的融合可以找到新的突破和创新点。可以鉴别次领域的研究水平，以及帮助研究人员提高他们成果的影响力以及期刊影响力。

（二）共词分析及可视化

而近年来出现的共词分析方法属于内容分析方法的一种，也是科技文本挖掘的重要方法。它通过分析科技文本中关键词、主题词、索引词或短语在科技文本中共同出现的形式，统计一组词或短语两两在同一篇文献中出现的次数来建立一个矩阵，该矩阵显示了词之间的关联。关联的次数越多，他们之间的关系就越密切，“距离”也就越近。利用多元统计技术如因子分析、聚类分析和多维尺度分析等，及其相关的可视化方法可以反映一定时期内研究领域的主题及微观结构，揭示文本所代表的研究领域中主题间的关系。也可以通过比较观察不同时期研究领域的主题及微观结构变化。

以共词矩阵为基础对这些词之间的连接强度进行分析，目前主要的分析方法主要是聚类分析法得到研究领域发展的结构。并且通过多维标度绘制这些词的结构图谱，可以直观的看到该研究主题的结构及变化。

战略坐标图是在共词矩阵和聚类的基础上，用可视化的形式来综合表示不同词团之间的内部联系和外部联系。所有的词团以向心度和密度为参数绘制成的二维坐标, X 轴为向心度(Centrality) , Y 轴为密度(Density) 。向心度用来测量一个词团和其他词团之间相互联系的程度。取每个词团与其他词团的共现次数的和作为该词团的向心度。密度用来测量词团内部词语之间的共现强度。取词团内部主题词共现次数的平均值作为这个词团的密度^[4]。

该图以向心度和密度的均值为原点，将所有词团划分为四个象限，落入四个象限中的词团分别表示不同的含义: 第一象限中的词团密度和向心度都较高，密度高，词团内部联系紧密，说明该词团组成的研究主题趋向成熟，向心度高，说明这个词团又与其余各词团有广泛的联系，即该词团处于所有研究主题的核心。第二象限中的词团中心度较高，但密度较低，该词团与其余各词团有广泛的联系，但词团内部联系不紧密，由该词团构成的主题领域也是核心，但是结构不紧密，研究尚不成熟，如果给予更多的关注，他们极有可能沿着研究的主题进一步成熟。位于第三象限中的词团，与其他词团团联系不密切，在整个研究主题中处于边缘位置，受到越来越少的关注，这是由于该词团内部链接紧密，说明这些领域的研究已经受到关注，且被很好的研究过；第四象限的词团研究主题密度和向心度都较低，处于整个研究领域的边缘，研究不成熟。

以关系作为基本分析单位的社会网络分析方法今天已经在社会学、心理学与经济学等诸多学科领域得到了广泛运用。社会网络分析是一种对于以关系作为基本单位进行分析的实证研究方法，主要分析的是关系数据。此分析方法在科技管理领域也得到了应用，如分析科学研究中的合作关系网络^[5-6]、学科间的引用及被引关系网络^[7]。

共词矩阵呈现的是词与词之间的共现数据，它代表的是词与词之间的共现关系网络，在共现关系网络中就形成了顶点和边的网络，顶点是那些具有代表性的词，词之间存在的连接关系由边来表示。这样就可以通过网络分析方法来研究网络在顶点的相互作用下的分布情况，共词网络分析的一个主要目的是确定这些代表性术语之间的概念图谱或知识网络结构，通过一系列类似图谱就可以相当详细地描述某一研究领域的主题^[8]。

三、结果分析：以IBM公司为例

IBM公司可称得上是当今世界IT业的“航母”，它的产业经营涉及了硬件制造、软件设计、全球化服务、金融和投资等5大领域，销售额中有一半以上来自美国以外的国家和地区，属于典型的规模经济与范围经济兼具的跨国公司。虽然全球化的规模经营与多元化经营战略可以带来成本领先优势，在IT行业这种比较优势极易被竞争对手模仿和复制，真正确立和巩固IBM公司全球竞争优势的决定性因素，是其成功的研发战略，保障了IBM的技术领先和技术开拓，能够源源不断地向信息产业市场推出技术最先进的产品。IBM公司每年大约投入R&D经费50亿美元，在全球设有8个实验室，拥有3000多名研究人员，研究领域十分广泛。在2003年公司获得美国专利3415项。

首先根据研究对象和目的选择合适的文献数据库。我们的目的是探讨IBM公司基础研发，SCIE文献数据库是比较好的选择，从Web of Science中提取IBM公司发表的学术论文，时间是1997-2006年。其次通过计算机程序处理，并把结果图示出来。

（一）关键词聚类

本研究采用科技文本中的关键词之间的关系作为挖掘的对象。关键词是科技文本的一个重要组成部分，虽然往往只是3-5个词，在论文中所占篇幅最少，但却是论文的精髓。不仅可以利用关键词检索到文献，还可以通过关键词了解到文献涉及的领域和内容。

采用了词频统计软件对所选样本中所有关键词的出现频次进行统计。本研究所采用的样本库中共出现1001个不同的关键词。根据关键词累积频次的变化截取高频关键词。本文将关键词出现的累积频次达到总关键词频次的31．9%的前65个关键词作为表征当前IBM基础研发的研究热点。

由于这些关键词是IBM基础研发中出现频次最高的词，代表了当前IBM基础研发研究的热点。为进一步反映这些关键词之间的关系，我们对这些高频关键词构建共词矩阵:两两统计它们在同一篇论文中同时出现的次数，我们称之为共现次数，这样形成了一个65×65的共词矩阵。

在共词矩阵分析中，SPSS 软件可作为统计分析的工具。利用SPSS中的相关分析，将共词矩阵转化为皮尔逊相关系数矩阵( Pearson correlations)，由此能够消除由共词次数差异所带来的影响。经过转换的相关矩阵作为后面聚类分析(Cluster Analysis)的数据来源。聚类分析采用系统聚类(Hierarchical Cluster)，选择离差平方和法(Ward"s method)与欧氏距离平方法(Squared Euclidean distance)。

通过对2002-2006年65个高频词共词矩阵的聚类，在分类阈值1．5水平上得到11个词团。每个词团如下：

A：9、12、29、59、48

B：17、21、25、30、31、32、38、52

C：1、2、5

D：3、4、19、35、49、51、58、63、65

E：8、10、14、26、41

F：33、37、53、56、61、64

G：11、27、28、40、50

H：7、18、20、45

I：6、23、34、36、39、42、44、46、60、62

J：15、16、22、54、55、57

K：13、24、43、47

（二）战略图分析

通过计算各类词团的中心度和密度，各词团的位置展示在图2中。

从战略坐标图可以看出，没有词团落在第一象限，C和I词团位于第二象限，H词团位于第三象限，其他词团位于第四象限。

C和I词团有着较高的中心度，但密度低于H词团。 H词团有着较高的密度，但向心度不高。除此之外的其它词团都位于第四象限，这些词团的密度和向心度都较低，词之间联系比较松散，还没有形成体系。

从词团的分布看，IBM公司研发领域比较分散，没有高度成熟的领域。

（三）关键词网络分析

图3和图4分别是IBM公司1997-2001年、2002-2006年65个关键词构成的共现网络图。图中的点数字分别代表65个关键词，点与点之间连接代表两个关键词之间存在共现关系，如果没有连接则表示两个词之间不存在线共现关系，连线的粗细则表示关键词之间的共现次数的多少。

从图3可以看出，IBM公司SCI论文高频词（前65个）共词图谱密度不是很紧密。有些词构成的单链条比较突出，这表明这些词之间的联系比较疏松。而图4共词图谱密度却很紧密，图中的粗线条较多。这表明IBM公司研发围绕这些关键词不断的深入下去，以寻求某些技术的创新和突破。

为更加清楚地展现核心关键词之间的共现关系，引入社会网络分析方法: k 核分析。k 核分析是社会网络研究中凝聚子群的一种，凝聚子群是满足如下条件的一个行动者子集合，即在此集合中的行动者之间具有相对较强、直接、紧密、经常的或积极的关系。核的概念最早是由Seidman提出的。k 核是建立在点的度数基础上的凝聚子群概念，是通过对网络子群中的每一个成员的邻点个数进行限制而得到的。k 核指的是满足一个条件的子图，即子图中的点都至少与该子图中的k个其它点邻接。通过改变k 的值，就会得出不同的子图。随着k 的增加, k 核的子图成员会逐渐减少，而成员之间的关系会更紧密。

图5和图6分别是1997-2001年、2002-2006年65个关键词构成的k 核共词网络图。图中每条线的粗细与其在共词网络中出现的次数成正比。

在图5中，1997-2001年65个关键词构成的k 核的最高的级数为6。也就是说在k 等于6的核中每一个词都最少和同一核中的其他词共同出现的次数等于或大于6。图6展示了2002-2006年65个关键词构成的k 核等于7的核的连接情况，也即是说在k 等于7的核中每一个词都最少和同一核中的其他词共同出现的次数等于或大于7。两图是整个共词网络中连接最强，也是关系最为紧密的一个部分。

在1997-2001年由21个核心关键词构成了最紧密的图，而到2002-2006年有37个词成为核心关键词。在21个词中有4个词未成为2002-2006年的核心词，分别是10（SYSTEM）、15（SURFACES）、19（NETWORKS）和64（STATE）。新增加的16个词分别是20（INTERFACE）、21（DEVICES）、23（TECHNOLOGY）、26（MOSFETS）、27（SCATTERING）、29（DEPENDENCE）、31（DEPOSITION）、

33（STATES）、34（KINETICS）、37（SIMULATIONS）、38（DIFFUSION）、39（MICROSTRUCTURE）、40（LITHOGRAPHY）、43（MEDIA）、46（OXIDE）、53（MOLECULAR-DYNAMICS）、54（PHASE）、55（MICROSCOPY）、57（STRESS）、60（RESOLUTION）。这也预示着下一阶段公司研发重点会出现在65个词中前两阶段未曾成为核心的词。

四、结论与讨论

科技文本挖掘为企业研发提供一个很好的了解同业竞争者研发知识的工具手段，而共词分析及其可视化是挖掘企业基础研发信息的重要方法。以国际大企业IBM公司为例，挖掘其基础研发知识结构并对其知识结构进行了可视化展示。

从对IBM公司的研发信息挖掘结果来看，对现阶段中国大企业做大作强，成为有核心竞争力的国际化企业具有重要的借鉴意义。从科技实力来说，中国大企业还应锻造世界级的研发中心，加强研发管理的能力使散落的技术资源转化成强劲的研发合力，使技术真正成为公司有效的资产。

参考文献:

[1] Jakob Edler, Frieder Meyer-Krahmer, Guido Reger. Changes in the strategic management of technology:results of a global benchmarking study[J]. R&D Management, 2002,32(2):149-164

[2] Fernández-Cano A, Torralbo M, Vallejo M. Reconsidering Price"s model of scientific growth: An overview[J]. Scientometrics. 2004,61(3):301- 321

[3] Losiewicz, P., Oard, D. W., and Kostoff, R. N.. Textual data mining to support science and technology management[J]. Journal of Intelligent Information Systems, 2000（15）：99-119

[4] Callon M, Courtial J P , Laville F. Co-word analysis as a tool for describing the network of interactions between basic and technological research : the case of polymer chemistry[J]. Scientometrics, 1991, 22(1) :155～205

[5] Caroline S. Wagner, Loet Leydesdorff. Mapping the network of global science: comparing international co-authorships from 1990 to 2000[J]. International Journal of Technology and Globalisation, 2005, 1(2):185-208

[6] Newman, M. E. J..The structure of scientific collaboration networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2001, 98(2):404-409

[7] Everett,M. .Social network analysis[Z]. Essex: Textbook at Essex Summer School in SSDA,2002

[8] Tor J Larsen，Linda Levine. Searching for management information systems: coherence and change in the discipline[J]. Information Systems Journal, 2005（15）: 357-381

[9] Guido Reger. Technology Foresight in Companies: From an Indicator to a Network and Process Perspective[J]. Technology Analysis & Strategic Management, 2001,13(4):533 - 553.

(责任编辑：席晓虹)

推荐访问:可视化挖掘文本研发知识