數(shù)據(jù)分析常用術(shù)語(yǔ)（下）

來(lái)源：奇酷教育發(fā)表于：2019-03-29 09:59:18

三、數(shù)據(jù)分析名詞解釋A聚合(Aggregation)：搜索、合并、顯示數(shù)據(jù)的過(guò)程。算法(Algorithms)：可以完成某種數(shù)據(jù)分析的數(shù)學(xué)公式。分析法(Analy

三、數(shù)據(jù)分析名詞解釋

聚合(Aggregation)：搜索、合并、顯示數(shù)據(jù)的過(guò)程。

算法(Algorithms)：可以完成某種數(shù)據(jù)分析的數(shù)學(xué)公式。

分析法(Analytics)：用于發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在涵義。

異常檢測(cè)(Anomaly detection)：在數(shù)據(jù)集中搜索與預(yù)期模式或行為不匹配的數(shù)據(jù)項(xiàng)。除了“Anomalies”,用來(lái)表示異常的詞有以下幾種：outliers,exceptions,surprises,contaminants.他們通?？商峁╆P(guān)鍵的可執(zhí)行信息。

匿名化(Anonymization)：使數(shù)據(jù)匿名，即移除所有與個(gè)人隱私相關(guān)的數(shù)據(jù)。

分析型客戶關(guān)系管理（Analytical CRM/aCRM）：用于支持決策，改善公司跟顧客的互動(dòng)或提高互動(dòng)的價(jià)值。針對(duì)有關(guān)顧客的知識(shí)，和如何與顧客有效接觸的知識(shí)，進(jìn)行收集、分析、應(yīng)用。

行為分析法(Behavioural Analytics)：這種分析法是根據(jù)用戶的行為如“怎么做”，“為什么這么做”，以及“做了什么”來(lái)得出結(jié)論，而不是僅僅針對(duì)人物和時(shí)間的一門分析學(xué)科，它著眼于數(shù)據(jù)中的人性化模式。

批量處理（Batch processing）：盡管從大型計(jì)算機(jī)時(shí)代開(kāi)始，批量處理就已經(jīng)出現(xiàn)了。由于處理大型數(shù)據(jù)集，批量處理對(duì)大數(shù)據(jù)具有額外的意義。批量數(shù)據(jù)處理是處理一段時(shí)間內(nèi)收集的大量數(shù)據(jù)的有效方式。

商業(yè)智能（Business Intelligence）: 分析數(shù)據(jù)、展示信息以幫助企業(yè)的執(zhí)行者、管理層、其他人員進(jìn)行更有根據(jù)的商業(yè)決策的應(yīng)用、設(shè)施、工具、過(guò)程。

分類分析(Classification analysis)：從數(shù)據(jù)中獲得重要的相關(guān)性信息的系統(tǒng)化過(guò)程;這類數(shù)據(jù)也被稱為元數(shù)據(jù)(meta data),是描述數(shù)據(jù)的數(shù)據(jù)。

云計(jì)算(Cloud computing)：構(gòu)建在網(wǎng)絡(luò)上的分布式計(jì)算系統(tǒng)，數(shù)據(jù)是存儲(chǔ)于機(jī)房外的（即云端）。

集群計(jì)算（Cluster computing）：這是一個(gè)使用多個(gè)服務(wù)器集合資源的“集群”的計(jì)算術(shù)語(yǔ)。要想更技術(shù)性的話，就會(huì)涉及到節(jié)點(diǎn)，集群管理層，負(fù)載平衡和并行處理等概念。

聚類分析(Clustering analysis)：它是將相似的對(duì)象聚合在一起，每類相似的對(duì)象組合成一個(gè)聚類(也叫作簇)的過(guò)程。這種分析方法的目的在于分析數(shù)據(jù)間的差異和相似性。

冷數(shù)據(jù)存儲(chǔ)(Cold data storage)：在低功耗服務(wù)器上存儲(chǔ)那些幾乎不被使用的舊數(shù)據(jù)。但這些數(shù)據(jù)檢索起來(lái)將會(huì)很耗時(shí)。

對(duì)比分析(Comparative analysis)：在非常大的數(shù)據(jù)集中進(jìn)行模式匹配時(shí)，進(jìn)行一步步的對(duì)比和計(jì)算過(guò)程得到分析結(jié)果。

相關(guān)性分析(Correlation analysis)：是一種數(shù)據(jù)分析方法，用于分析變量之間是否存在正相關(guān)，或者負(fù)相關(guān)。

儀表板(Dashboard)：使用算法分析數(shù)據(jù)，并將結(jié)果用圖表方式顯示于儀表板中。

數(shù)據(jù)聚合工具(Data aggregation tools)：將分散于眾多數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)化成一個(gè)全新數(shù)據(jù)源的過(guò)程。

數(shù)據(jù)分析師(Data analyst)：從事數(shù)據(jù)分析、建模、清理、處理的專業(yè)人員。

數(shù)據(jù)庫(kù)(Database)：一個(gè)以某種特定的技術(shù)來(lái)存儲(chǔ)數(shù)據(jù)集合的倉(cāng)庫(kù)。

數(shù)據(jù)湖（Data lake）：數(shù)據(jù)湖是原始格式的企業(yè)級(jí)數(shù)據(jù)的大型存儲(chǔ)庫(kù)。與此同時(shí)我們可以涉及數(shù)據(jù)倉(cāng)庫(kù)，它在概念上是相似的，也是企業(yè)級(jí)數(shù)據(jù)的存儲(chǔ)庫(kù)，但在清理、與其他來(lái)源集成之后是以結(jié)構(gòu)化格式。數(shù)據(jù)倉(cāng)庫(kù)通常用于常規(guī)數(shù)據(jù)（但不是專有的）。數(shù)據(jù)湖使得訪問(wèn)企業(yè)級(jí)數(shù)據(jù)更加容易，你需要明確你要尋找什么，以及如何處理它并明智地試用它。

暗數(shù)據(jù)（Dark Data）：基本上指的是，由企業(yè)收集和處理的，但并不用于任何意義性目的的數(shù)據(jù)，因此它是“暗”的，可能永遠(yuǎn)不會(huì)被分析。它可以是社交網(wǎng)絡(luò)反饋，呼叫中心日志，會(huì)議筆記等等。有很多人估計(jì)，所有企業(yè)數(shù)據(jù)中的 60-90％可能是“暗數(shù)據(jù)”，但誰(shuí)又真正知道呢？

數(shù)據(jù)挖掘（Data mining)：數(shù)據(jù)挖掘是通過(guò)使用復(fù)雜的模式識(shí)別技術(shù)，從而找到有意義的模式，并得出大量數(shù)據(jù)的見(jiàn)解。

數(shù)據(jù)中心(Data centre)：一個(gè)實(shí)體地點(diǎn)，放置了用來(lái)存儲(chǔ)數(shù)據(jù)的服務(wù)器。

數(shù)據(jù)清洗(Data cleansing)：對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過(guò)程，目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤，并提供數(shù)據(jù)一致性。

數(shù)據(jù)質(zhì)量（Data Quality）：有關(guān)確保數(shù)據(jù)可靠性和實(shí)用價(jià)值的過(guò)程和技術(shù)。高質(zhì)量的數(shù)據(jù)應(yīng)該忠實(shí)體現(xiàn)其背后的事務(wù)進(jìn)程，并能滿足在運(yùn)營(yíng)、決策、規(guī)劃中的預(yù)期用途。

數(shù)據(jù)訂閱(Data feed)：一種數(shù)據(jù)流，例如Twitter訂閱和RSS。

數(shù)據(jù)集市(Data Mart)：進(jìn)行數(shù)據(jù)集買賣的在線交易場(chǎng)所。

數(shù)據(jù)建模(Data modelling)：使用數(shù)據(jù)建模技術(shù)來(lái)分析數(shù)據(jù)對(duì)象，以此洞悉數(shù)據(jù)的內(nèi)在涵義。

數(shù)據(jù)集(Data set)：大量數(shù)據(jù)的集合。

數(shù)據(jù)虛擬化(Data virtualization)：數(shù)據(jù)整合的過(guò)程，以此獲得更多的數(shù)據(jù)信息，這個(gè)過(guò)程通常會(huì)引入其他技術(shù)，例如數(shù)據(jù)庫(kù)，應(yīng)用程序，文件系統(tǒng)，網(wǎng)頁(yè)技術(shù)，大數(shù)據(jù)技術(shù)等等。

判別分析(Discriminant analysis)：將數(shù)據(jù)分類，按不同的分類方式，可將數(shù)據(jù)分配到不同的群組，類別或者目錄。是一種統(tǒng)計(jì)分析法，可以對(duì)數(shù)據(jù)中某些群組或集群的已知信息進(jìn)行分析，并從中獲取分類規(guī)則。

分布式文件系統(tǒng)(Distributed File System)：提供簡(jiǎn)化的，高可用的方式來(lái)存儲(chǔ)、分析、處理數(shù)據(jù)的系統(tǒng)。

文件存貯數(shù)據(jù)庫(kù)(Document Store Databases)：又稱為文檔數(shù)據(jù)庫(kù)，為存儲(chǔ)、管理、恢復(fù)文檔數(shù)據(jù)而專門設(shè)計(jì)的數(shù)據(jù)庫(kù)，這類文檔數(shù)據(jù)也稱為半結(jié)構(gòu)化數(shù)據(jù)。

探索性分析(Exploratory analysis)：在沒(méi)有標(biāo)準(zhǔn)的流程或方法的情況下從數(shù)據(jù)中發(fā)掘模式。是一種發(fā)掘數(shù)據(jù)和數(shù)據(jù)集主要特性的一種方法。

提取-轉(zhuǎn)換-加載(ETL:Extract,Transform and Load)：是一種用于數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)的處理過(guò)程，天善學(xué)院有國(guó)內(nèi)唯一的最全的ETL學(xué)習(xí)課程。即從各種不同的數(shù)據(jù)源提取(E)數(shù)據(jù)，并轉(zhuǎn)換(T)成能滿足業(yè)務(wù)需要的數(shù)據(jù)，最后將其加載(L)到數(shù)據(jù)庫(kù)。

游戲化(Gamification)：在其他非游戲領(lǐng)域中運(yùn)用游戲的思維和機(jī)制，這種方法可以以一種十分友好的方式進(jìn)行數(shù)據(jù)的創(chuàng)建和偵測(cè)，非常有效。

圖形數(shù)據(jù)庫(kù)(Graph Databases)：運(yùn)用圖形結(jié)構(gòu)(例如，一組有限的有序?qū)Γ蛘吣撤N實(shí)體)來(lái)存儲(chǔ)數(shù)據(jù)，這種圖形存儲(chǔ)結(jié)構(gòu)包括邊緣、屬性和節(jié)點(diǎn)。它提供了相鄰節(jié)點(diǎn)間的自由索引功能，也就是說(shuō)，數(shù)據(jù)庫(kù)中每個(gè)元素間都與其他相鄰元素直接關(guān)聯(lián)。

網(wǎng)格計(jì)算(Grid computing)：將許多分布在不同地點(diǎn)的計(jì)算機(jī)連接在一起，用以處理某個(gè)特定問(wèn)題，通常是通過(guò)云將計(jì)算機(jī)相連在一起。

Hadoop：一個(gè)開(kāi)源的分布式系統(tǒng)基礎(chǔ)框架，可用于開(kāi)發(fā)分布式程序，進(jìn)行大數(shù)據(jù)的運(yùn)算與存儲(chǔ)。

Hadoop數(shù)據(jù)庫(kù)(HBase)：一個(gè)開(kāi)源的、非關(guān)系型、分布式數(shù)據(jù)庫(kù)，與Hadoop框架共同使用。

HDFS：Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System)；是一個(gè)被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。

高性能計(jì)算(HPC:High-Performance-Computing)：使用超級(jí)計(jì)算機(jī)來(lái)解決極其復(fù)雜的計(jì)算問(wèn)題。

內(nèi)存數(shù)據(jù)庫(kù)(IMDB:In-memory)：一種數(shù)據(jù)庫(kù)管理系統(tǒng)，與普通數(shù)據(jù)庫(kù)管理系統(tǒng)不同之處在于，它用主存來(lái)存儲(chǔ)數(shù)據(jù)，而非硬盤。其特點(diǎn)在于能高速地進(jìn)行數(shù)據(jù)的處理和存取。

物聯(lián)網(wǎng)（IoT）：最新的流行語(yǔ)是物聯(lián)網(wǎng)（IOT）。IOT通過(guò)互聯(lián)網(wǎng)將嵌入式對(duì)象（傳感器，可穿戴設(shè)備，汽車，冰箱等）中的計(jì)算設(shè)備進(jìn)行互連，并且能夠發(fā)送以及接收數(shù)據(jù)。IOT生成大量數(shù)據(jù)，提供了大量大數(shù)據(jù)分析的機(jī)會(huì)。

鍵值數(shù)據(jù)庫(kù)(Key-Value Databases)：數(shù)據(jù)的存儲(chǔ)方式是使用一個(gè)特定的鍵，指向一個(gè)特定的數(shù)據(jù)記錄，這種方式使得數(shù)據(jù)的查找更加方便快捷。鍵值數(shù)據(jù)庫(kù)中所存的數(shù)據(jù)通常為編程語(yǔ)言中基本數(shù)據(jù)類型的數(shù)據(jù)。

負(fù)載均衡(Load balancing)：將工作量分配到多臺(tái)電腦或服務(wù)器上，以獲得最優(yōu)結(jié)果和最大的系統(tǒng)利用率。

位置信息(Location data)：GPS信息，即地理位置信息。

日志文件(Log file)：由計(jì)算機(jī)系統(tǒng)自動(dòng)生成的文件，記錄系統(tǒng)的運(yùn)行過(guò)程。

M2M數(shù)據(jù)(Machine 2 Machine data)：兩臺(tái)或多臺(tái)機(jī)器間交流與傳輸?shù)膬?nèi)容。

機(jī)器數(shù)據(jù)(Machine data)：由傳感器或算法在機(jī)器上產(chǎn)生的數(shù)據(jù)。

機(jī)器學(xué)習(xí)(Machine learning)：人工智能的一部分，指的是機(jī)器能夠從它們所完成的任務(wù)中進(jìn)行自我學(xué)習(xí)，通過(guò)長(zhǎng)期的累積實(shí)現(xiàn)自我改進(jìn)。

Map Reduce：是處理大規(guī)模數(shù)據(jù)的一種軟件框架(Map:映射，Reduce:歸納)。

大規(guī)模并行處理(MPP:Massivel yParallel Processing)：同時(shí)使用多個(gè)處理器(或多臺(tái)計(jì)算機(jī))處理同一個(gè)計(jì)算任務(wù)。

元數(shù)據(jù)(Meta data)：被稱為描述數(shù)據(jù)的數(shù)據(jù)，即描述數(shù)據(jù)數(shù)據(jù)屬性(數(shù)據(jù)是什么)的信息。

多維數(shù)據(jù)庫(kù)(Multi-Dimensional Databases)：用于優(yōu)化數(shù)據(jù)聯(lián)機(jī)分析處理(OLAP)程序，優(yōu)化數(shù)據(jù)倉(cāng)庫(kù)的一種數(shù)據(jù)庫(kù)。

多值數(shù)據(jù)庫(kù)(MultiValue Databases)：是一種非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL),一種特殊的多維數(shù)據(jù)庫(kù)：能處理3個(gè)維度的數(shù)據(jù)。主要針對(duì)非常長(zhǎng)的字符串，能夠完美地處理HTML和XML中的字串。

自然語(yǔ)言處理(Natural Language Processing)：是計(jì)算機(jī)科學(xué)的一個(gè)分支領(lǐng)域，它研究如何實(shí)現(xiàn)計(jì)算機(jī)與人類語(yǔ)言之間的交互。

網(wǎng)絡(luò)分析(Network analysis)：分析網(wǎng)絡(luò)或圖論中節(jié)點(diǎn)間的關(guān)系，即分析網(wǎng)絡(luò)中節(jié)點(diǎn)間的連接和強(qiáng)度關(guān)系。

NewSQL：一個(gè)優(yōu)雅的、定義良好的數(shù)據(jù)庫(kù)系統(tǒng)，比SQL更易學(xué)習(xí)和使用，比NoSQL更晚提出的新型數(shù)據(jù)庫(kù)。

NoSQL：顧名思義，就是“不使用SQL”的數(shù)據(jù)庫(kù)。這類數(shù)據(jù)庫(kù)泛指?jìng)鹘y(tǒng)關(guān)系型數(shù)據(jù)庫(kù)以外的其他類型的數(shù)據(jù)庫(kù)。這類數(shù)據(jù)庫(kù)有更強(qiáng)的一致性，能處理超大規(guī)模和高并發(fā)的數(shù)據(jù)。

對(duì)象數(shù)據(jù)庫(kù)(Object Databases)：(也稱為面象對(duì)象數(shù)據(jù)庫(kù))以對(duì)象的形式存儲(chǔ)數(shù)據(jù)，用于面向?qū)ο缶幊?。它不同于關(guān)系型數(shù)據(jù)庫(kù)和圖形數(shù)據(jù)庫(kù)，大部分對(duì)象數(shù)據(jù)庫(kù)都提供一種查詢語(yǔ)言，允許使用聲明式編程(declarative programming)訪問(wèn)對(duì)象。

基于對(duì)象圖像分析(Object-based Image Analysis)：數(shù)字圖像分析方法是對(duì)每一個(gè)像素的數(shù)據(jù)進(jìn)行分析，而基于對(duì)象的圖像分析方法則只分析相關(guān)像素的數(shù)據(jù)，這些相關(guān)像素被稱為對(duì)象或圖像對(duì)象。

操作型數(shù)據(jù)庫(kù)(Operational Databases)：這類數(shù)據(jù)庫(kù)可以完成一個(gè)組織機(jī)構(gòu)的常規(guī)操作，對(duì)商業(yè)運(yùn)營(yíng)非常重要，一般使用在線事務(wù)處理，允許用戶訪問(wèn)、收集、檢索公司內(nèi)部的具體信息。

優(yōu)化分析(Optimization analysis)：在產(chǎn)品設(shè)計(jì)周期依靠算法來(lái)實(shí)現(xiàn)的優(yōu)化過(guò)程，在這一過(guò)程中，公司可以設(shè)計(jì)各種各樣的產(chǎn)品并測(cè)試這些產(chǎn)品是否滿足預(yù)設(shè)值。

本體論(Ontology）：表示知識(shí)本體，用于定義一個(gè)領(lǐng)域中的概念集及概念之間的關(guān)系的一種哲學(xué)思想。(譯者注:數(shù)據(jù)被提高到哲學(xué)的高度，被賦予了世界本體的意義，成為一個(gè)獨(dú)立的客觀數(shù)據(jù)世界)

異常值檢測(cè)(Outlier detection)：異常值是指嚴(yán)重偏離一個(gè)數(shù)據(jù)集或一個(gè)數(shù)據(jù)組合總平均值的對(duì)象，該對(duì)象與數(shù)據(jù)集中的其他它相去甚遠(yuǎn)，因此，異常值的出現(xiàn)意味著系統(tǒng)發(fā)生問(wèn)題，需要對(duì)此另加分析。

聯(lián)機(jī)分析處理（On-Line Analytical Processing，OLAP）：能讓用戶輕松制作、瀏覽報(bào)告的工具，這些報(bào)告總結(jié)相關(guān)數(shù)據(jù)，并從多角度分析。

模式識(shí)別(Pattern Recognition)：通過(guò)算法來(lái)識(shí)別數(shù)據(jù)中的模式，并對(duì)同一數(shù)據(jù)源中的新數(shù)據(jù)作出預(yù)測(cè)

平臺(tái)即服務(wù)(PaaS:Platform-as-a-Service)：為云計(jì)算解決方案提供所有必需的基礎(chǔ)平臺(tái)的一種服務(wù)。

預(yù)測(cè)分析(Predictive analysis)：大數(shù)據(jù)分析方法中最有價(jià)值的一種分析方法，這種方法有助于預(yù)測(cè)個(gè)人未來(lái)(近期)的行為，例如某人很可能會(huì)買某些商品，可能會(huì)訪問(wèn)某些網(wǎng)站，做某些事情或者產(chǎn)生某種行為。通過(guò)使用各種不同的數(shù)據(jù)集，例如歷史數(shù)據(jù)，事務(wù)數(shù)據(jù)，社交數(shù)據(jù)，或者客戶的個(gè)人信息數(shù)據(jù)，來(lái)識(shí)別風(fēng)險(xiǎn)和機(jī)遇。

公共數(shù)據(jù)(Public data)：由公共基金創(chuàng)建的公共信息或公共數(shù)據(jù)集。

數(shù)字化自我(Quantified Self)：使用應(yīng)用程序跟蹤用戶一天的一舉一動(dòng)，從而更好地理解其相關(guān)的行為。

R：是一種編程語(yǔ)言，在統(tǒng)計(jì)計(jì)算方面很出色。如果你不知道 R，你就稱不上是數(shù)據(jù)科學(xué)家。R 是數(shù)據(jù)科學(xué)中最受歡迎的語(yǔ)言之一。

再識(shí)別(Re-identification)：將多個(gè)數(shù)據(jù)集合并在一起，從匿名化的數(shù)據(jù)中識(shí)別出個(gè)人信息。

回歸分析(Regression analysis)：確定兩個(gè)變量間的依賴關(guān)系。這種方法假設(shè)兩個(gè)變量之間存在單向的因果關(guān)系(譯者注：自變量，因變量，二者不可互換)。

實(shí)時(shí)數(shù)據(jù)(Real-time data)：指在幾毫秒內(nèi)被創(chuàng)建、處理、存儲(chǔ)、分析并顯示的數(shù)據(jù)。

推薦引擎(Recommendation engine)：推薦引擎算法根據(jù)用戶之前的購(gòu)買行為或其他購(gòu)買行為向用戶推薦某種產(chǎn)品。

路徑分析(Routing analysis)：–針對(duì)某種運(yùn)輸方法通過(guò)使用多種不同的變量分析從而找到一條最優(yōu)路徑，以達(dá)到降低燃料費(fèi)用，提高效率的目的。

半結(jié)構(gòu)化數(shù)據(jù)(Semi-structured data)：半結(jié)構(gòu)化數(shù)據(jù)并不具有結(jié)構(gòu)化數(shù)據(jù)嚴(yán)格的存儲(chǔ)結(jié)構(gòu)，但它可以使用標(biāo)簽或其他形式的標(biāo)記方式以保證數(shù)據(jù)的層次結(jié)構(gòu)。

結(jié)構(gòu)化數(shù)據(jù)(Structured data)：可以組織成行列結(jié)構(gòu)，可識(shí)別的數(shù)據(jù)。這類數(shù)據(jù)通常是一條記錄，或者一個(gè)文件，或者是被正確標(biāo)記過(guò)的數(shù)據(jù)中的某一個(gè)字段，并且可以被精確地定位到。

情感分析(Sentiment Analysis)：通過(guò)算法分析出人們是如何看待某些話題。

信號(hào)分析(Signal analysis)：指通過(guò)度量隨時(shí)間或空間變化的物理量來(lái)分析產(chǎn)品的性能。特別是使用傳感器數(shù)據(jù)。

相似性搜索(Similarity searches)：在數(shù)據(jù)庫(kù)中查詢最相似的對(duì)象，這里所說(shuō)的數(shù)據(jù)對(duì)象可以是任意類型的數(shù)據(jù)。

仿真分析(Simulation analysis)：仿真是指模擬真實(shí)環(huán)境中進(jìn)程或系統(tǒng)的操作。仿真分析可以在仿真時(shí)考慮多種不同的變量，確保產(chǎn)品性能達(dá)到最優(yōu)。

軟件即服務(wù)(SaaS:Software-as-a-Service)：基于Web的通過(guò)瀏覽器使用的一種應(yīng)用軟件。

空間分析(Spatial analysis)：空間分析法分析地理信息或拓?fù)湫畔⑦@類空間數(shù)據(jù)，從中得出分布在地理空間中的數(shù)據(jù)的模式和規(guī)律。

SQL：在關(guān)系型數(shù)據(jù)庫(kù)中，用于檢索數(shù)據(jù)的一種編程語(yǔ)言。

流處理（Stream processing）：流處理旨在對(duì)有“連續(xù)”要求的實(shí)時(shí)和流數(shù)據(jù)進(jìn)行處理。結(jié)合流分析，即在流內(nèi)不間斷地計(jì)算數(shù)學(xué)或統(tǒng)計(jì)分析的能力。流處理解決方案旨在對(duì)高流量進(jìn)行實(shí)時(shí)處理。

時(shí)序分析(Time series analysis)：分析在重復(fù)測(cè)量時(shí)間里獲得的定義良好的數(shù)據(jù)。分析的數(shù)據(jù)必須是良好定義的，并且要取自相同時(shí)間間隔的連續(xù)時(shí)間點(diǎn)。

拓?fù)鋽?shù)據(jù)分析(Topological Data Analysis)：拓?fù)鋽?shù)據(jù)分析主要關(guān)注三點(diǎn)：復(fù)合數(shù)據(jù)模型、集群的識(shí)別、以及數(shù)據(jù)的統(tǒng)計(jì)學(xué)意義。

交易數(shù)據(jù)(Transactional data)：隨時(shí)間變化的動(dòng)態(tài)數(shù)據(jù)

透明性(Transparency)：–消費(fèi)者想要知道他們的數(shù)據(jù)有什么作用、被作何處理，而組織機(jī)構(gòu)則把這些信息都透明化了。

文本挖掘（Text Mining）：對(duì)包含自然語(yǔ)言的數(shù)據(jù)的分析。對(duì)源數(shù)據(jù)中詞語(yǔ)和短語(yǔ)進(jìn)行統(tǒng)計(jì)計(jì)算，以便用數(shù)學(xué)術(shù)語(yǔ)表達(dá)文本結(jié)構(gòu)，之后用傳統(tǒng)數(shù)據(jù)挖掘技術(shù)分析文本結(jié)構(gòu)。

非結(jié)構(gòu)化數(shù)據(jù)(Un-structured data)：非結(jié)構(gòu)化數(shù)據(jù)一般被認(rèn)為是大量純文本數(shù)據(jù)，其中還可能包含日期，數(shù)字和實(shí)例。

價(jià)值(Value)：(譯者注：大數(shù)據(jù)4V特點(diǎn)之一)所有可用的數(shù)據(jù)，能為組織機(jī)構(gòu)、社會(huì)、消費(fèi)者創(chuàng)造出巨大的價(jià)值。這意味著各大企業(yè)及整個(gè)產(chǎn)業(yè)都將從大數(shù)據(jù)中獲益。

可變性(Variability)：也就是說(shuō)，數(shù)據(jù)的含義總是在（快速）變化的。例如，一個(gè)詞在相同的推文中可以有完全不同的意思。

多樣(Variety)：(譯者注：大數(shù)據(jù)4V特點(diǎn)之一)數(shù)據(jù)總是以各種不同的形式呈現(xiàn)，如結(jié)構(gòu)化數(shù)據(jù)，半結(jié)構(gòu)化數(shù)據(jù)，非結(jié)構(gòu)化數(shù)據(jù)，甚至還有復(fù)雜結(jié)構(gòu)化數(shù)據(jù)

高速(Velocity)：(譯者注：大數(shù)據(jù)4V特點(diǎn)之一)在大數(shù)據(jù)時(shí)代，數(shù)據(jù)的創(chuàng)建、存儲(chǔ)、分析、虛擬化都要求被高速處理。

真實(shí)性(Veracity)：組織機(jī)構(gòu)需要確保數(shù)據(jù)的真實(shí)性，才能保證數(shù)據(jù)分析的正確性。因此，真實(shí)性(Veracity)是指數(shù)據(jù)的正確性。

可視化(Visualization)：只有正確的可視化，原始數(shù)據(jù)才可被投入使用。這里的“可視化”并非普通的圖型或餅圖，可視化指是的復(fù)雜的圖表，圖表中包含大量的數(shù)據(jù)信息，但可以被很容易地理解和閱讀。

大量(Volume)：(譯者注：大數(shù)據(jù)4V特點(diǎn)之一)指數(shù)據(jù)量，范圍從Megabytes至Brontobytes。

天氣數(shù)據(jù)(Weather data)：是一種重要的開(kāi)放公共數(shù)據(jù)來(lái)源，如果與其他數(shù)據(jù)來(lái)源合成在一起，可以為相關(guān)組織機(jī)構(gòu)提供深入分析的依據(jù)。

網(wǎng)絡(luò)挖掘/網(wǎng)絡(luò)數(shù)據(jù)挖掘（Web Mining / Web Data Mining)：使用數(shù)據(jù)挖掘技術(shù)從互聯(lián)網(wǎng)站點(diǎn)、文檔或服務(wù)中自動(dòng)發(fā)現(xiàn)和提取信息。

XML數(shù)據(jù)庫(kù)(XML Databases)：XML數(shù)據(jù)庫(kù)是一種以XML格式存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)庫(kù)。XML數(shù)據(jù)庫(kù)通常與面向文檔型數(shù)據(jù)庫(kù)相關(guān)聯(lián)，開(kāi)發(fā)人員可以對(duì)XML數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行查詢，導(dǎo)出以及按指定的格式序列化。

以上就是數(shù)據(jù)分析相關(guān)術(shù)語(yǔ)的盤點(diǎn)，看完別忘點(diǎn)好看

下一篇:35個(gè)Excel函數(shù)，數(shù)據(jù)分析必備！上一篇:數(shù)據(jù)分析常用術(shù)語(yǔ)（上）

Python交流群
635448130點(diǎn)擊加入群聊
UI設(shè)計(jì)交流群
579150876點(diǎn)擊加入群聊
Unity交流群
495609038點(diǎn)擊加入群聊
HTML5交流群
645591648點(diǎn)擊加入群聊

伊人久久中文大香线蕉综合_在线成人国产公开视频_中文字幕v亚洲日本在线_AV在线黑人无码

數(shù)據(jù)分析常用術(shù)語(yǔ)（下）

欄目導(dǎo)航

奇酷熱點(diǎn)

常見(jiàn)問(wèn)題

奇酷技術(shù)交流中心

相關(guān)文章