HCIP-Big Data-Developer V1.0模擬試卷
1.(判斷題) HDFS采用的是“一次寫入、多次讀取”的文件訪問模型。所以推薦一個文件經(jīng)過創(chuàng)建、寫入和關(guān)閉之后,就不要再去修改。
A. True B. False
2.(多選題) HDFS的應(yīng)用開發(fā)中,下列哪些是HDFS服務(wù)支持的接口?
A. BufferedOutputStream.write
B. BufferedOutputStream.flush
C. FileSystem.create
D. FileSystem.append
3. (多選題) 關(guān)于kinit操作命令,如下哪些說法是錯誤的?
A. 只能使用人機賬號。
B. 只能使用機機賬號。
C. 一個客戶端不支持多個賬號同時使用。
D. 執(zhí)行此命令得到的票據(jù)在24小時后會超時,需再次執(zhí)行kinit命令去重新登錄。
4.(多選題)對于HBase Rowkey的設(shè)計原則,如下描述正確的是?
A. 訪問權(quán)重高的屬性值放在Rowkey前面。
B. 訪問權(quán)重高的屬性值放在Rowkey后半部分。
C. 離散度好的屬性值放在Rowkey前半部分。
D. 離散度好的屬性值放在Rowkey后半部分。
5.(單選題)HBase表的Rowkey設(shè)計是一個很重要的開發(fā)設(shè)計環(huán)節(jié)。假設(shè)存在如下場景,最頻繁的查詢場景是基于手機號查詢每個月、每半年的歷史通話記錄,以下哪個Rowkey設(shè)計是最優(yōu)的?
A. 姓名+手機號 B. 日期+手機號
C. 手機號+日期 D. 手機號+姓名
6.(單選題) FusionInsight HD中,關(guān)于Hive的分區(qū)(partition)功能,如下描述錯誤的是?
A. 分區(qū)字段要在創(chuàng)建表時定義。
B. 分區(qū)字段只能有一個,不可以創(chuàng)建多級分區(qū)。
C. 使用分區(qū),可以減少某些查詢的數(shù)據(jù)掃描范圍,進而提高查詢效率。
D. 分區(qū)字段可以作為where字句的條件。
7.(判斷題) FusionInsight HD系統(tǒng)的V100R002C60版本中,Hive僅支持基于MapReduce引擎的查詢服務(wù),不支持基于Spark引擎的查詢服務(wù)。
A. True
B. False
8.(單選題) FusionInsight HD中,對Solr各類資源的創(chuàng)建和讀寫權(quán)限使用,以下說法錯誤的是?
A. Solr用戶組用戶可以創(chuàng)建配置集,并在創(chuàng)建Collection時指定該配置集。
B. Solr用戶組的用戶可以創(chuàng)建Collection。
C. Collection創(chuàng)建者、對該Collection具有讀寫權(quán)限的角色以及Solr admin角色可以對Collection進行更新。
D. 只有Collection創(chuàng)建者和Solr admin角色可以刪除Collection。
9.(多選題) 在Solr的應(yīng)用查詢場景中,當對查詢結(jié)果深度翻頁時,需使用游標進行深度翻頁。下面對游標說法正確的是?
A. 必須對查詢字段進行排序。
B. 必須對uniqueKey字段進行排序。
C. 第一次查詢請求時,需指定查詢參數(shù),操作方法如下:
solrQuery.set(CursorMarkParams.CURSOR_MARK_PARAM, CursorMarkParams.CURSOR_MARK_START);
D. 查詢時,請求中不能帶有start參數(shù)。
E. Solr的返回結(jié)果中會有nextCursorMark,在下次調(diào)用時使用這個值作為cursorMark。
10.(多選題)關(guān)于Kafka的Producer,如下說法正確的是?
A. Producer是消息生產(chǎn)者。
B. Producer生產(chǎn)數(shù)據(jù)需要指定Topic。
C. 可以同時起多個Producer進程向同一個Topic進行數(shù)據(jù)發(fā)送。
D. Producer生產(chǎn)數(shù)據(jù)時需要先連接ZooKeeper,而后才連接Broker。
11.(單選題) 在FusionInsight HD產(chǎn)品中,關(guān)于Kafka安全和非安全端口描述錯誤的是?
(注:舊API是指舊Producer API和舊Consumer API。其中,舊Consumer API:是指kafka.consumer.ConsumerConnector中定義的接口;舊Producer API:是指kafka.producer.Producer中定義的接口。)
A. Kafka集群安全訪問端口默認為21007,非安全訪問端口默認為21005。
B. 舊API通過21005端口訪問某個Topic的前提是:服務(wù)端參數(shù)allow.everyone.if.no.acl.found設(shè)置為true,且此Topic未設(shè)置ACL屬性。
C. 舊API僅支持訪問21005端口;新API兼容訪問非安全端口21005和安全端口21007。
D. 對于設(shè)置了ACL的Topic,可以使用舊API連接21005端口進行訪問。
12.(判斷題)在一個MapReduce應(yīng)用程序中,map函數(shù)的輸出經(jīng)由MapReduce框架處理后,發(fā)送到reduce函數(shù)。這個處理過程是基于鍵值對進行排序和分組的。
A. True
B. False
13.(判斷題)在FusionInsight HD中,Spark默認采用YARN作為集群資源管理系統(tǒng)。
A. True
B. False
14.(單選題)Spark應(yīng)用的計算邏輯會被解析成DAG,這個解析操作由以下哪個功能模塊完成?
A. Client
B. ApplicationMaster
C. Executor
D. Driver
15.(單選題)在Flume中,source功能模塊的主要作用是?
A. 獲取數(shù)據(jù),并將原始數(shù)據(jù)轉(zhuǎn)化成自己處理的數(shù)據(jù)對象。
B. 緩存數(shù)據(jù),根據(jù)不同的可靠性策略,將數(shù)據(jù)保存在內(nèi)存或文件上。
C. 輸出數(shù)據(jù)到目的地,支持多種輸出協(xié)議。
D. 拆分數(shù)據(jù),根據(jù)數(shù)據(jù)的特性,將數(shù)據(jù)發(fā)送到不同的目的地。
16.(單選題) 關(guān)于Streaming的拓撲(Topology),下面描述錯誤的是?
A. 一個Topology是由一組Spout組件和Bolt組件通過Stream Groupings進行連接的有向無環(huán)圖(DAG)。
B. Topology會一直運行,直到它被顯式kill。
C. 業(yè)務(wù)邏輯都被封裝進Topology中。
D. 一個Topology只可以指定啟動一個Worker進程。
17.(單選題) 假設(shè)一個應(yīng)用有10個表,每個表記錄數(shù)為千萬級別,字段數(shù)約20個,F(xiàn)使用Redis來緩存這10個表的數(shù)據(jù),對其數(shù)據(jù)結(jié)構(gòu)的設(shè)計,以下哪一項是最佳設(shè)計?
A. 采用hash結(jié)構(gòu),且一個表使用一個hash KEY,表中一行記錄對于hash KEY的一個field。
B. 采用hash結(jié)構(gòu),每個表的每一行記錄使用一個hash KEY,hash KEY的field對應(yīng)表記錄的字段,且設(shè)計KEY時每個表添加不同的前綴進行區(qū)分。
C. 采用string結(jié)構(gòu),每個表的每一行記錄的每個字段使用一個KEY。
D. 采用string結(jié)構(gòu),每個表的每一行記錄使用一個KEY,value為表中一行記錄的所有字段拼接后的值。
18.(多選題) FusionInsight HD中,在使用Streaming的ACK機制時,下列哪些說法是正確的?
A. 啟用了Acker之后,Streaming會識別發(fā)送失敗的Tuple并自動重發(fā),無需人為干預(yù)。
B. Acker會標識處理超時或者處理失敗的消息為fail。
C. 從spout開始,形成的Tuple樹中任何一個環(huán)節(jié)失敗都會標記整棵樹失敗。
D. 應(yīng)用需要在spout的fail()接口方法中實現(xiàn)消息重發(fā)邏輯。
19.(多選題)在Spark中,關(guān)于廣播變量以下說法正確的是?
A. 廣播變量在每個Task中保存一份 。
B. 廣播變量在每個Executor中保存一份。
C. 廣播變量是只讀的。
D. 廣播變量通過SparkContext.broadcast()方法生成。
20.(單選題)在Spark中,假設(shè)lines是一個DStream對象,filter語句可以過濾掉80%的數(shù)據(jù),針對以下兩個語句說法正確的是:
X: lines.filter(...).groupByKey(...)
Y: lines.groupByKey(...).filter(...)
A. X比Y的性能更高
B. X比Y的性能更低
C. X和Y和性能一樣
D. 無法確性X和Y的性能差異
答案:
1. A 2.ABCD 3. ABC 4.AC 5.C 6.B 7.A 8.A 9. BCDE 10. ABC 11.D 12.A 13.A 14.D 15.A 16.D 17.B 18. BCD 19. BCD 20.A
A. True B. False
2.(多選題) HDFS的應(yīng)用開發(fā)中,下列哪些是HDFS服務(wù)支持的接口?
A. BufferedOutputStream.write
B. BufferedOutputStream.flush
C. FileSystem.create
D. FileSystem.append
3. (多選題) 關(guān)于kinit操作命令,如下哪些說法是錯誤的?
A. 只能使用人機賬號。
B. 只能使用機機賬號。
C. 一個客戶端不支持多個賬號同時使用。
D. 執(zhí)行此命令得到的票據(jù)在24小時后會超時,需再次執(zhí)行kinit命令去重新登錄。
4.(多選題)對于HBase Rowkey的設(shè)計原則,如下描述正確的是?
A. 訪問權(quán)重高的屬性值放在Rowkey前面。
B. 訪問權(quán)重高的屬性值放在Rowkey后半部分。
C. 離散度好的屬性值放在Rowkey前半部分。
D. 離散度好的屬性值放在Rowkey后半部分。
5.(單選題)HBase表的Rowkey設(shè)計是一個很重要的開發(fā)設(shè)計環(huán)節(jié)。假設(shè)存在如下場景,最頻繁的查詢場景是基于手機號查詢每個月、每半年的歷史通話記錄,以下哪個Rowkey設(shè)計是最優(yōu)的?
A. 姓名+手機號 B. 日期+手機號
C. 手機號+日期 D. 手機號+姓名
6.(單選題) FusionInsight HD中,關(guān)于Hive的分區(qū)(partition)功能,如下描述錯誤的是?
A. 分區(qū)字段要在創(chuàng)建表時定義。
B. 分區(qū)字段只能有一個,不可以創(chuàng)建多級分區(qū)。
C. 使用分區(qū),可以減少某些查詢的數(shù)據(jù)掃描范圍,進而提高查詢效率。
D. 分區(qū)字段可以作為where字句的條件。
7.(判斷題) FusionInsight HD系統(tǒng)的V100R002C60版本中,Hive僅支持基于MapReduce引擎的查詢服務(wù),不支持基于Spark引擎的查詢服務(wù)。
A. True
B. False
8.(單選題) FusionInsight HD中,對Solr各類資源的創(chuàng)建和讀寫權(quán)限使用,以下說法錯誤的是?
A. Solr用戶組用戶可以創(chuàng)建配置集,并在創(chuàng)建Collection時指定該配置集。
B. Solr用戶組的用戶可以創(chuàng)建Collection。
C. Collection創(chuàng)建者、對該Collection具有讀寫權(quán)限的角色以及Solr admin角色可以對Collection進行更新。
D. 只有Collection創(chuàng)建者和Solr admin角色可以刪除Collection。
9.(多選題) 在Solr的應(yīng)用查詢場景中,當對查詢結(jié)果深度翻頁時,需使用游標進行深度翻頁。下面對游標說法正確的是?
A. 必須對查詢字段進行排序。
B. 必須對uniqueKey字段進行排序。
C. 第一次查詢請求時,需指定查詢參數(shù),操作方法如下:
solrQuery.set(CursorMarkParams.CURSOR_MARK_PARAM, CursorMarkParams.CURSOR_MARK_START);
D. 查詢時,請求中不能帶有start參數(shù)。
E. Solr的返回結(jié)果中會有nextCursorMark,在下次調(diào)用時使用這個值作為cursorMark。
10.(多選題)關(guān)于Kafka的Producer,如下說法正確的是?
A. Producer是消息生產(chǎn)者。
B. Producer生產(chǎn)數(shù)據(jù)需要指定Topic。
C. 可以同時起多個Producer進程向同一個Topic進行數(shù)據(jù)發(fā)送。
D. Producer生產(chǎn)數(shù)據(jù)時需要先連接ZooKeeper,而后才連接Broker。
11.(單選題) 在FusionInsight HD產(chǎn)品中,關(guān)于Kafka安全和非安全端口描述錯誤的是?
(注:舊API是指舊Producer API和舊Consumer API。其中,舊Consumer API:是指kafka.consumer.ConsumerConnector中定義的接口;舊Producer API:是指kafka.producer.Producer中定義的接口。)
A. Kafka集群安全訪問端口默認為21007,非安全訪問端口默認為21005。
B. 舊API通過21005端口訪問某個Topic的前提是:服務(wù)端參數(shù)allow.everyone.if.no.acl.found設(shè)置為true,且此Topic未設(shè)置ACL屬性。
C. 舊API僅支持訪問21005端口;新API兼容訪問非安全端口21005和安全端口21007。
D. 對于設(shè)置了ACL的Topic,可以使用舊API連接21005端口進行訪問。
12.(判斷題)在一個MapReduce應(yīng)用程序中,map函數(shù)的輸出經(jīng)由MapReduce框架處理后,發(fā)送到reduce函數(shù)。這個處理過程是基于鍵值對進行排序和分組的。
A. True
B. False
13.(判斷題)在FusionInsight HD中,Spark默認采用YARN作為集群資源管理系統(tǒng)。
A. True
B. False
14.(單選題)Spark應(yīng)用的計算邏輯會被解析成DAG,這個解析操作由以下哪個功能模塊完成?
A. Client
B. ApplicationMaster
C. Executor
D. Driver
15.(單選題)在Flume中,source功能模塊的主要作用是?
A. 獲取數(shù)據(jù),并將原始數(shù)據(jù)轉(zhuǎn)化成自己處理的數(shù)據(jù)對象。
B. 緩存數(shù)據(jù),根據(jù)不同的可靠性策略,將數(shù)據(jù)保存在內(nèi)存或文件上。
C. 輸出數(shù)據(jù)到目的地,支持多種輸出協(xié)議。
D. 拆分數(shù)據(jù),根據(jù)數(shù)據(jù)的特性,將數(shù)據(jù)發(fā)送到不同的目的地。
16.(單選題) 關(guān)于Streaming的拓撲(Topology),下面描述錯誤的是?
A. 一個Topology是由一組Spout組件和Bolt組件通過Stream Groupings進行連接的有向無環(huán)圖(DAG)。
B. Topology會一直運行,直到它被顯式kill。
C. 業(yè)務(wù)邏輯都被封裝進Topology中。
D. 一個Topology只可以指定啟動一個Worker進程。
17.(單選題) 假設(shè)一個應(yīng)用有10個表,每個表記錄數(shù)為千萬級別,字段數(shù)約20個,F(xiàn)使用Redis來緩存這10個表的數(shù)據(jù),對其數(shù)據(jù)結(jié)構(gòu)的設(shè)計,以下哪一項是最佳設(shè)計?
A. 采用hash結(jié)構(gòu),且一個表使用一個hash KEY,表中一行記錄對于hash KEY的一個field。
B. 采用hash結(jié)構(gòu),每個表的每一行記錄使用一個hash KEY,hash KEY的field對應(yīng)表記錄的字段,且設(shè)計KEY時每個表添加不同的前綴進行區(qū)分。
C. 采用string結(jié)構(gòu),每個表的每一行記錄的每個字段使用一個KEY。
D. 采用string結(jié)構(gòu),每個表的每一行記錄使用一個KEY,value為表中一行記錄的所有字段拼接后的值。
18.(多選題) FusionInsight HD中,在使用Streaming的ACK機制時,下列哪些說法是正確的?
A. 啟用了Acker之后,Streaming會識別發(fā)送失敗的Tuple并自動重發(fā),無需人為干預(yù)。
B. Acker會標識處理超時或者處理失敗的消息為fail。
C. 從spout開始,形成的Tuple樹中任何一個環(huán)節(jié)失敗都會標記整棵樹失敗。
D. 應(yīng)用需要在spout的fail()接口方法中實現(xiàn)消息重發(fā)邏輯。
19.(多選題)在Spark中,關(guān)于廣播變量以下說法正確的是?
A. 廣播變量在每個Task中保存一份 。
B. 廣播變量在每個Executor中保存一份。
C. 廣播變量是只讀的。
D. 廣播變量通過SparkContext.broadcast()方法生成。
20.(單選題)在Spark中,假設(shè)lines是一個DStream對象,filter語句可以過濾掉80%的數(shù)據(jù),針對以下兩個語句說法正確的是:
X: lines.filter(...).groupByKey(...)
Y: lines.groupByKey(...).filter(...)
A. X比Y的性能更高
B. X比Y的性能更低
C. X和Y和性能一樣
D. 無法確性X和Y的性能差異
答案:
1. A 2.ABCD 3. ABC 4.AC 5.C 6.B 7.A 8.A 9. BCDE 10. ABC 11.D 12.A 13.A 14.D 15.A 16.D 17.B 18. BCD 19. BCD 20.A