返學(xué)費(fèi)網(wǎng) > 培訓(xùn)機(jī)構(gòu) > 北京國富如荷教育
1、如何理解過擬合?
過擬合和欠擬合一樣,都是數(shù)據(jù)挖掘的基本概念。過擬合指的就是數(shù)據(jù)訓(xùn)練得太好,在實(shí)際的測(cè)試環(huán)境中可能會(huì)產(chǎn)生錯(cuò)誤,所以適當(dāng)?shù)募糁?duì)數(shù)據(jù)挖掘算法來說也是很重要的。
欠擬合則是指機(jī)器學(xué)習(xí)得不充分,數(shù)據(jù)樣本太少,不足以讓機(jī)器形成自我認(rèn)知。
2、為什么說樸素貝葉斯是“樸素”的?
樸素貝葉斯是一種簡單但極為強(qiáng)大的預(yù)測(cè)建模算法。之所以稱為樸素貝葉斯,是因?yàn)樗僭O(shè)每個(gè)輸入變量是獨(dú)立的。這是一個(gè)強(qiáng)硬的假設(shè),實(shí)際情況并不一定,但是這項(xiàng)技術(shù)對(duì)于絕大部分的復(fù)雜問題仍然非常有效。
3、SVM 最重要的思想是什么?
SVM 計(jì)算的過程就是幫我們找到超平面的過程,它有個(gè)核心的概念叫:分類間隔。SVM 的目標(biāo)就是找出所有分類間隔中最大的那個(gè)值對(duì)應(yīng)的超平面。在數(shù)學(xué)上,這是一個(gè)凸優(yōu)化問題。同樣我們根據(jù)數(shù)據(jù)是否線性可分,把 SVM 分成硬間隔 SVM、軟間隔 SVM 和非線性 SVM。
4、K-Means 和 KNN 算法的區(qū)別是什么?
首先,這兩個(gè)算法解決的是數(shù)據(jù)挖掘中的兩類問題。K-Means 是聚類算法,KNN 是分類算法。其次,這兩個(gè)算法分別是兩種不同的學(xué)習(xí)方式。K-Means 是非監(jiān)督學(xué)習(xí),也就是不需要事先給出分類標(biāo)簽,而 KNN 是有監(jiān)督學(xué)習(xí),需要我們給出訓(xùn)練數(shù)據(jù)的分類標(biāo)識(shí)。最后,K 值的含義不同。K-Means 中的 K 值代表 K 類。KNN 中的 K 值代表 K 個(gè)最接近的鄰居。
【導(dǎo)讀】眾所周知,隨著社會(huì)的發(fā)展,數(shù)據(jù)分析師成為了炙手可熱的熱門執(zhí)業(yè),一方面是其高薪待遇另一方面就是其未來廣闊的發(fā)展前景。一般情況下用人單位會(huì)給問答題和動(dòng)手題來檢測(cè)應(yīng)聘者的真實(shí)實(shí)力,可以說面試筆試是非常重要的一個(gè)環(huán)節(jié)。它可以直接測(cè)驗(yàn)?zāi)銓?duì)數(shù)據(jù)分析具體理論的掌握程度和動(dòng)手操作的能力。為此小編就以此為例和大家說說2021年數(shù)據(jù)分析面試解答技巧:動(dòng)手題,希望對(duì)大家有所幫助。
動(dòng)手題
1. 我給你一組數(shù)據(jù),如果要你做數(shù)據(jù)清洗,你會(huì)怎么做?
實(shí)際上,這一道題中,面試官考核的是基本的數(shù)據(jù)清洗的準(zhǔn)則,數(shù)據(jù)清洗是數(shù)據(jù)分析必不可少的重要環(huán)節(jié)。你可能看到這個(gè)數(shù)據(jù)存在 2 個(gè)問題:典韋出現(xiàn)了 2
次,張飛的數(shù)學(xué)成績?nèi)笔А?/p>
針對(duì)重復(fù)行,你需要?jiǎng)h掉其中的一行。針對(duì)數(shù)據(jù)缺失,你可以將張飛的數(shù)學(xué)成績補(bǔ)足。
2. 豆瓣電影數(shù)據(jù)集關(guān)聯(lián)規(guī)則挖掘
在數(shù)據(jù)分析領(lǐng)域,有一個(gè)很經(jīng)典的案例,那就是“啤酒 +
尿布”的故事。它實(shí)際上體現(xiàn)的就是數(shù)據(jù)分析中的關(guān)聯(lián)規(guī)則挖掘。不少公司會(huì)對(duì)這一算法進(jìn)行不同花樣的考察,但萬變不離其宗。
如果讓你用 Apriori 算法,分析電影數(shù)據(jù)集中的導(dǎo)演和演員信息,從而發(fā)現(xiàn)兩者之間的頻繁項(xiàng)集及關(guān)聯(lián)規(guī)則,你會(huì)怎么做?
以上就是小編今天給大家整理發(fā)送的關(guān)于“數(shù)據(jù)分析師面試題目和答案:動(dòng)手題”的相關(guān)內(nèi)容,希望對(duì)大家有所幫助。想了解更多關(guān)于數(shù)據(jù)分析及人工智能就業(yè)崗位分析,關(guān)注小編持續(xù)更新。
【導(dǎo)讀】眾所周知,大數(shù)據(jù)分析師的面試流程與其他行業(yè)的不大一樣,比如你面試一份文員工作,只需要攜帶簡歷就可以了,不過要想面試成功大數(shù)據(jù)分析師,不僅需要攜帶簡歷,還要做好考試的準(zhǔn)備,這是每一個(gè)大數(shù)據(jù)分析師的入職必經(jīng)流程,今天小編就來和大家說說大數(shù)據(jù)分析師面試題:Redis的耐久化戰(zhàn)略,希望對(duì)各位考生有所幫助。
一、RDB介紹
RDB 是 Redis
默許的耐久化計(jì)劃。在指定的時(shí)間距離內(nèi),實(shí)行指定次數(shù)的寫操作,則會(huì)將內(nèi)存中的數(shù)據(jù)寫入到磁盤中。即在指定目錄下生成一個(gè)dump.rdb文件。Redis
重啟會(huì)通過加載dump.rdb文件恢復(fù)數(shù)據(jù)。
可以在redis.windows.conf配備文件中修正save來進(jìn)行相應(yīng)的配備
注意事項(xiàng)
60秒內(nèi)10000條數(shù)據(jù)則保存
這兒有三個(gè)save,只需滿意其間任意一條就可以保存
比方:
(1)在redis中保存幾條新的數(shù)據(jù),用kill
-9粗暴殺死redis進(jìn)程,模仿redis缺點(diǎn)失常退出,導(dǎo)致內(nèi)存數(shù)據(jù)丟掉的場景(或許在,也或許不在,根據(jù)save的狀況)
(2)手動(dòng)設(shè)置一個(gè)save檢查點(diǎn),save 5 1
寫入幾條數(shù)據(jù),等候5秒鐘,會(huì)發(fā)現(xiàn)自動(dòng)進(jìn)行了一次dump rdb快照,在dump.rdb中發(fā)現(xiàn)了數(shù)據(jù)
失常停掉redis進(jìn)程,再從頭發(fā)起redis,看方才刺進(jìn)的數(shù)據(jù)還在
二、AOF介紹
AOF :Redis 默許不打開。它的呈現(xiàn)是為了補(bǔ)償RDB的缺乏(數(shù)據(jù)的不一致性),所以它采用日志的方法來記載每個(gè)寫操作,并追加到文件中。Redis
重啟的會(huì)根據(jù)日志文件的內(nèi)容將寫指令早年到后實(shí)行一次以結(jié)束數(shù)據(jù)的恢復(fù)作業(yè)。( yes)
注意事項(xiàng)注意事項(xiàng)
可以在redis.windows.conf中進(jìn)行配備
打開AOF
將 的no 改為 yes
下面是文件名可以運(yùn)用默許的文件名,也可以自己改
注意事項(xiàng)
運(yùn)用默許的everysec就可以了
以上就是小編今天給大家整理發(fā)送的關(guān)于大數(shù)據(jù)分析師面試題:Redis的耐久化戰(zhàn)略的相關(guān)內(nèi)容,希望對(duì)各位考生有所幫助,想知道更多關(guān)于數(shù)據(jù)分析師的基本要求有哪些,關(guān)注小編持續(xù)更新數(shù)據(jù)分析師崗位解析。
這個(gè)解法要點(diǎn)就是根據(jù)年齡進(jìn)行用戶分群。
參考:共享單車的標(biāo)準(zhǔn)滲透率 2.5%
私家自行車是以家庭為單位的,
假設(shè) 家庭擁有私家車:電動(dòng)車:自行車:啥都沒有=6:2:1:1
即:有自行車的家庭占比=10%
假設(shè) 平均每家有自行車的數(shù)量為1。上海人口:2500w,平均每家人口數(shù)量4人。
私家自行車數(shù)量=1 2500w/4 10%=60w
按照年齡劃分用戶,不同年齡層出行的需求不一樣,
上海人口:2500w
假設(shè) 年齡層劃分如下
? 22-65:60% 2500w*0.6=1500w(需要出行的比例 80%;選擇共享單車的比例:30%)
? 16-22:15%=375w(需要出行的比例:30%;選擇共享單車的比例:40%)
? 65+:15%=375w(需要出行的比例:10%;選擇共享單車的比例:10%)
? 0-16:10%=250w(30%)==>砍掉,用共享單車的可能很低
所以,每天有用共享單車的人數(shù)=1500 0.8 0.3+375 0.3 0.4+375 0.1 0.1=410w
假設(shè) 平均用戶每天使用次數(shù):2次;每次騎車時(shí)間8min。
每一共享單車每天服務(wù)次數(shù)=共享單車服務(wù)時(shí)間/每次服務(wù)的時(shí)間=3h/10min=18次
一、自我介紹
自我介紹不能太繁瑣,能簡潔明了就簡潔明了,可以從以下三個(gè)方面進(jìn)行介紹:
1)自我簡介:用一句話說明白自己的學(xué)歷專業(yè)年齡工作經(jīng)歷等;
2)我會(huì)什么:包括會(huì)用什么工具,懂得什么理論知識(shí);
3)我做過什么:介紹下項(xiàng)目的內(nèi)容,通過什么手段,達(dá)到了什么成果。
自我介紹的重點(diǎn)是在最短的時(shí)間突出自己的項(xiàng)目經(jīng)歷和技術(shù)水平,但也不用過于詳細(xì),留給面試官問問題的空間。
二、了解一些面試官可能會(huì)問的技術(shù)問題
下面是一些大廠數(shù)據(jù)分析崗常見的面試問題,大家可以自查一下,有個(gè)心理預(yù)期,不要被問到的時(shí)候什么也不知道。
技術(shù)類:
1、分組取topN(window function:row_number)
2、連續(xù)出現(xiàn)3次的數(shù)字(三表聯(lián)立)
3、分組求日活(某個(gè)的dau,groupby+aggregate function)
4、行轉(zhuǎn)列(max(case when))
業(yè)務(wù)類:
1、如果微信上線了近3天可見的功能,你怎么評(píng)估這個(gè)效果(擴(kuò)展:如何評(píng)估運(yùn)營宣傳活動(dòng)的效果。(觸達(dá)、用戶、用戶行為追蹤、促成活動(dòng)、成本))。
2、不同會(huì)員制的探討。
3、日活,人均使用時(shí)長下降了你怎么拆解分析。
4、直播收入下降了怎么分析等等。
關(guān)于數(shù)據(jù)分析師跳槽應(yīng)該如何準(zhǔn)備面試,青藤小編就和您分享到這里了。如果您對(duì)大數(shù)據(jù)工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關(guān)于數(shù)據(jù)分析師、大數(shù)據(jù)工程師的技巧及素材等內(nèi)容,可以點(diǎn)擊本站的其他文章進(jìn)行學(xué)習(xí)。