跳到主要內容

兩百萬人檔相關介紹

  •  2015-08-25
  •  吳 昱辰
第 1、2 組 200 萬人抽樣檔介紹
衛生福利部衛生福利資料科學中心在100年度開放申請使用資料,但各檔案資料筆數及欄位繁多、 資料使用不易,對於較少使用相關資料庫經驗的使用者而言,有相當的困難,爰本中心開始提供 200 萬人之就醫及死因資料供使用者申請,以資料起始年分為兩種,一為 89 年開始往後 10 年之資料,一 為 94 年開始往後 5 年之資料,每次申請直接提供健保資料及死因資料之常用欄位。
使用 200 萬人抽樣檔之優點如下:
1. 資料量較小,程式執行時間短,較快獲得結果。
2. 無須選擇使用檔案和勾選欄位,申請手續較快。
3. 不用等待資料篩選的時間。
4. 收費便宜。
5. 可以用抽樣檔的結果做為使用全人口資料之參考。
另外,使用本檔案須注意以下幾點:
1. 因為資料起始年之後不會再補充新增人口,所以新生兒的資料只有起始年才有。
2. 僅提供常用欄位,需使用常用欄位以外之欄位需另外申請及計費。 

200 萬人抽樣檔抽樣方法:
1. 將衛生福利部統計處整理的 89 年和 94 年之個人屬性檔經檢誤後(將重複資料、性別不詳、生日不 詳、年齡不合邏輯、地區不明者剔除),以該檔為抽樣母
體。
2. 將每筆個人資料之性別、年齡、地區分層:性別分為男女兩層;年齡分 20 層,每 5 歲一層到 85 歲以上,唯 5 歲以下再分出 28 天以下、28 天至 1 歲、
1 歲至 5 歲三層;地區以健保分局分層,共 6 層。總共分為 240(=2×20×6)層。
3. 計算每種分層在母體中的比例,以這個比例計算出各層在 200 萬人中會有多少人,作為該層之抽 樣數。
4. 在各分層中抽出該層的抽樣數,抽樣方法為隨機抽樣。
5. 將全部的資料垂直合併,得到 200 萬人抽樣檔之個人屬性檔,89 年檔有 2,000,118 人,94 年檔有 2,000,120 人。
6. 再以個人屬性檔以身分證字號比對出包含這些人的資料檔,包括健保門診明細檔(H_HNI_OPDTE)、 健保門診醫令檔(H_HNI_OPDTO)、健保住院明細檔(H_HNI_IPDTE)、健保住院醫令檔 (H_HNI_IPDTO)、健保藥局明細檔(H_HNI_DRUGE)、健保藥局醫令檔(H_HNI_DRUGO)、健保承保檔(H_NHI_ENROL)、死因檔(H_OST_DEATH)等資料檔。

99 年 200 萬人世代追蹤抽樣檔建置及驗證報告
一、 緣起 為提供研究經費額度有限或研究時間有限之計畫能應用衛生資料進行學術研究,於 100 年 8 月建置 200 萬人世代追蹤抽樣檔供外界申請使用,並規劃每 5 年為建置週期,目前已有 89 年及 94 年 2 組抽樣檔,內容包括健保資料及死因資料之常用欄位。其中 89 年 抽樣檔往後追蹤 14 年資料(89-102 年);94 年抽樣檔往後追蹤 9 年資料(94-102 年)及往前 追溯至 89 年(89-93 年)。
本部衛生福利資料科學中心第 3 組 200 萬人世代追蹤抽樣檔係以 99 年為起始年抽取 200 萬人,提供往後追蹤 5 年(99-103 年)及往前追溯至 89 年(89-98 年)之健保資料、癌症 登記資料及死因資料之常用欄位。

二、 99 年 200 萬人世代追蹤抽樣檔建置說明
(一) 抽樣母體 以 99 年 12 月 31 日之內政部戶籍檔人口為母體,比對 99 年健保在保人口,依下 列檢誤條件剔除不合宜資料後即為抽樣母體。
1. 非 2010 年內政部戶籍檔現住人口。
2. 非 2010 年健保在保者,2010 年健保在保者之定義為 2010 年 1 月至 2010 年 12 月間, 任一月在保者。
3. 身分證字號重複者(同身份證字號但生日不同)。
4. 性別不詳者。
5. 出生日期有誤者(包含欄位缺漏、格式錯誤、2010 年 12 月 31 日後出生等)。
6. 年齡非 0-120 歲者。
7. 2009 年 12 月 31 日(含)前死亡者。
8. 戶籍地不明者。
(二) 抽樣設計 將抽樣母體以性別、年齡及戶籍地為分層依據,依各層比例於各層內隨機抽取樣 本,本抽樣檔所需抽樣總人數為 200 萬人。
1. 分層準則與層數
(1) 性別:分為男、女,共 2 層。
(2) 年齡:分為日齡小於 28 天、日齡大於等於 28 天但未滿 1 歲、1 歲至未滿 5 歲、5 中華民國 104 年 8 月 24 日修訂 2 歲至未滿 10 歲、…、80 歲至未滿85 歲、85 歲以上,共 20 層。
(3) 地區:依戶籍地所屬之健保分局分為台北分局、北區分局、中區分局、南區分局、 高屏分局及東區分局,共 6 層。
2. 抽取樣本數 所需抽樣總人數為 200 萬人,依上述各層人口數佔抽樣母體人口數之比例分配 各層所需樣本。
3. 抽樣方法 採分層隨機抽樣法,以性別、年齡及戶籍地為分層依據,計算出各層所需抽取 樣本數後,進行抽樣,所需抽樣總人數為 200 萬人。
(三) 樣本代表性驗證 進行 200 萬人世代追蹤抽樣檔代表性驗證,驗證 200 萬人抽樣檔與抽樣母體間是 否 具 顯 著 性 差 異 , 其 中 類 別 變 項 驗 證 採 用 卡 方 檢 定 , 連 續 變 項 驗 證 採 用 K-S(Kolmogorov-Smirnov)檢定。

三、 第 3 組 200 萬人抽樣檔相較前 2 組抽樣檔之差異情形
(一) 比對 99 年健保承保檔在保人口,以避免比對健保資料後人數不足 200 萬人。
(二) 除進行十大死因及當年死亡人數分布驗證外,新增全民健保投保金額、投保地區、身分屬性、每年出生人數分布及健保住院就診率前五大疾病之年齡分布為驗證變項, 驗證 99 年 200 萬人世代追蹤抽樣檔與抽樣母體間是否具顯著性差異。
(三) 新增癌症登記檔為常用欄位。


詳情
第 1、2 、3組 200 萬人抽樣檔介紹     https://dep.mohw.gov.tw/DOS/cp-2506-3633-113.html
 

留言

這個網誌中的熱門文章

opencv4nodejs Asynchronous OpenCV 3.x Binding for node.js   122     2715     414   0   0 Author Contributors Repository https://github.com/justadudewhohacks/opencv4nodejs Wiki Page https://github.com/justadudewhohacks/opencv4nodejs/wiki Last Commit Mar. 8, 2019 Created Aug. 20, 2017 opencv4nodejs           By its nature, JavaScript lacks the performance to implement Computer Vision tasks efficiently. Therefore this package brings the performance of the native OpenCV library to your Node.js application. This project targets OpenCV 3 and provides an asynchronous as well as an synchronous API. The ultimate goal of this project is to provide a comprehensive collection of Node.js bindings to the API of OpenCV and the OpenCV-contrib modules. An overview of available bindings can be found in the  API Documentation . Furthermore, contribution is highly appreciated....

2017通訊大賽「聯發科技物聯網開發競賽」決賽團隊29強出爐!作品都在11月24日頒獎典禮進行展示

2017通訊大賽「聯發科技物聯網開發競賽」決賽團隊29強出爐!作品都在11月24日頒獎典禮進行展示 LIS   發表於 2017年11月16日 10:31   收藏此文 2017通訊大賽「聯發科技物聯網開發競賽」決賽於11月4日在台北文創大樓舉行,共有29個隊伍進入決賽,角逐最後的大獎,並於11月24日進行頒獎,現場會有全部進入決賽團隊的展示攤位,總計約為100個,各種創意作品琳琅滿目,非常值得一看,這次錯過就要等一年。 「聯發科技物聯網開發競賽」決賽持續一整天,每個團隊都有15分鐘面對評審團做簡報與展示,並接受評審們的詢問。在所有團隊完成簡報與展示後,主辦單位便統計所有評審的分數,並由評審們進行審慎的討論,決定冠亞季軍及其他各獎項得主,結果將於11月24日的「2017通訊大賽頒獎典禮暨成果展」現場公佈並頒獎。 在「2017通訊大賽頒獎典禮暨成果展」現場,所有入圍決賽的團隊會設置攤位,總計約為100個,展示他們辛苦研發並實作的作品,無論是想觀摩別人的成品、了解物聯網應用有那些新的創意、尋找投資標的、尋找人才、尋求合作機會或是單純有興趣,都很適合花點時間到現場看看。 頒獎典禮暨成果展資訊如下: 日期:2017年11月24日(星期五) 地點:中油大樓國光廳(台北市信義區松仁路3號) 我要報名參加「2017通訊大賽頒獎典禮暨成果展」>>> 在參加「2017通訊大賽頒獎典禮暨成果展」之前,可以先在本文觀看各團隊的作品介紹。 決賽29強團隊如下: 長者安全救星 可隨意描繪或書寫之電子筆記系統 微觀天下 體適能訓練管理裝置 肌少症之行走速率檢測系統 Sugar Robot 賽亞人的飛機維修輔助器 iTemp你的溫度個人化管家 語音行動冰箱 MR模擬飛行 智慧防盜自行車 跨平台X-Y視覺馬達控制 Ironmet 菸消雲散 無人小艇 (Mini-USV) 救OK-緊急救援小幫手 穿戴式長照輔助系統 應用於教育之模組機器人教具 這味兒很台味 Aquarium Hub 發展遲緩兒童之擴增實境學習系統 蚊房四寶 車輛相控陣列聲納環境偵測系統 戶外團隊運動管理裝置 懷舊治療數位桌曆 SeeM智能眼罩 觸...
自製直播音源線 Bird Liang   October 6, 2016   in  View Bird Liang, Chief Engineer (梁子凌 / 技術長兼工程輔導長) 負責 AppWorks 技術策略與佈署,同時主導工程輔導。人生的第一份正職工作是創業,之後在外商圈電子業中闖蕩多年,經歷過 NXP、Sony、Newport Imagining、Crossmatch 等企業,從事無線通訊、影像系統、手機、面板、半導體、生物辨識等不同領域產品開發。熱愛學習新事物,協助團隊解決技術問題。放棄了幾近退休般的生活加入 AppWorks,為的是幫助更多在創業路上的人,並重新體驗創業的熱情。台大農機系、台科大電子所畢業,熱愛賞鳥、演奏管風琴,亦是不折不扣的熱血 Maker。 隨著 Facebook 開放一般帳號直播,現在我們只要拿起手機,隨時隨地都可以開始直播。回想幾年前 AppWorks 剛開始進行 Demo Day 直播時,還要將 HDMI 訊號接進 PC 中、再編碼打進 YouTube 的複雜度,實不可同日而語。 但用手機或平板直播最大的問題往往不是影像而是聲音。iPhone 或 iPad 上的攝影機,感度和解析度早已不輸數年前的專業攝影機,只要現場光不太差,大概都可以拍出令人滿意的畫面。但直播的聲音一直是個大問題,手機上的麥克風跟人耳所聽到的聲音其實有很大的差距,在比較大的場子裡,光是仰賴內建麥克風的收音多半無法有令人滿意的效果。 在大型的活動中,現場通常會有 PA 系統,最理想的方式還是想辦法將 PA 的訊號餵進 iPad 或 iPhone 中,保證聲音乾淨又清楚,絕對不會有其它有的沒的現場音。 iPhone 的耳機孔雖然可以插帶有麥克風的耳機 (如 Apple 原廠的 EarPods),但它的訊號位準是電容式麥克風的位準。PA 控台的輸出幾乎都是 line level 的,兩者的訊號電壓相差百倍以上,我們得做個小東西來解決這個差距。 Line 與 Mic 在 mixer 上,我們常會看到輸入可以在兩種規格中切換: line level 和 mic level。Mic level 顧名思義就是從麥克風來的訊號,這個訊號的規格是從不需供電的傳統動圈麥克風來的。因為不需...