データの欠損値、どのように取り扱えば良いですか?

データの欠損値、どのように取り扱えば良いですか?

【★☆☆(入門)~★★☆(中級)】皆様から頂いた質問にお答えします!詳しくは▶https://syuichiao.medy.jp/p/5802af29-df36-47de-ab7a-a1321cb5856a

2023/3/1

 Medical Writing Worksでは、ご利用者さまからの質問を募集中です!募集する質問や疑問のカテゴリーは主に以下の3つです。
  • 医薬品やサプリメント、健康に良いとされるものの効果や安全性に関する疑問・質問
  • 医学論文の読み方・活用の仕方、医療情報の検索に関する疑問・質問
  • 文章の書き方や、おすすめの書籍などに関する疑問・質問
 その他のご質問も特にジャンルに関わらず適宜、回答させていただいております。疑問・質問の投稿は、medyの質問機能を使って募集します。以下のリンクをクリックして、ご投稿いただけましたら幸いです。
 早速ご質問を頂きましたので、回答させていただきます。今回は、データの欠損値に関する疑問です。
 いつも参考にさせて頂いております。(サンプルサイズ設計について質問させていただいたものです。非劣勢マージンの設定について疑問を思っていたので、専門家から議論の分かれるところと解説頂き、納得できました)。  今回質問させていただきたいのが、データの欠損値の取り扱いについてです。入門レベルの統計の教科書には書かれていないことが多く、質問させていただきました。一般的な作法をご教授頂けるとありがたいです。
 いつもご利用いただきありがとうございます。少しでもお役に立つことができましたら幸いです。今後ともよろしくお願いいたします。
 一般的に、統計解析に必要なデータは、なんらかの理由によって記録されたなかった値、すなわち欠損値 (missing data) が含まれます。むろん、系統的にデータを収集することによって、解析に必要な全ての変数を観察可能なケースもありますが、そのような状況は稀でしょう。ちなみに、欠損値が存在しないデータを完全データ(complete data)と呼びます。一方、欠損値が生じているデータは不完全データ(incomplete data)と呼ばれ、処理するデータ量が増えるほど、不完全データとなり得る確率は高くなります。
 ご質問の意図と合致していれば良いのですが、この記事では臨床研究における欠損値の取り扱いに関する基本的な方法論を解説します。

欠損値の定義とそのバリエーション

匿名で質問やリクエストを送る

※登録・ログインなしで利用できます

記事をサポートする

記事をサポートする

感謝・応援の気持ちのチップを送ることができます。 Medical Writing Worksの継続運営を支えましょう。

※登録・ログインなしで利用できます

メールアドレスだけでかんたん登録

  • 新着記事を受け取り見逃さない
  • 記事内容をそのままメールで読める
  • メール登録すると会員向け記事の閲覧も可能
あなたも Medy でニュースレターを投稿してみませんか?あなたも Medy でニュースレターを投稿してみませんか?