超入門! Rでできるビジュアル統計学 解析編 学会・論文発表に役立つデータ可視化マニュアル
「選択した統計解析で得られた結果をどのように表現するか」Rでの実装でわかりやすく可視化できる!
内容紹介
前著はRStudioの基本的な操作から、棒グラフや箱ひげ図などの記述的なグラフについて解説をしてきましたが、本書は主に統計解析を伴う可視化をメインに取り扱った内容となっています。
おもな内容としては、相関と回帰分析、因果推論、メタアナリシス、生存時間解析、臨床検査学・診断学、生命医科学など、医学・生命科学分野の中でもより汎用性の高い可視化表現をピックアップして解説しています。
各グラフは、「概要→グラフとその解説→注意点→Rでの実装」という流れで構成されているため、自身の習得レベルに合わせて情報を取捨選択しながら、カラーでの複雑な可視化表現などを楽しめます。
医療系の論文でよく使われる統計手法、あるいは解析手法の図示を洗練させるにはどうしたらよいのか? 統計解析したあとの処理などの実践方法を学べる一冊です。
好評姉妹本
序文
本書の目的は、学会発表や論文執筆を控えた医療従事者向けに「選択した統計解析で得られた結果をどのように表現するか」を提示することです。
前作『超入門! Rでできるビジュアル統計学 学会・論文発表に役立つデータ可視化マニュアル』では、記述統計に焦点を絞り、科学的な立場からデータの可視化を掘り下げました。普段何気なく使っている馴染み深いグラフの注意点やその実践方法について簡潔に提示できたと自負しております。
しかし、研究を進めていくと、記述統計から一歩踏み込んだ推測統計を使用する機会が多く訪れます。そして、このような解析で得られた結果を論文や学会のMain Figureとして「アウトプット」することも少なくはありません。また一方で、論文や学会発表で提示された図を自身で理解・解釈する「インプット」の機会も同等にあると考えられます。つまり、推測統計の可視化を理解することは、研究や臨床におけるインプットとアウトプットの両者で欠かせない知識であることが分かります。
こうした背景をもとに、本書では臨床もしくはフィールドワークで収集した医学データをどのような手法で解析できるのか、そしてその解析結果をどのようにグラフとして表現するのか、どんなポイントに気をつけると良いか、を科学者・疫学者の視点から提示したいと考え、執筆することにしました。
このような目的を達成するために、本書では医学・生命科学分野の中でもより汎用性の高い可視化表現を選択し、7つの大きなPartに分けて構成しています。Part1では、導入として本書を通じて使用するRとRStudioについて紹介します。Part2では、推測統計の中でも基本的な回帰分析を扱っています。Part3は、昨今のトレンドでもある因果推論について、各手法のエッセンスを可視化表現とともに紹介していきます。Part4やPart5は、臨床の論文でもしばしば目にするメタアナリシスや生存時間解析にページを割いて解説していきます。Part6では、医学の根幹を支えている検査学や診断学の可視化表現について学習していきます。Part7では、ビッグデータ時代に急速に発展を遂げているバイオインフォマティクスの分野の可視化表現をいくつか取り上げます。
各グラフについては、「概要→グラフとその解説→注意点→Rでの実装」という流れで構成されています。自身の知識やデータ保有状況に合わせて、情報を取捨選択しながら活用していただければ幸いです。
本書では、カラー刷りによって複雑な可視化表現も楽しんでいただけると思います。特設サイトにコードを提示しましたのでご参照下さい。
2023年2月27日
藤井亮輔
坪井良樹
目次
Part1 Rの紹介と前準備
[1-1]RとRStudioの基本
[1-2]データのインポートと前処理
[1-3]ggplot2の基本
本書で使用するデータセット一覧
本書で使用するパッケージのインストールと呼び出し
Part2 相関と回帰分析の可視化
[2-1]相関係数のヒートマップ(Correlation matrix)
[2-2]回帰分析1―線形な関係(Regression analysis:Linear relationship)
[2-3]回帰分析2―非線形な関係(Regression analysis:Non-linear relationship)
[2-4]回帰分析3―点推定値と信頼区間(Point estimate and confidence interval)
Part3 因果推論の可視化
[3-0]因果推論の導入
[3-1]傾向スコア分析(Propensity score regression analysis)
[3-2]回帰不連続デザイン(Regression discontinuity design)
[3-3]差分の差分法(Difference in differences design)
[3-4]DAG(Directed acyclic graph)
Part4 メタアナリシスの可視化
[4-1]フォレストプロット(Forest plot)
[4-2]ファンネルプロット(Funnel plot)
[4-3]ネットワーク・メタアナリシス(Network meta-analysis)
Part5 生存時間解析の可視化
[5-1]生存曲線(Survival curve)
[5-2]スイマープロット(Swimmer plot)
[5-3]スパイダープロット(Spider plot)
Part6 臨床検査学・診断学の可視化
[6-1]ROC曲線(Receiver operating characteristic curve)
[6-2]ブランド・アルトマンプロット(Bland-Altman plot)
Part7 生命医科学の可視化
[7-1]次元圧縮(Dimensionality reduction)
[7-2]ボルケーノプロット(Volcano plot)
[7-3]系統樹(Phylogenetic tree)
BOX
1-1 RとRStudioの役割とメリット
1-2 SourceペインとConsoleペインの役割
1-3 Rコマンドの注意点
2-1 エラーメッセージの解決策
3-1 調整変数の選択方法~バックドア基準を基に~
4-1 ファンネルプロットが非対称性になるメカニズム
6-1 感度と特異度
Column
1 gtsummaryパッケージによる表での可視化
2 画像の保存形式(ビットマップ/ベクター)
3 記述統計に関する発展的な可視化
4 欠測値の可視化
5 データハンドリングのTips
索引
あとがき
著者プロフィール