プログラミングの勉強、HTML、CSS、javascript、wordpressなどの勉強記録を残していきます。

Python(RDKit)で学ぶ特徴量選択:多重共線性を解消し、信頼できる物性予測モデルを構築する
先日RDKitを用いた機械学習で「多重共線性」というものを学びました。本記事では、相関行列とVIF(分散拡大係数)を使い、情報の重複した特徴量を科学的に選択・削除する具体的な手順をPythonコード付きで解説します。モデルの予測精度と解釈性を向上させる実践的テクニックが学べます。

【RDKit機械学習入門】特徴量エンジニアリングで予測精度を上げてみる
「RDKit機械学習入門」シリーズ第2回。予測精度を向上させる鍵「特徴量エンジニアリング」を実践します。TPSAや水素結合といった化学的特徴量をモデルに追加し、化合物の水溶解度(logS)予測の精度が向上する過程をPythonコード付きで分かりやすく解説します。

【RDKit機械学習入門】Pythonで化合物の水溶解度を予測してみよう
RDKitとscikit-learnを用いてSMILESから水溶解度(log S)を予測するQSARモデルをPythonで構築。特徴量計算から線形回帰による評価まで、化学・創薬初心者にもわかりやすく解説します。

CursorをDockerコンテナにアタッチして、快適な開発環境を構築しよう!
AI搭載エディタCursorを、Dockerで構築した開発環境へ簡単に接続(アタッチ)する方法を解説。VSCodeと同様の手順で、コンテナ内のファイルを直接編集・デバッグできます。快適なDocker開発環境をCursorで実現しましょう。

【機械学習初心者向け】Space Titanicで基本的な特徴量エンジニアリングをしてみた
この記事では、人気のKaggleコンペティション「Space Titanic」を題材に、データクリーニングから最初の機械学習モデルを提出するまでの一連の流れを、ステップバイステップで解説します。第一弾では「とりあえず手を動かして、機械学習を...

DockerでRDKitが使えるケモインフォマティクス環境構築【py3Dmol・PubChemPyも】
DockerとVS Codeでrdkit・py3Dmol・PubChemPyが動く再現性の高いケモインフォマティクス環境を構築する手順を詳しく解説。Dockerfile、docker-compose、Jupyter連携、2D/3D分子表示まで一気に学べます。

Docker環境をVSCodeで使うデータ分析環境(Python/Jupyter)の構築方法
VSCodeとDockerを使って、JupyterLabを含むPythonデータ分析環境を15分で構築する方法を初心者向けに解説。Mac・Windows両対応、コピペでOK!

pandasとXGBoostで行うデータ前処理と予測モデル構築【タイタニック編①】
Titanicコンペデータセットを題材に、データの欠損補完、特徴量変換、XGBoostによる予測までのプロセスを紹介します。

StratifiedKFoldによる交差検証の手順を解説【タイタニック編②】
タイタニックデータを題材に、StratifiedKFoldによるクロスバリデーションの仕組みと実装方法を初心者向けに解説します。

Pythonでインタラクティブなグラフのデータ選択を実現する【Dockerfile付き】
Pyhotnを使って、Jupyter Notebook上で散布図から任意のデータを取り出す機能を紹介します。グラフ内の範囲選択によって、散布図のプロットをインタラクティブに選択して抽出できます。Jupyter Widgetsを使うことで、比較的簡単に実現できました。散布図以外にも時系列データや折れ線グラフに適用可です。