金融時系列データの前処理と特徴量エンジニアリング入門

import pandas as pd

df = pd.read_csv('japan_stock.csv', index_col=0, parse_dates=True)
# 欠損値を前の値で埋める（フォワードフィル）
df_ffill = df.fillna(method='ffill')
# 平均値で補完
df_mean = df.fillna(df.mean())

import pandas as pd

# 1分足のダミーデータ作成
df = pd.DataFrame({
    'price': [100, 102, 101, 103, 105]
}, index=pd.date_range('2024-06-01 09:00', periods=5, freq='T'))

# 5分ごとにダウンサンプリング（終値を使う例）
downsampled = df.resample('5T').last()

# 日次データを1時間ごとにアップサンプリング（線形補間）
daily = pd.DataFrame({'price': [100, 105]}, index=pd.date_range('2024-06-01', periods=2, freq='D'))
upsampled = daily.resample('1H').interpolate('linear')

import pandas as pd

# 株価データを読み込み
df = pd.read_csv('toyota_stock.csv', parse_dates=['Date'], index_col='Date')

# 1日遅れ、5日遅れのラグ特徴量を追加
df['close_lag1'] = df['Close'].shift(1)
df['close_lag5'] = df['Close'].shift(5)

from statsmodels.tsa.seasonal import STL

stl = STL(df['Close'], period=20)  # 20日周期の季節性を仮定
result = stl.fit()
df['trend'] = result.trend
df['seasonal'] = result.seasonal
df['resid'] = result.resid

from sklearn.preprocessing import MinMaxScaler
import numpy as np

prices = np.array([[1200], [1500], [3000], [4500], [5000]])
scaler = MinMaxScaler()
scaled = scaler.fit_transform(prices)
print(scaled)

ShelledCamAndroid

Related Posts

2024年最新！C/C++で始めるllama.cppによるLLM推論入門ガイド

マルチモーダルRAGシステムの設計 (필요 지식: 基本的なRAGシステム構築経験, マルチモーダル埋め込み技術の基礎知識)

ベクトル検索におけるセキュリティとアクセス制御 (필요 지식: ベクトル検索エンジンの運用経験, セキュリティ基礎知識)

目次

金融時系列データとは何か

💡 実践的なヒント

欠損値処理と異常値検出によるデータクレンジング

欠損値の種類と発生原因

欠損値処理の実践

異常値検出のアプローチ

まとめと実践Tips

💡 実践的なヒント

時系列データの整形：リサンプリングとウィンドウ集計

リサンプリングの目的と方法

ウィンドウ集計の概要

時間粒度の統一によるメリット

💡 実践的なヒント

時系列特徴量の生成方法

ラグ特徴量とは？どんなとき使うの？

移動平均・移動標準偏差の使い方

トレンド抽出や季節性分解で特徴量を増やす

特徴量の増やしすぎは逆効果？よくある落とし穴

まとめ

💡 実践的なヒント

スケーリング処理と非定常性への対応

まずはスケーリング手法から

Min-Max正規化（Normalization）

Zスコア標準化（Standardization）

次に非定常性への対応

差分変換（Differencing）

対数変換（Log Transformation）

未来情報リーク防止の超重要ポイント

まとめ

💡 実践的なヒント

まとめ

📚 参考資料と追加学習

公式ドキュメント

チュートリアル

便利なツール

コミュニティ

🔗 関連トピック

時系列データの欠損値処理と外れ値検出

時系列データのリサンプリングと平滑化

金融時系列特有の特徴量設計（テクニカル指標・ラグ特徴量）

📈 次のステップ

Tags

Shelled AI (日本)