2024年5月27日に開催した「第2回RapidMiner AIコンテスト発表会」のレポートをお届けします。今回のRapidMiner AIコンテストでは、過去の気象予報情報などから⼀⽇先の太陽光発電量を予測するモデルを作成し、その予測精度を競って頂きました。
本レポートは、各部門(20〜30代部⾨、40代部⾨、50代以上部⾨)の優勝者3名の方よりご報告いただいた分析アプローチ等を要約しております。ぜひご覧ください。
第2 回 RapidMiner AI コンテスト 発表会 開催レポート
AI Studio Managedライセンスの利用 ver2024.0
2024.0のリリースに伴い、資料を更新いたしました。
本資料では、アルテアのManagedライセンスを使用する方法についてご説明しております。
AI Studio オンプレミスライセンスの利用 ver2024.0
2024.0のリリースに伴い、資料を更新いたしました。
本資料では、⾃社でライセンスサーバーを⽴て、オンプレミスサーバーでアルテアライセンスを適用する⽅法についてご説明しております。
Altair AI Studio 2024.0 リリース
Altair AI Studio 2024.0がリリースされました。 RapidMiner StudioからAltair AI Studioへリブランドされ、複数バージョンインストールが可能になりました。Interactive Analysisでは数値ラベル対応やツリー編集、ノード分布表示など新機能が追加され、ログ機能も改善されました。より使いやすく、強力なAI分析プラットフォームとなっています。
Altairログ解析
Altairライセンスサーバーのログを取得・解析する方法を解説した資料です。 本資料では、Managedライセンスとオンプレミスの場合に分けて、ログの取得方法を解説します。さらに、ログ解析用Parserツールの使い方や、解析結果の見方を詳しく解説しております。使用日時、Feature名、ユニット数、ユーザー名など、様々な情報からライセンス使用状況を把握し、管理の効率化やコスト削減に役立てていただけますと幸いです。
SFTPサーバーとの接続
RapidMinerとSFTPサーバーとの接続についてご説明します。RapidMiner Studio、AI HubからSFTPサーバーへの読み込み、書き込みができるようになることをゴールとした資料になります。ぜひご参考にしてください。
SFTP(SSH・ファイル・トランスファ・プロトコル)サーバー:インターネット上で安全にファイルを送受信する仕組み。SSHによる暗号化・認証化を行い、安全にファイル間で送受信することが可能になる。
SMBサーバーとの接続
RapidMinerとSMBサーバーとの接続方法についてご説明します。RapidMiner Studio、AI HubからSMBサーバーへの読み込み、書き込みができるようになることを本資料のゴールとしています。ぜひご参考にしてください。
SMBサーバー:ネットワーク上でファイルの共有などを行うための通信プロトコル
Deleyオペレーターを使用した一定間隔処理
RapidMiner Studioで作成したプロセスを一定間隔遅らせて実行する処理をご紹介します。例えば、あるデータ加工の処理が1時間後には終了する予定なので、そのデータが生成されてから実行したいといった場合に利用できます。
Operator Toolbox Extension(無償拡張機能)を使用しており、サンプルデータとプロセスは下記よりダウンロード頂けます。ぜひご参考にしてください。
▼サンプルデータとプロセス
https://ksk-anl.smktg.jp/public/file/document/download/3566
>>Extensionのインストール方法
オンプレミスサーバーの利用 ver.10.2
⾃社でライセンスサーバーを⽴てる方法、オンプレミスサーバーでアルテアライセンスを適用する⽅法についてご説明します。
RapidMiner Studio ver10.2になり、GUI画面が追加されてアルテアライセンスの使用が楽になりました。環境変数を入力する必要もありません。
既にver10.1でアルテアライセンスを利用されている場合は、起動時にライセンスを選択する画面は表示されず、そのままver10.1時に使用していたアルテアライセンスでRapidMinerを使用できます。
拡張機能の紹介 ーGenerative AI Extensionー
“Generative AI Extension”は、テキストと画像を生成するために OpenAI の API へアクセスするための2つのオペレーターを提供します。Generative AI Extensionで利用するOpenAIは、テキストを理解し生成することに優れた最先端の言語モデルを提供しています。具体的には、コンテンツ生成、要約、分類、感情分析、データ抽出、翻訳などのタスクをこなすことができます。
本資料では、Generative AI Extensionの実行準備と実行方法をご説明しておりますのでぜひご参考ください。
RapidMiner Studio ver.10.2の変更点
RapidMiner Studio ver.10.2ではさまざまな新機能が追加されました。多くの変更点がありますが、その中でも特に大きな変更点をピックアップしております。ぜひご参考にして頂ければと思います。
Managedライセンスの利用 ver.10.2
RapidMiner Studio ver.10.2にアルテアのManagedライセンスを適用する方法についてご説明します。
RapidMiner Studio ver10.2になり、GUI画面が追加されてアルテアライセンスの使用が楽になりました。環境変数を入力する必要もありません。
既にver10.1でアルテアライセンスを利用されている場合は、起動時にライセンスを選択する画面は表示されず、そのままver10.1時に使用していたアルテアライセンスでRapidMinerを使用できます。
Managedライセンスの利用 ver.10.1
RapidMiner Studio ver.10.1にアルテアのManagedライセンスを適用する方法についてご説明します。Managedライセンスが主流となっておりますが、ライセンスサーバーがオンプレミスの場合は、別資料(オンプレミスサーバーの利用)をご覧ください。
Ver10.1より、RapidMinerはアルテアライセンスで動作するようになりました。Managedライセンスは、インターネット経由で動作し、日本国内であれば場所を問わずライセンスの利用が可能です。
本資料では、管理者側(ライセンス契約の代表者様)とユーザー側の操作・設定についてご確認いただけます。
オンプレミスサーバーの利用 ver.10.1
⾃社でライセンスサーバーを⽴てる方法、オンプレミスサーバーでアルテアライセンスを適用する⽅法についてご説明します。
Ver10.1より、RapidMinerはアルテアライセンスで動作するようになりました。 RapidMiner Studioでは、基本的に20 Unitsを使用します。
本資料では、ライセンスの申請からサーバーの立て方、OS別の設定方法などをご確認いただけます。
検証方法のご紹介
RapidMinerでモデルを検証する際の方法をご紹介します。検証方法にはさまざまな種類があり、手元にあるデータのサンプル数や、時系列データに対して時間軸を考慮した検証を行いたいかなど状況によって使い分ける必要があります。
RapidMinerで実行する時のオペレータ、設定方法をご説明しておりますので、ぜひご参考ください。
Leave one out 交差検証/k-fold 交差検証/group k-fold 交差検証/Sliding Window Validation
RapidMinerの始め方
RapidMiner Studioのインストール方法をお伝えします。簡単な手順と注意事項などを記載しておりますので、インストールで迷った時はぜひご参考ください。 <内容> ・RapidMiner Studioのインストール方法、アカウント作成/ログイン ・Manual Enter ライセンスキーの確認方法 ・RapidMiner Studio 旧バージョンのインストール方法 ・RapidMineの⽇本語化 ・Extension(拡張機能)のインストール方法
Snowflakeとの接続
SnowflakeとRapidMinerとの接続についてご説明します。Snowflakeは、企業のデータ活用プロセスをシンプルにするクラウドデータプラットフォームで、多くの企業に活用されています。
本資料では、RapidMiner Studio、AI HubからSnowflakeへの読み込み/書き込み/更新 をするための方法を記載しております。使用するRapidMinerのバージョンによって少し手順が異なるため、Ver10以降とVer9.x以前のバージョンの順でご説明します。Snowflakeからデータを取得し、価値ある知見を得られる一助となれば幸いです。
SQL Serverとの接続
SQL ServerとRapidMinerとの接続についてご説明します。
RapidMiner Studio、AI HubからSQL Serverへの 読み込み/書き込み/更新 をするための方法を記載しております。接続方法については、他のデータベースでも基本的な流れは同様です。ぜひご活用ください。
データサイエンティストの離職率が高い理由
今、データサイエンティストに対する需要は供給を大きく上回っており、彼らの中には、現在の組織に不満があれば去っていく人もいます。本資料では、データサイエンティストが辞める原因について探っていきます。どのように改善していけば良いか、その手助けとなる内容も掲載しております。ぜひご覧ください。
RapidMinerからメッセージ送信
RapidMiner からMicrosoft Teams / Text Messages(SMS)へメッセージを送信する方法をご紹介します。
最近 “Communicationエクステンション”が追加されました。この拡張機能を使用することで、 AIによる重要な決定をより迅速に発信し、組織内の人へ効果的に届けることができます。ぜひご活用ください。
RapidMinerの基本操作
RapidMinerを初めて操作するという方向けの資料です。
ご自身で分析を進められるように、基本的な使い方の解説やTipsを掲載しています。ぜひ、RapidMinerを立ち上げて、資料をご覧いただきながら実際に操作してみてください。
ExcelでRapidMinerの予測結果を取得
RapidMinerを起動せずに予測(推論)結果をExcelで取得する方法をご紹介しています。いくつかの条件(説明変数)を変更することで、予測値がどのように変わるのかシミュレーションすることも可能です。
SaaS Platform Security
RapidMinerのインフラが最高水準のエンタープライズセキュリティの維持にどのように役立っているかを詳しく見ていきます。マルチテナントセキュリティ、ユーザーレベルセキュリティ、インフラストラクチャセキュリティ、そして顧客のデータ管理に対するRapidMinerのポリシーにより、お客様がガバナンスとコンプライアンスに気を取られる時間を減らし、データからアクション可能な知見を得る時間を増やす方法を探っていきます。
組織全体で活用するための分析プラットフォーム
RapidMiner導入のポイント
本資料では、データサイエンスプロジェクトにおける課題を詳しく見て、スキルアップに焦点を当てた戦略と適切なプラットフォームの組み合わせにより、より迅速かつ持続可能な成果を得る方法をご説明します。データサイエンス プラットフォームの選定にあたり、必要な機能のチェックリストなども提供しておりますので、ぜひご参考にしてください。
アナログゲージのデジタル化
アナログゲージの情報をデジタル化する手順をご紹介します。デジタル形式で取り込むことができれば、過去の測定値および別の場所にあるゲージの測定値を必要なとき、必要な場所で表示できるようになります。また、気温や振動、その他の測定用センサーなど関連する情報を集約しアクセス可能な状態になれば、履歴データを組み合わせて予知保全のような機械学習タスクにも使用できます。
使用データとプロセスは資料に記載したリンクからダウンロードいただけます。(画像処理のエクステンション “Image Handling”を使用)ぜひご活用ください。
RapidMinerエコシステム
RapidMinerのアーキテクチャを2ページにまとめております。構造の理解にお役立てください。
RapidMinerは、異なるデータソースをセキュアに統合し、AI技術を使用するプロセスを簡素化して豊かなインサイトを生み出します。RapidMinerのオープンソースカーネルと柔軟なフレームワークは、アプリケーション、データソース、システム、コーディング言語、機械学習ライブラリ、クラウ ド技術に対して幅広いサポートを提供しています。
2022年以降に注目すべき5つのAIトレンド
RapidMiner創業者兼CTOのIngo氏が、現在のAIと機械学習トレンドTOP5を予想した記事です。データサイエンスの分野では、より論理的で説明可能なものへ大きく進んできました。2022年以降に注目すべきAIトレンドとして、データサイエンスの自動化、DSMLマーケットの二分化、ローコードの許容、環境AIの登場、コンピュータービジョンを挙げています。また、それらが今後数年間のデータサイエンスにどう影響を与えるかを予想し説明しています。
RapidMinerでメールの送信
RapidMinerでメールを送信する方法をご紹介します。RapidMiner StudioとAI Hubの両方での実行方法をご説明します。活用例も掲載しておりますので、ぜひご参考ください。
RapidMiner CheatSheet 時系列データ編
RapidMiner Studioには数多くのオペレーターが収録されており、非常に多機能となっております。今回は時系列データに使われるオペレーターに絞って、CheatSheetにまとめました。プロセス例もご紹介しておりますので、是非こちらをご覧になりながらRapidMinerで実装してみてください。
資料内で使用しているデータ、プロセスを下記からダウンロード頂けますので、お手元のRapidMinerで再現頂けます。
▼https://ksk-anl.smktg.jp/public/file/document/download/3104
※Merge Attributesオペレータは、無償拡張機能「Operetor Toolbox」をインストールいただくとご使用いただけます。Operetor ToolboxはText Processingと依存関係があるため、「Text Processing」の拡張機能もインストールする必要があります。
(Operator Toolboxが利用できない時の対処法はこちら)
機械学習におけるバイアスについて考えてみよう
「バイアス」という言葉が、データサイエンスや機械学習の分野においてどのよう使われているのか。バイアスの種類ごとに例をあげて見ていきます。機械学習モデルに偏りがあると分かった場合に、原因を探るための方法などについてもご紹介しております。
テキストを用いた口コミのレーティング予測
テキストマイニングについて、Amazonレビューを使ったレーティング(★の数)予測を例にご紹介します。分析プロセスの設計やテキスト分析の代表的なオペレータなどをご説明しておりますので、ぜひ参考にしてみてください。
テキストマイニングを行うための拡張機能は、マーケットプレイスまたは下記WEBページからダウンロードいただけます。
https://marketplace.rapidminer.com/UpdateServer/faces/product_details.xhtml?productId=rmx_text
代表的な拡張機能の紹介 ーIn-Database Processingー
データベース上の処理を視覚的に行うことができる拡張機能 ”In-Database Processing Extension”をご紹介します。SQLで書く必要がなく、データ準備や前処理がより効率的に実行できます。パラメータの解説や使用方法も掲載しておりますので、ぜひご活用ください。
RapidMinerでRの実行
RapidMiner StudioとRapidMiner AI Hubで、Rを実行する方法についてご紹介します。Rは、主に統計解析やグラフィックに使用される オープンソースな言語・環境で、多様な統計手法を使用することができます。連携させることで、より高度な分析が可能になります。
代表的な拡張機能の紹介 ーDeep Learningー
”Deep Learning Extension”をご紹介します。この拡張機能は、CPUおよびGPUで実行するためのディープラーニング機能を提供しています。レイヤーの内容の編集や、CNNやRNNなども行うことができますので、ぜひお試しください。
【シリーズ連載】データを一から分析してみよう(Part2)
Kaggleで公開されているデータを使った、データ分析プロセスの連載記事です。Part2ではデータを確認しながら欠損値や外れ値の処理を行ってモデルを作成し、Kaggle のコンペティションに実際に参加するまでをご紹介します。機械学習やデータ分析初心者の方も、是非ご一緒にデータ分析を進めていただければと思います。(Part1の記事はこちら▼)
資料内のプロセスは下記からダウンロード可能です。お手元のRapidMinerで再現頂けます。
https://ksk-anl.smktg.jp/public/file/document/download/3171
拡張機能の紹介 ーOPC-UA Connector Extensionー
新しくリリースされたOPC-UA接続のための拡張機能とその実践例をご紹介します。”OPC-UA Connector Extension”は、IoT 機器から生成された過去のデータを分析するために、RapidMinerへ読み込むための機能を提供しています。接続することによって現場レベルのデータに関する深い洞察を得ることができます。ぜひ試してみてください。
なぜ Tableau が RapidMiner ユーザーにおすすめなのか
Tableau と RapidMiner の統合は、RapidMiner ユーザーにとってどのような影響があるのかについてご紹介します。RapidMinerで行った作業をTableauで表現し、自身の仕事のビジネスインパクトを向上させる具体的な方法に加え、なぜデータ(サイエンス)の可視化が重要なのかも見ていきます。
マーケットバスケット分析
マーケットバスケット分析は、顧客の購買データを分析し、同時購入される商品を見つ出す手法のことです。有名な事例に「おむつとビール」があり、売上アップやマーケティング施策に活かされています。
本資料では、「マーケットバスケット分析」について、取引データサンプルを用いてハンズオン形式でご説明します。資料内で使用しているプロセスを下記からダウンロード頂けますので、お手元のRapidMinerで再現頂けます。
▼https://ksk-anl.smktg.jp/public/file/document/download/3137
【初心者向け】RapidMinerで始める簡単データ分析
RapidMiner をダウンロードしてみたもののどのように使えばよいか分からないという方に向けた、使い方の入門講座です。RapidMiner Studio の基本機能と特徴について、チュートリアルを通して学んでいただき、RapidMiner の操作に慣れていただけたらと思います。ぜひ、資料記載のリンクからサンプルデータをダウンロードいただき、実際に操作してみてください。
※本資料は、RapidMiner Studio Version9.10を使用しています。
RapidMiner9.10リリース
2021年8月に、RapidMinerの9.10がリリースされました。実際にお客様からご要望があったものが実装されております。主な変更点についてご紹介しておりますので、ぜひご参考にして頂ければと思います。
代表的な拡張機能の紹介 ーSensor LinkでPI Systemと連携ー
製造業で広く導入されているPI SystemとRapidMinerとの連携を簡単に素早く行うことができる拡張機能 “Sensor Link Extension” をご紹介します。さまざまなオペレータが収録されておりますので、PI Systemをお使いの製造業の方はぜひお試しください。
PI System:操業パフォーマンス管理に必要な情報(生産実績、品質情報、設備稼働率など)をリアルタイムに共有するシステム
RapidMiner 利用者評価
データサイエンスのプラットフォームを選択する際に確認すべきことの1つである、RapidMiner利用者の口コミ情報をご紹介します。調査会社 Gartner社による調査結果と国内ユーザーからのRapidMinerに対する評価を整理しております。
利益重視の機械学習モデル評価方法〜化学メーカーを事例に〜
機械学習モデルの有効性を評価するプロセスを、化学メーカーの事例を用いてご紹介します。データサイエンスの問題をコスト(円)に置き換え、状況を理解することで、最も良いビジネス上の意思決定を行うことができます。
【初心者向け】モデル評価指標 ー回帰編ー
機械学習モデルを評価する上で、目的に合わせた評価指標の選択する必要があります。
回帰モデルを評価する際に用いるPerformanceオペレータと代表的な評価指標をご紹介します。RapidMiner 初心者の方はぜひご覧ください。
代表的な拡張機能の紹介 ーOperator Toolboxー
マーケットプレイスでよくダウンロードされている拡張機能”Operator Toolbox”をご紹介します。
各オペレータにはチュートリアルが収録されており、使い方をお試しいただけます。目的に合わせて、ぜひご活用ください。
マーケットプレイスと拡張機能の利用方法はこちら▶︎
クラスター分析:知っておきたいこと
クラスタリングは、教師なし学習の一種で共通の特徴を発見しグループ分けする手法です。ビジネスで幅広く用いられており、その代表的な使用例をご紹介します。また、RapidMiner Go を用いた基本的なクラスター分析を ワインのデータセットを使って実行しております。
チタン合金画像の分類問題
近年、画像やテキストといった非構造データ使った分析も注目を集めており、RapidMinerで非構造データを扱いたいというご要望が増えてきています。
本資料では、チタン合金画像を使用し結晶状態の分類を実装いたします。ニューラルネットワークのレイヤの設定方法もご紹介しております。ぜひご覧ください。
DX戦略を加速させるキーポイント
データサイエンスは、競争力を高めるための最も重要な要素として急速に普及しています。調査結果からも今すぐデータサイエンスを活用した DX 戦略を着手する必要性が示唆されています。
競争力向上と投資の鍵は何か、企業の内部と外部の両方にプラスの影響を与える 包括的なデータサイエンスプラットフォームの必要性などについてご紹介します。DX推進の方やマネージャーの方にぜひご覧いただきたい内容になっています。
【初心者向け】モデル評価指標 ークラス分類編ー
機械学習モデルの作成においてモデルの評価は重要です。
・Performance指標がたくさんあり迷ってしまう。
・Performanceオペレーターの種類が多くどれを使うか迷う。
といったお悩みを解決するために、評価指標をまとめました。今回は分類モデルの評価指標をご紹介します。RapidMiner 初心者の方はぜひご覧ください。
拡張機能イントロダクション ーMarketPlaceの活用ー
RapidMiner Studioの機能を最大限活用するための、マーケットプレイスと拡張機能の利用方法をご紹介します。
無料の拡張機能をインストールすることで、レコメンデーションなどより高度な分析ができます。さらに、オープンソースの統計分析ソフトRやプログラミング言語Pythonなどを呼び出して使うこともできます。(一部有償の拡張機能あり)
拡張機能を利用することで、目的に合ったRapidMinerにカスタマイズしさらにご活用いただけます。
RapidMiner vs KNIME
ビジュアルワークフロー型のデータ分析プラットフォーム RapidMinerとKNIME(ナイム)について、提供しているサービスに焦点を当て比較しております。RapidMiner製品・サービスの特徴もまとめてご紹介しておりますので、ぜひご覧ください。
プラットフォーム セキュリティ
データを最大限に活用するために、組織でデータを扱う安全なプロセスを確立する必要があります。本資料では、RapidMinerプラットフォームのセキュリティについてご紹介します。セキュリティインフラにより、コンプライアンスを気にする時間を減らし、データから実用的な知見を得る時間を増やすことができます。 組織でデータ分析を行い活用をされる方はぜひご覧ください。
自動化特徴量エンジニアリングの RapidMinerプロセスでの実装
機械学習モデルの出来はビジネスに大きな影響を与えており、モデルの改善策の一つとして「特徴量エンジニアリング」があります。しかし、データサイエンスや業務知識が必要とされ活用が難しいとされています。
本資料では、特徴量エンジニアリングを簡単に取り入れることができる”AutomaticFeatureEngineering”の使い方をご紹介いたします。ぜひご覧ください。
(”AutomaticFeatureEngineering”は有償オペレータとなっております。)
Python Transformerを利用したカーネル密度分布の作成
散布図はデータ間の関係性を視覚的に把握する際に役立ちますが、プロットされる点の数が多くなるほど把握しづらいという問題点があります。カーネル密度推定の手法を使うことで、データ全体の傾向をより読み取りやすくなります。
本資料では、Python Extensionを用いて、カーネル密度推定による可視化機能を実装いたします。下記からプロセスをダウンロード頂けますので、お手元のRapidMinerで再現頂けます。
https://ksk-anl.smktg.jp/public/file/document/download/1586
RapidMiner製品評価Q&Aシート
RapidMinerの製品仕様や機能面などの基本的な部分についての139個の質問に対する回答集です。データの読み込みや前処理において、どのような手法が利用できるか、このアルゴリズムはサポートされているか、など、ツールの導入検討をされる際に、気になる項目は多々あるかと思いますので、まずはこちらの資料をご一読いただき、記載されていない、あるいは読んでもなおご不明な点につきましては、弊社にご連絡いただけますと幸いです。
資料ダウンロードにつきましては、下記URLよりダウンロードお願い致します。
https://ksk-anl.smktg.jp/cc/0x1QT1W7
食品・飲料業界におけるデータ分析の使用例トップ6
RapidMinerはドイツで始まっており、ドイツ政府などの公的な組織からの助成金プロジェクトとの関わりも深く、ドイツの名物であるビールとの関係性も非常に深くなっています。ビール醸造におけるデータ分析は同じ食品・飲料業界の方々は勿論、製造業の方々にとっても近しい話題が多くなっています。
本資料では、RapidMiner社がこれまでビール醸造会社とデータ分析を取り組んできた経験の中でもビジネスインパクトの高かった6つの事例をご紹介致します。こちらで紹介している事例と同じ課題・お悩みを抱えていらっしゃる方は、是非一度弊社へお問い合わせください。
RapidMinerとPython連携
RapidMinerのようなGUIの機械学習ツールは、PythonやRといったコーディングでの機械学習と対比されることが多いのですが、RapidMinerではPythonとの連携を積極的に推し進めています。何故なら、RapidMinerとPythonはそれぞれに一長一短があり、関係はライバルではなく、パートナーのようなものだからです。RapidMinerだけでは足りない部分をPythonが埋めてくれ、Pythonでは手の届かない部分をRapidMinerがカバーしています。
Ver9.9へのアップデートでRapidMinerとPythonの連携はさらに強固になりました。新しいExcute Pythonオペレーターと、Customオペレーターを使うことで、PythonユーザーとRapidMinerユーザーは同一環境でデータ分析を行うことが容易になります。
本資料では二つのオペレーターの使い方を細かく実例付きでご紹介いたしますので、RapidMinerユーザーだけでなく、Pythonユーザーの方も是非ご覧ください。
製造業におけるAlと機械学習技術のインパクト
RapidMinerの共同創設者兼研究責任者であるRalf Klinkenberg氏に製造業での機械学習やAIの注目点や導入の課題、将来像を話していただいたインタビュー記事を日本語訳・追記しました。
製造業における機械学習やAIのトレンド、昨今の新型コロナによるパンデミックの影響など2021年現在の状況も踏まえてお話しいただいておりますので、まさに現在、機械学習やAIに携わろうとしている製造業の方にご覧頂きたい内容となっております。
【シリーズ連載】データを一から分析してみよう(Part1)
これから機械学習やデータ分析を始めよう、という方々も多いかと思いますが、勉強はされていても実際に分析を始めてみると、なかなか思うようにいかないこともあるかと思います。特に自社や自部署の中で、先にされている方がおらず、ご自身が先駆けとならなければいけないような状況だと、何から始めればいいかもわからないことすらあるかもしれません。
本シリーズではKaggleで公開されているデータを使って、最初から最後までデータ分析をしていく過程を連載していきます。作業の中で起きるエラーやトラブル、そしてそれにどう対処したのかもご紹介していきたいと思いますので、これからデータ分析の扉を叩く方は、是非ご一緒に分析を進めて頂ければと思います。
資料内で使用しているファイルと一部プロセスを下記からダウンロード頂けますので、お手元のRapidMinerで再現頂けます。
https://ksk-anl.smktg.jp/public/file/document/download/3170
【マネージャー向け】組織の為のデータ分析アップスキル
データ分析、機械学習において「アップスキル」という言葉やそれに近い言葉をお聞きになったことがある方は多いのではないでしょうか。しかし、このアップスキルに難航して、組織の中でのデータ分析や機械学習の活用に苦労されたり、挫折されたりされる例が珍しくありません。逆に言えば、組織でのアップスキルに成功されている企業の多くはデータ分析の導入においても成功を収めていると言えます。
また、アップスキルが誤解されていることも時折、見受けられます。アップスキルとは一時的なものではありませんし、特定の誰かだけがしなければいけないものではなく、関わる全ての人が持続的に行っていくものです。
本資料では、改めて正しいアップスキルについてご紹介し、組織においてなぜ重要なのかご説明しますので、データ分析や機械学習を組織の中に根付かせたいDX推進の方やマネージャーの方は、是非ご理解いただきたい内容となっております。
RapidMiner9.9リリース
先般、RapidMinerの9.9がリリースされました。それに合わせてStudioやAI-Hubに関する変更点についてRapidMiner社のリリースノートを日本語訳致しました。RapidMinerのバージョンアップについて、ご不明なことがございましたら、こちらをご参考にして頂ければと思います。
RapidMinerとGrafanaの連携
RapidMiner AI-HubにはGrafanaが付属しており、RapidMinerと連携させることで、インタラクティブで動的なダッシュボードを簡単に作成することが出来ます。ダッシュボードによって、可視化が出来るだけでなく、リアルタイムモニタリング等にも活用でき、予測分析の効果や質の低下を防いだり、より効果を向上させたりといった活用が可能です。
本資料では、RapidMiner AI-HubとGrafanaの連携方法や、ダッシュボードの作成方法をご紹介しますので、既にAI-Hubを導入されている方や導入を検討している方は是非、ご覧ください。
RapidMiner CheatSheet モデル作成・検証編
RapidMiner Studioには2021年3月段階で1500を超えるオペレーターが収録されており、非常に多機能となっております。今回はモデル作成と検証で良く使われるオペレーターに絞って、CheatSheetにまとめましたので、是非こちらをより良いモデルの作成や確かな精度検証にお役立てください!
RapidMiner CheatSheet 前処理編
RapidMiner Studioには2021年3月段階で1500を超えるオペレーターが収録されており、非常に多機能となっております。今回はデータ前処理で良く使われるオペレーターに絞って、CheatSheetにまとめましたので、是非こちらをご覧になりながら、RapidMinerで前処理を実装してみてください!
RapidMiner Radoopでビックデータ分析
ビックデータを使った分析を行おうとした時に、課題として挙がってきやすいこととして、コンピュータ性能の拡張や複数のコンピュータでの分散処理などがあります。金銭的にせよ時間的にせよ、どれもコストが掛かってしまいやすく、乗り越えられないままビッグデータ分析が暗礁に乗り上げてしまうこともあります。
RapidMiner Radoopなら、Apache Hadoop とSpark とHiveを使って、コード無しの分散型機械学習を簡単に実装出来ます。本記事ではそんなRapidMiner Radoopの概要についてご紹介しますので、ビッグデータ分析に興味がお有りの方は一度、ご覧ください。
【機械学習初心者向け】10の機械学習アルゴリズム
機械学習と言うと、アルゴリズムのことを連想される方は多いのではないでしょうか。一方、機械学習アルゴリズムは様々な種類が用意されていて、初心者の方にとってはアルゴリズムそれぞれの違いや特徴について知ることも大変で、時間が掛かったり、時には挫折してしまったりすることもあります。
本記事では、そんな初心者の方が知っておくべき、機械学習アルゴリズムについて10個に絞ってご紹介いたします。機械学習をこれから始めたい、考えていきたい方はまずこちらを見て頂くことをオススメ致します。
機械学習モデルの説明性
Explainable AIという言葉が使われるようになってきましたように、ただ予測結果を手に入れるのではなく、その予測内容の理由やどの説明変数が精度に影響を与えているのかまで知ることが求められるようになっています。予測内容が理解できなければ、改善の方法も考えられませんので、当然のことと言えます。
しかし、一般に機械学習モデルの予測精度と説明可能性はトレードオフの関係になることが多く、説明可能性を高めようとすると、予測精度が落ちてしまうことが多々あり、どちらを取るべきか悩まれた方もいるかもしれません。
RapidMinerでは、その双方を得るべく新しい拡張機能(Extension)をリリースしました。本資料では説明可能性の低いモデルでも、解釈がしやすくなる”Interpretation”の使い方をご紹介します。資料内で使用しているデータ、プロセス、エクステンションのファイルを下記からダウンロード頂けますので、お手元のRapidMinerで再現頂けます。
【機械学習初心者向け】教師あり学習VS教師なし学習
機械学習をこれから始めようという方にとっては、分析課題に対してどのようにアプローチしていくべきなのかすら、なかなか分からないこともあるのではないかと思います。
機械学習自体の初心者向けシリーズとして、今回は教師あり学習と教師なし学習の違いの紹介から、問題解決へのアプローチを考えていきます。
今後も機械学習初心者向けのコンテンツを順次公開致しますので、RapidMinerを使って機械学習に初挑戦する方は是非ご覧ください。
Deployment機能紹介
RapidMinerで良いモデルが出来上がりましたら、次はモデル運用を始めて、効果を上げていきたいところですが、一口に運用といっても簡単ではありません。より精度の高まるよう新たな処理やアルゴリズムを試したり、モデルが学習時と同じ精度を出せているか随時確認したりと、運用時の苦労は、作成の時とそう変わらないものがあるかもしれません。
しかし、RapidMiner Studio Enterpriseにはそんな運用を楽に実行できるDeployment機能があります。RapidMiner Studioだけで使うことが出来るのでローカル環境でも運用管理が可能です。モデルの状態や推移をグラフで簡単に確認出来る他、しきい値を超えた時にアラートを出すことも可能です。
本資料ではRapidMiner Studio EnterpriseでのDeployment機能の使い方を紹介します。
AutoModelのオートクリーニングを再現
有償版機能のAutoModelとTurboPrepには自動で特徴量の内容を集計し、IDと思われるものや相関が高すぎるものといった、分析に悪影響を及ぼす可能性がある特徴量を見つけてくれる”Quality Measures”機能があります。非常に便利な機能ですので、有効に活用されている方も多いと思います。
今回はそんな”Quality Measures”機能をAutoModelやTurboPrep無しに、通常のプロセスに組み込む方法をご紹介します。AutoModelなどで使う時と違い、より自分好みに制御出来ますので、もっと使いこなしたい方は是非お試しください。
機械学習モデル構築時の Python とRapidMiner の⽐較
機械学習の目的は人間の手を介さずにコンピュータがデータから自動的にパターンを学習させることです。機械学習の構築方法は大まかに分けて、PythonやRといったプログラミング言語での構築と、GUI(グラフィカル ユーザー インターフェース)ツールでの構築との二つがあります。
本資料では実際にPythonとRapidMiner、それぞれで同じデータセットから機械学習モデルを作成してみることで、それぞれの違いについてご紹介します。これから機械学習を進めていこう、という時に、どちらを選ぶべきか考える際の参考として頂ければ幸いです。
RapidMiner 20 Tips
RapidMinerには作業を楽にする様々な機能がありますが、その多くはあまり知られていません。ここでは、便利なRapidMinerのTipsを20個紹介します。
今までドラッグ&ドロップしていたものが、クリック一つで済んだり、同じ作業を繰り返していたものがあっという間に終わったり、そんな裏技みたいな機能ばかりですので、是非ご活用ください。
PythonとRapidMinerのjupyternotebook統合
機械学習はこれまでPythonやRといったプログラミング言語を利用することが主流となっており、GUIツールを使うことはそれに対抗するイメージで考えられていました。しかし、機械学習を業務に適用し、企業として活用するためには、それぞれどちらかだけでなくハイブリッドに利用していくことが有効な手段となります。
RapidMinerは、PythonやRを機械学習を共に進めていくツールと考え、これらによって作成されたモデルやスクリプトとの連携を強化しています。そのため、PythonやRでの機械学習に精通したデータサイエンティストと、ドメイン知識が豊富なエンジニアがRapidMinerを通じて連携してプロジェクトに参加することが可能になっています。
本資料では、RapidMinerとPython、Rの統合の概要について、紹介しております。
目的変数最適化へのアプローチ
予測モデルの作成は、次に何が起きようとしているのかを予測するのに役立ちます。適切な方法を用いれば、なぜそれが起きるのか原因を理解することもできる場合があります。
しかし、何が起こるのか、なぜ起こるのかだけでは、意思決定を行うには十分とは言えません。意思決定を行うためには、結果を変更するためにどのパラメーターをどれくらいにすれば所望の値に近づけるのかを知る必要があります。それを実現できるのがRapidMinerの最適化オペレーター(Prescriptive Optimizer)です。
本資料では、目的変数と制御可能な変数、制約がある変数を組み込んだモデルを作成し、最適化を実行します。資料内で使用しているデータと作成したプロセスのサンプルは下記URLよりダウンロード出来ます。
https://ksk-anl.smktg.jp/cc/0x1QT1Av
動画
現場を巻き込むものづくりデータサイエンスの進め方
データ分析は日本企業にも浸透し始めておりますが、一方で組織内での推進に課題やお悩みを抱えている企業も少なくありません。データ分析の効果的な活用には、組織体制自体を従来の形から見直す必要があります。
当社では、データ分析推進に適した組織として、CoE(Center of Excellence)モデルを推奨しております。データ分析担当部署や担当者だけでなく、現場も関わる形のデータ分析推進を行うことで、活用の拡大、効果の向上を図ることが出来ます。本動画及び資料ではCoEモデルの説明と進め方、そしてCoE推進に役立つデータ分析の総合プラットフォーム「RapidMiner」をご紹介します。
社内でのデータ分析の活用・推進にお困りの方は是非一度ご覧ください。
RapidMiner連携ソリューション
RapidMinerは分析業務を行う人にとってはノンプログラミングで使える非常に便利なツールです。画面もわかりやすいので様々な方にご評価いただき、導入が進んでおります。しかし、分析業務ではなく、現場業務を行う現場担当者にとってはそれでも画面が複雑、という意見も頂いておりました。
そこで現場運用のためのUI画面の開発をご提案いたします。現場の方がRapidMinerを意識することなく、分析担当者の方が作られた分析プロセスを実行することができるようにすることで、社内での機械学習、RapidMinerの推進・活用の足並みを揃え、効果を向上させることが可能です。
本資料では、画面イメージやシステム構成イメージをご紹介させて頂きます。
RapidMiner × デバイスゲートウェイ
RapidMinerで作成したモデルを製造現場で活用していくためには、PLCやDCS、その他計測装置など様々な現場機器にアクセスしデータを収集することが必要となります。
「デバイスゲートウェイ」はPLCなどの生産現場の稼働情報を取
本資料では、RapidMiner Serverとデバイスゲートウェイの連携事例をご紹介させて頂きます。
【各業界向け】RapidMinerユースケース集
全世界でご愛用いただいておりますRapidMinerが、どのような事案でどのような効果を生んでいるのか、今回は製造業以外の金融業界や医療業界、小売業など広範な業界の事例をご紹介いたします。
各業界ごとにまとまっておりますので、ご自身の業界をご覧いただくのは勿論のこと、他業界の事例もご覧いただきますと、ご活用のバリエーションが広がります。
それぞれの課題や方法、効果、問題の概要を端的にまとめておりますので、ご興味のある内容を一目で確認頂けます。
【製造業向け】RapidMinerユースケース集
全世界でご愛用いただいておりますRapidMinerが、どのような事案でどのような効果を生んでいるのか、
今回は製造業における実際の事例を使ってご紹介いたします。
それぞれの課題や方法、効果、問題の概要を端的にまとめておりますので、
ご興味のある内容を一目で確認頂けます。
動画
RapidMiner Goイントロダクション
新製品RapidMiner Goはダウンロード不要の100%Webブラウザで使用できるAutoMLツールです。
数分でモデルが作成でき、内容の可読性も高いため、機械学習の知識に明るくない方でも機械学習の結果をビジネスに生かすことが出来ます。ドメイン知識に詳しい方々自身の手でビジネスインパクトの大きい問題、そしてその効果を確認出来ますので、より大きなビジネスインパクトにつながります。RapidMiner Goは皆さまとデータサイエンティストを橋渡しして繋いでくれます。
今回はそんなRapidMiner Goのイントロダクションを動画にてご紹介いたします。製品情報ページからも詳細ご覧いただけますので、是非ご確認ください。
AutoModel実行のためのガイド
RapidMinerを使い始めたばかりの方でも、使い慣れた方でも、Auto Modelを使うことで機械学習の活用を一気に加速させることができます。Auto ModelはRapidMiner Studioの拡張機能で、モデルの構築と検証のプロセスを備わっています。何より優れているのは、AutoModelで作成した予測モデルを自分自身で修正することができる点です。運用(deployment)も容易にできます。
Auto Modelは、教師あり学習、教師なし学習、外れ値検出の3つの大きな問題に対応しております。
このガイドでは、RapidMinerのAutoModelについて説明を行なっております。チュートリアル形式でご自身で手を動かして頂きながらAutoModelを試して頂くことが可能です。
Matthew North チュートリアル
「Data Mining for the Masses, Third Edition」の著者であるMatthew North氏 に許可を得て、同書籍の翻訳と編集と公開を実施しております。
シリーズの中では豊富な事例が出てきますので、機械学習の活用シーンをイメージ頂けます。
今回は、まず実施して頂きたい「データの前処理編」をご紹介させて頂きます。
機械学習のプロジェクト成功のためのガイド
本資料は、「RapidMiner_Humans-Guide-ML」を⽇本語訳したものです。
著者はMartin Schmitz, PhD(RapidMiner社のデータサイエンスサービスの責任者)です。
本資料では、ビジネス上の問題に対する AI・ 機械学習ソリューションの理解、取り組み⽅法、運⽤を⽀援することを⽬的として、過去10年の間に開発してきたアプローチについて説明されています。
機械学習プロジェクトに関する最初の数時間の社内ディスカッションのガイドとして活⽤できるように作成されています。
RapidMiner チュートリアル 9.0対応
RapidMinerをダウンロードした後、まず実施して頂きたいチュートリアルです。
今回ご紹介させて頂きます本チュートリアルはVersion9に対応しております。
100ページありますが、初めての方はまず一通りやって頂くことをオススメ致します。
機械学習のための特徴量最適化
特徴量選択を実施することで、機械学習モデルを大幅に改善できます。
特徴量選択について 知っておくべきことをすべて概説しています。
なぜ特徴量選択が重要なのか、そして特徴量選択がなぜ難しい問題なのかを説明します。
また、特徴量選択を行うために使用されているさまざまなアプローチについて実例をもとに詳しく解説します。