From fbd38e1b14d41bfba2043e4a8afda2916b9b57d8 Mon Sep 17 00:00:00 2001
From: yoonhyejin <0327jane@gmail.com>
Date: Mon, 10 Feb 2025 14:37:27 +0900
Subject: [PATCH 01/37] initial commit

---
 .../recipes/mlflow_to_datahub.dhub.yaml       |   9 +
 .../src/datahub/ingestion/source/mlflow.py    | 452 ++++++++++++++----
 2 files changed, 367 insertions(+), 94 deletions(-)
 create mode 100644 metadata-ingestion/examples/recipes/mlflow_to_datahub.dhub.yaml

diff --git a/metadata-ingestion/examples/recipes/mlflow_to_datahub.dhub.yaml b/metadata-ingestion/examples/recipes/mlflow_to_datahub.dhub.yaml
new file mode 100644
index 00000000000000..07e9ed5d786cd9
--- /dev/null
+++ b/metadata-ingestion/examples/recipes/mlflow_to_datahub.dhub.yaml
@@ -0,0 +1,9 @@
+source:
+  type: mlflow
+  config:
+    tracking_uri: "http://127.0.0.1:5000"
+
+sink:
+  type: datahub-rest
+  config:
+    server: "http://localhost:8080"
\ No newline at end of file
diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index 02125db83d2582..5028fefea5d500 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -1,13 +1,15 @@
 from dataclasses import dataclass
-from typing import Any, Callable, Iterable, Optional, TypeVar, Union
+from typing import Any, Callable, Iterable, Optional, TypeVar, Union, List
+import time
 
 from mlflow import MlflowClient
-from mlflow.entities import Run
+from mlflow.entities import Run, Experiment
 from mlflow.entities.model_registry import ModelVersion, RegisteredModel
 from mlflow.store.entities import PagedList
 from pydantic.fields import Field
 
 import datahub.emitter.mce_builder as builder
+from datahub.emitter.mcp_builder import ContainerKey
 from datahub.configuration.source_common import EnvConfigMixin
 from datahub.emitter.mcp import MetadataChangeProposalWrapper
 from datahub.ingestion.api.common import PipelineContext
@@ -29,39 +31,86 @@
     TagAssociationClass,
     TagPropertiesClass,
     VersionTagClass,
-    _Aspect,
+    DataProcessInstanceRunEventClass,
+    DataProcessInstancePropertiesClass,
+    ContainerPropertiesClass,
+    AuditStampClass,
+    TimeStampClass,
+    DataProcessRunStatusClass,
+    SubTypesClass,
+    DataPlatformInstanceClass,
+    BrowsePathsV2Class,
+    MetadataChangeProposalClass,
+    MLTrainingRunPropertiesClass,
+    DataProcessInstanceRunResultClass,
+    DataProcessInstanceOutputClass,
+)
+from datahub.metadata.urns import (
+    DatasetUrn,
+    DataPlatformUrn,
+    MlModelUrn,
+    MlModelGroupUrn,
+    DataProcessInstanceUrn,
+    DataPlatformInstanceUrn,
+)
+from datahub.api.entities.dataprocess.dataprocess_instance import (
+    DataProcessInstance,
+    InstanceRunResult,
 )
 
 T = TypeVar("T")
 
 
+class ContainerKeyWithId(ContainerKey):
+    id: str
+
+
+@dataclass
+class Container:
+    key: ContainerKeyWithId
+    subtype: str
+    name: Optional[str] = None
+    description: Optional[str] = None
+
+    def generate_mcp(
+        self,
+    ) -> Iterable[Union[MetadataChangeProposalClass, MetadataChangeProposalWrapper]]:
+        container_urn = self.key.as_urn()
+
+        container_subtype = SubTypesClass(typeNames=[self.subtype])
+
+        container_info = ContainerPropertiesClass(
+            name=self.name or self.key.id,
+            description=self.description,
+            customProperties={},
+        )
+
+        browse_path = BrowsePathsV2Class(path=[])
+
+        dpi = DataPlatformInstanceClass(
+            platform=self.key.platform,
+            instance=self.key.instance,
+        )
+
+        return MetadataChangeProposalWrapper.construct_many(
+            entityUrn=container_urn,
+            aspects=[container_subtype, container_info, browse_path, dpi],
+        )
+
+
 class MLflowConfig(EnvConfigMixin):
     tracking_uri: Optional[str] = Field(
         default=None,
-        description=(
-            "Tracking server URI. If not set, an MLflow default tracking_uri is used"
-            " (local `mlruns/` directory or `MLFLOW_TRACKING_URI` environment variable)"
-        ),
+        description="Tracking server URI. If not set, an MLflow default tracking_uri is used (local `mlruns/` directory or `MLFLOW_TRACKING_URI` environment variable)",
     )
     registry_uri: Optional[str] = Field(
         default=None,
-        description=(
-            "Registry server URI. If not set, an MLflow default registry_uri is used"
-            " (value of tracking_uri or `MLFLOW_REGISTRY_URI` environment variable)"
-        ),
+        description="Registry server URI. If not set, an MLflow default registry_uri is used (value of tracking_uri or `MLFLOW_REGISTRY_URI` environment variable)",
     )
     model_name_separator: str = Field(
         default="_",
         description="A string which separates model name from its version (e.g. model_1 or model-1)",
     )
-    base_external_url: Optional[str] = Field(
-        default=None,
-        description=(
-            "Base URL to use when constructing external URLs to MLflow."
-            " If not set, tracking_uri is used if it's an HTTP URL."
-            " If neither is set, external URLs are not generated."
-        ),
-    )
 
 
 @dataclass
@@ -118,12 +167,10 @@ def get_report(self) -> SourceReport:
 
     def get_workunits_internal(self) -> Iterable[MetadataWorkUnit]:
         yield from self._get_tags_workunits()
+        yield from self._get_experiment_workunits()
         yield from self._get_ml_model_workunits()
 
     def _get_tags_workunits(self) -> Iterable[MetadataWorkUnit]:
-        """
-        Create tags for each Stage in MLflow Model Registry.
-        """
         for stage_info in self.registered_model_stages_info:
             tag_urn = self._make_stage_tag_urn(stage_info.name)
             tag_properties = TagPropertiesClass(
@@ -142,71 +189,262 @@ def _make_stage_tag_urn(self, stage_name: str) -> str:
     def _make_stage_tag_name(self, stage_name: str) -> str:
         return f"{self.platform}_{stage_name.lower()}"
 
-    def _create_workunit(self, urn: str, aspect: _Aspect) -> MetadataWorkUnit:
-        """
-        Utility to create an MCP workunit.
-        """
+    def _create_workunit(self, urn: str, aspect: Any) -> MetadataWorkUnit:
         return MetadataChangeProposalWrapper(
             entityUrn=urn,
             aspect=aspect,
         ).as_workunit()
 
-    def _get_ml_model_workunits(self) -> Iterable[MetadataWorkUnit]:
-        """
-        Traverse each Registered Model in Model Registry and generate a corresponding workunit.
-        """
-        registered_models = self._get_mlflow_registered_models()
-        for registered_model in registered_models:
-            yield self._get_ml_group_workunit(registered_model)
-            model_versions = self._get_mlflow_model_versions(registered_model)
-            for model_version in model_versions:
-                run = self._get_mlflow_run(model_version)
-                yield self._get_ml_model_properties_workunit(
-                    registered_model=registered_model,
-                    model_version=model_version,
-                    run=run,
-                )
-                yield self._get_global_tags_workunit(model_version=model_version)
+    def _get_experiment_workunits(self) -> Iterable[MetadataWorkUnit]:
+        experiments = self._get_mlflow_experiments()
+        for experiment in experiments:
+            # Yield each workunit from the container workunits
+            for wu in self._get_experiment_container_workunit(experiment):
+                yield wu
 
-    def _get_mlflow_registered_models(self) -> Iterable[RegisteredModel]:
-        """
-        Get all Registered Models in MLflow Model Registry.
-        """
-        registered_models: Iterable[RegisteredModel] = (
-            self._traverse_mlflow_search_func(
-                search_func=self.client.search_registered_models,
+            runs = self._get_mlflow_runs_from_experiment(experiment)
+            if runs:
+                for run in runs:
+                    for wu in self._get_run_workunits(experiment, run):
+                        yield wu
+
+    def _get_experiment_custom_properties(self, experiment):
+        experiment_custom_props = getattr(experiment, "tags", {}) or {}
+        experiment_custom_props.pop("mlflow.note.content", None)
+        experiment_custom_props["artifacts_location"] = experiment.artifact_location
+        return experiment_custom_props
+
+    def _get_experiment_container_workunit(
+        self, experiment: Experiment
+    ) -> List[MetadataWorkUnit]:
+        experiment_container = Container(
+            key=ContainerKeyWithId(
+                platform=str(DataPlatformUrn.create_from_id("mlflow")),
+                id=experiment.name,
+            ),
+            subtype="ML Experiment",
+            name=experiment.name,
+            description=experiment.tags.get("mlflow.note.content"),
+        )  # TODO: this generates a urn as guid, should we change this to use experiment.id?
+
+        print(
+            "experiment.key.id:", experiment.key.id
+        )  # this should be same as container key as urn
+        print("experiment.key.as_urn(): ", experiment.key.as_urn())
+
+        workunits = [mcp.as_workunit() for mcp in experiment.generate_mcp()]
+        return workunits
+
+    def _get_run_custom_properties(self, run: Run):
+        custom_props = {}
+        custom_props.update(getattr(run, "tags", {}) or {})
+        return custom_props
+
+    def _get_run_metrics(self, run: Run):
+        return [
+            MLMetricClass(name=k, value=str(v)) for k, v in run.data.metrics.items()
+        ]
+
+    def _get_run_params(self, run: Run):
+        return [
+            MLHyperParamClass(name=k, value=str(v)) for k, v in run.data.params.items()
+        ]
+
+    def _convert_run_result_type(
+        self, status: str
+    ) -> DataProcessInstanceRunResultClass:
+        if status == "FINISHED":
+            return DataProcessInstanceRunResultClass(
+                type="SUCCESS", nativeResultType="mlflow"
+            )
+        elif status == "FAILED":
+            return DataProcessInstanceRunResultClass(
+                type="FAILURE", nativeResultType="mlflow"
+            )
+        else:
+            return DataProcessInstanceRunResultClass(
+                type="SKIPPED", nativeResultType="mlflow"
+            )
+
+    def _get_run_workunits(
+        self, experiment: Experiment, run: Run
+    ) -> List[MetadataWorkUnit]:
+        experiment_key = ContainerKeyWithId(
+            platform=str(DataPlatformUrn.create_from_id("mlflow")), id=experiment.name
+        )
+
+        data_process_instance = DataProcessInstance.from_container(
+            container_key=experiment_key, id=run.info.run_name
+        )  # TODO: this generates a urn as guid, should we change this to use run.info.run_id?
+        workunits = []
+
+        run_custom_props = self._get_run_custom_properties(run)
+        created_time = run.info.start_time or int(time.time() * 1000)
+        created_actor = (
+            f"urn:li:platformResource:{run.info.user_id}" if run.info.user_id else None
+        )
+
+        workunits.append(
+            MetadataChangeProposalWrapper(
+                entityUrn=str(data_process_instance.urn),
+                aspect=DataProcessInstancePropertiesClass(
+                    name=run.info.run_name or run.info.run_id,
+                    created=AuditStampClass(
+                        time=created_time,
+                        actor=created_actor,
+                    ),
+                    externalUrl=self._make_external_url_from_run(experiment, run),
+                    customProperties=run_custom_props,
+                ),
+            ).as_workunit()
+        )
+
+        # get model from run
+        model_versions = self.get_mlflow_model_versions_from_run(run.info.run_id)
+        model_version_urn = self._make_ml_model_urn(model_versions[0])
+        model_version_urn = "urn:li:dataset:(urn:li:dataPlatform:mlflow,sk-learn-random-forest-reg_1,PROD)"
+        if model_versions:
+            workunits.append(
+                MetadataChangeProposalWrapper(
+                    entityUrn=str(data_process_instance.urn),
+                    aspect=DataProcessInstanceOutputClass(outputs=[model_version_urn]),
+                ).as_workunit()
+            )
+
+        metrics = self._get_run_metrics(run)
+        hyperparams = self._get_run_params(run)
+        workunits.append(
+            MetadataChangeProposalWrapper(
+                entityUrn=str(data_process_instance.urn),
+                aspect=MLTrainingRunPropertiesClass(
+                    hyperParams=hyperparams,
+                    trainingMetrics=metrics,
+                    outputUrls=[run.info.artifact_uri],
+                    id=run.info.run_id,
+                ),
+            ).as_workunit()
+        )
+
+        result = (
+            run.info.status
+        )  # TODO: this should be SUCCESS, SKIPPED, FAILURE, UP_FOR_RETRY
+        duration_millis = run.info.end_time - run.info.start_time
+
+        if run.info.end_time:
+            workunits.append(
+                MetadataChangeProposalWrapper(
+                    entityUrn=str(data_process_instance.urn),
+                    aspect=DataProcessInstanceRunEventClass(
+                        status=DataProcessRunStatusClass.COMPLETE,
+                        timestampMillis=run.info.end_time,
+                        result=DataProcessInstanceRunResultClass(
+                            type=self._convert_run_result_type(result).type,
+                            nativeResultType="mlflow",
+                        ),
+                        durationMillis=duration_millis,
+                    ),
+                ).as_workunit()
             )
+
+        workunits.append(
+            MetadataChangeProposalWrapper(
+                entityUrn=str(data_process_instance.urn),
+                aspect=DataPlatformInstanceClass(
+                    platform=str(DataPlatformUrn.create_from_id("mlflow"))
+                ),
+            ).as_workunit()
+        )
+
+        workunits.append(
+            MetadataChangeProposalWrapper(
+                entityUrn=str(data_process_instance.urn),
+                aspect=DataProcessInstancePropertiesClass(  # Changed from RunEventClass
+                    name=run.info.run_name or run.info.run_id,
+                    created=AuditStampClass(
+                        time=created_time,
+                        actor=created_actor,
+                    ),
+                ),
+            ).as_workunit()
+        )
+
+        workunits.append(
+            MetadataChangeProposalWrapper(
+                entityUrn=str(data_process_instance.urn),
+                aspect=DataPlatformInstanceClass(
+                    platform=str(DataPlatformUrn.create_from_id("mlflow"))
+                ),
+            ).as_workunit()
+        )
+
+        workunits.append(
+            MetadataChangeProposalWrapper(
+                entityUrn=str(data_process_instance.urn),
+                aspect=SubTypesClass(typeNames=["ML Training Run"]),
+            ).as_workunit()
+        )
+
+        return workunits
+
+    def _get_mlflow_registered_models(self) -> Iterable[RegisteredModel]:
+        registered_models: Iterable[
+            RegisteredModel
+        ] = self._traverse_mlflow_search_func(
+            search_func=self.client.search_registered_models,
         )
         return registered_models
 
+    def _get_mlflow_experiments(self) -> Iterable[Experiment]:
+        experiments: Iterable[Experiment] = self._traverse_mlflow_search_func(
+            search_func=self.client.search_experiments,
+        )
+        return experiments
+
+    def _get_mlflow_runs_from_experiment(self, experiment: Experiment) -> List[Run]:
+        runs: List[Run] = self._traverse_mlflow_search_func(
+            search_func=self.client.search_runs,
+            experiment_ids=[experiment.experiment_id],
+        )
+        return runs
+
     @staticmethod
     def _traverse_mlflow_search_func(
         search_func: Callable[..., PagedList[T]],
         **kwargs: Any,
     ) -> Iterable[T]:
-        """
-        Utility to traverse an MLflow search_* functions which return PagedList.
-        """
         next_page_token = None
         while True:
             paged_list = search_func(page_token=next_page_token, **kwargs)
-            yield from paged_list.to_list()
+            yield from paged_list
             next_page_token = paged_list.token
             if not next_page_token:
                 return
 
+    def _get_latest_version(self, registered_model: RegisteredModel) -> Optional[str]:
+        return (
+            str(registered_model.latest_versions[0].version)
+            if registered_model.latest_versions
+            else None
+        )
+
     def _get_ml_group_workunit(
         self,
         registered_model: RegisteredModel,
     ) -> MetadataWorkUnit:
-        """
-        Generate an MLModelGroup workunit for an MLflow Registered Model.
-        """
         ml_model_group_urn = self._make_ml_model_group_urn(registered_model)
         ml_model_group_properties = MLModelGroupPropertiesClass(
             customProperties=registered_model.tags,
             description=registered_model.description,
-            createdAt=registered_model.creation_timestamp,
+            created=TimeStampClass(
+                time=registered_model.creation_timestamp, actor=None
+            ),
+            lastModified=TimeStampClass(
+                time=registered_model.last_updated_timestamp,
+                actor=None,
+            ),
+            version=VersionTagClass(
+                versionTag=self._get_latest_version(registered_model)
+            ),
         )
         wu = self._create_workunit(
             urn=ml_model_group_urn,
@@ -226,9 +464,6 @@ def _get_mlflow_model_versions(
         self,
         registered_model: RegisteredModel,
     ) -> Iterable[ModelVersion]:
-        """
-        Get all Model Versions for each Registered Model.
-        """
         filter_string = f"name = '{registered_model.name}'"
         model_versions: Iterable[ModelVersion] = self._traverse_mlflow_search_func(
             search_func=self.client.search_model_versions,
@@ -236,51 +471,78 @@ def _get_mlflow_model_versions(
         )
         return model_versions
 
+    def get_mlflow_model_versions_from_run(self, run_id):
+        filter_string = f"run_id = '{run_id}'"
+
+        model_versions: Iterable[ModelVersion] = self._traverse_mlflow_search_func(
+            search_func=self.client.search_model_versions,
+            filter_string=filter_string,
+        )
+
+        return list(model_versions)
+
     def _get_mlflow_run(self, model_version: ModelVersion) -> Union[None, Run]:
-        """
-        Get a Run associated with a Model Version. Some MVs may exist without Run.
-        """
         if model_version.run_id:
             run = self.client.get_run(model_version.run_id)
             return run
         else:
             return None
 
+    def _get_ml_model_workunits(self) -> Iterable[MetadataWorkUnit]:
+        registered_models = self._get_mlflow_registered_models()
+        for registered_model in registered_models:
+            yield self._get_ml_group_workunit(registered_model)
+            model_versions = self._get_mlflow_model_versions(registered_model)
+            for model_version in model_versions:
+                run = self._get_mlflow_run(model_version)
+                yield self._get_ml_model_properties_workunit(
+                    registered_model=registered_model,
+                    model_version=model_version,
+                    run=run,
+                )
+                yield self._get_global_tags_workunit(model_version=model_version)
+
     def _get_ml_model_properties_workunit(
         self,
         registered_model: RegisteredModel,
         model_version: ModelVersion,
         run: Union[None, Run],
     ) -> MetadataWorkUnit:
-        """
-        Generate an MLModel workunit for an MLflow Model Version.
-        Every Model Version is a DataHub MLModel entity associated with an MLModelGroup corresponding to a Registered Model.
-        If a model was registered without an associated Run then hyperparams and metrics are not available.
-        """
         ml_model_group_urn = self._make_ml_model_group_urn(registered_model)
         ml_model_urn = self._make_ml_model_urn(model_version)
+
         if run:
-            hyperparams = [
-                MLHyperParamClass(name=k, value=str(v))
-                for k, v in run.data.params.items()
-            ]
-            training_metrics = [
-                MLMetricClass(name=k, value=str(v)) for k, v in run.data.metrics.items()
-            ]
+            # Use the same metrics and hyperparams from the run
+            hyperparams = self._get_run_params(run)
+            training_metrics = self._get_run_metrics(run)
         else:
             hyperparams = None
             training_metrics = None
+
+        created_time = model_version.creation_timestamp
+        created_actor = (
+            f"urn:li:platformResource:{model_version.user_id}"
+            if model_version.user_id
+            else None
+        )
+
         ml_model_properties = MLModelPropertiesClass(
             customProperties=model_version.tags,
-            externalUrl=self._make_external_url(model_version),
+            lastModified=TimeStampClass(
+                time=model_version.last_updated_timestamp,
+                actor=None,
+            ),
+            externalUrl=self._make_external_url_from_model_version(model_version),
             description=model_version.description,
-            date=model_version.creation_timestamp,
+            created=TimeStampClass(
+                time=created_time,
+                actor=created_actor,
+            ),
             version=VersionTagClass(versionTag=str(model_version.version)),
             hyperParams=hyperparams,
             trainingMetrics=training_metrics,
-            # mlflow tags are dicts, but datahub tags are lists. currently use only keys from mlflow tags
             tags=list(model_version.tags.keys()),
-            groups=[ml_model_group_urn],
+            groups=[str(ml_model_group_urn)],
         )
         wu = self._create_workunit(urn=ml_model_urn, aspect=ml_model_properties)
         return wu
@@ -293,24 +555,21 @@ def _make_ml_model_urn(self, model_version: ModelVersion) -> str:
         )
         return urn
 
-    def _get_base_external_url_from_tracking_uri(self) -> Optional[str]:
-        if isinstance(
-            self.client.tracking_uri, str
-        ) and self.client.tracking_uri.startswith("http"):
-            return self.client.tracking_uri
+    def _make_external_url_from_model_version(
+        self, model_version: ModelVersion
+    ) -> Union[None, str]:
+        base_uri = self.client.tracking_uri
+        if base_uri.startswith("http"):
+            return f"{base_uri.rstrip('/')}/#/models/{model_version.name}/versions/{model_version.version}"
         else:
             return None
 
-    def _make_external_url(self, model_version: ModelVersion) -> Optional[str]:
-        """
-        Generate URL for a Model Version to MLflow UI.
-        """
-        base_uri = (
-            self.config.base_external_url
-            or self._get_base_external_url_from_tracking_uri()
-        )
-        if base_uri:
-            return f"{base_uri.rstrip('/')}/#/models/{model_version.name}/versions/{model_version.version}"
+    def _make_external_url_from_run(
+        self, experiment: Experiment, run: Run
+    ) -> Union[None, str]:
+        base_uri = self.client.tracking_uri
+        if base_uri.startswith("http"):
+            return f"{base_uri.rstrip('/')}/#/experiments/{experiment.experiment_id}/runs/{run.info.run_id}"
         else:
             return None
 
@@ -333,3 +592,8 @@ def _get_global_tags_workunit(
             aspect=global_tags,
         )
         return wu
+
+    @classmethod
+    def create(cls, config_dict: dict, ctx: PipelineContext) -> Source:
+        config = MLflowConfig.parse_obj(config_dict)
+        return cls(ctx, config)
\ No newline at end of file

From de57fcdc017a20cffc8a54c964d027b415423bed Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Mon, 10 Feb 2025 15:08:21 +0900
Subject: [PATCH 02/37] fix typo

---
 metadata-ingestion/src/datahub/ingestion/source/mlflow.py | 7 +------
 1 file changed, 1 insertion(+), 6 deletions(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index 5028fefea5d500..144f3876bd4fce 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -227,12 +227,7 @@ def _get_experiment_container_workunit(
             description=experiment.tags.get("mlflow.note.content"),
         )  # TODO: this generates a urn as guid, should we change this to use experiment.id?
 
-        print(
-            "experiment.key.id:", experiment.key.id
-        )  # this should be same as container key as urn
-        print("experiment.key.as_urn(): ", experiment.key.as_urn())
-
-        workunits = [mcp.as_workunit() for mcp in experiment.generate_mcp()]
+        workunits = [mcp.as_workunit() for mcp in experiment_container.generate_mcp()]
         return workunits
 
     def _get_run_custom_properties(self, run: Run):

From 1a7a656d8f440cbeb837fcba009fe15d3e1ab432 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Mon, 10 Feb 2025 17:04:08 +0900
Subject: [PATCH 03/37] fix dpi urn generation logic

---
 .../src/datahub/ingestion/source/mlflow.py    | 31 +++++++------------
 1 file changed, 12 insertions(+), 19 deletions(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index 144f3876bd4fce..7ac580993bf856 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -53,10 +53,6 @@
     DataProcessInstanceUrn,
     DataPlatformInstanceUrn,
 )
-from datahub.api.entities.dataprocess.dataprocess_instance import (
-    DataProcessInstance,
-    InstanceRunResult,
-)
 
 T = TypeVar("T")
 
@@ -264,13 +260,8 @@ def _convert_run_result_type(
     def _get_run_workunits(
         self, experiment: Experiment, run: Run
     ) -> List[MetadataWorkUnit]:
-        experiment_key = ContainerKeyWithId(
-            platform=str(DataPlatformUrn.create_from_id("mlflow")), id=experiment.name
-        )
 
-        data_process_instance = DataProcessInstance.from_container(
-            container_key=experiment_key, id=run.info.run_name
-        )  # TODO: this generates a urn as guid, should we change this to use run.info.run_id?
+        dpi_urn = f"urn:li:dataProcessInstance:{run.info.run_id}"
         workunits = []
 
         run_custom_props = self._get_run_custom_properties(run)
@@ -281,7 +272,7 @@ def _get_run_workunits(
 
         workunits.append(
             MetadataChangeProposalWrapper(
-                entityUrn=str(data_process_instance.urn),
+                entityUrn=dpi_urn,
                 aspect=DataProcessInstancePropertiesClass(
                     name=run.info.run_name or run.info.run_id,
                     created=AuditStampClass(
@@ -297,11 +288,10 @@ def _get_run_workunits(
         # get model from run
         model_versions = self.get_mlflow_model_versions_from_run(run.info.run_id)
         model_version_urn = self._make_ml_model_urn(model_versions[0])
-        model_version_urn = "urn:li:dataset:(urn:li:dataPlatform:mlflow,sk-learn-random-forest-reg_1,PROD)"
         if model_versions:
             workunits.append(
                 MetadataChangeProposalWrapper(
-                    entityUrn=str(data_process_instance.urn),
+                    entityUrn=dpi_urn,
                     aspect=DataProcessInstanceOutputClass(outputs=[model_version_urn]),
                 ).as_workunit()
             )
@@ -310,7 +300,7 @@ def _get_run_workunits(
         hyperparams = self._get_run_params(run)
         workunits.append(
             MetadataChangeProposalWrapper(
-                entityUrn=str(data_process_instance.urn),
+                entityUrn=dpi_urn,
                 aspect=MLTrainingRunPropertiesClass(
                     hyperParams=hyperparams,
                     trainingMetrics=metrics,
@@ -328,7 +318,7 @@ def _get_run_workunits(
         if run.info.end_time:
             workunits.append(
                 MetadataChangeProposalWrapper(
-                    entityUrn=str(data_process_instance.urn),
+                    entityUrn=dpi_urn,
                     aspect=DataProcessInstanceRunEventClass(
                         status=DataProcessRunStatusClass.COMPLETE,
                         timestampMillis=run.info.end_time,
@@ -343,7 +333,7 @@ def _get_run_workunits(
 
         workunits.append(
             MetadataChangeProposalWrapper(
-                entityUrn=str(data_process_instance.urn),
+                entityUrn=dpi_urn,
                 aspect=DataPlatformInstanceClass(
                     platform=str(DataPlatformUrn.create_from_id("mlflow"))
                 ),
@@ -352,7 +342,7 @@ def _get_run_workunits(
 
         workunits.append(
             MetadataChangeProposalWrapper(
-                entityUrn=str(data_process_instance.urn),
+                entityUrn=dpi_urn,
                 aspect=DataProcessInstancePropertiesClass(  # Changed from RunEventClass
                     name=run.info.run_name or run.info.run_id,
                     created=AuditStampClass(
@@ -365,7 +355,7 @@ def _get_run_workunits(
 
         workunits.append(
             MetadataChangeProposalWrapper(
-                entityUrn=str(data_process_instance.urn),
+                entityUrn=dpi_urn,
                 aspect=DataPlatformInstanceClass(
                     platform=str(DataPlatformUrn.create_from_id("mlflow"))
                 ),
@@ -374,7 +364,7 @@ def _get_run_workunits(
 
         workunits.append(
             MetadataChangeProposalWrapper(
-                entityUrn=str(data_process_instance.urn),
+                entityUrn=dpi_urn,
                 aspect=SubTypesClass(typeNames=["ML Training Run"]),
             ).as_workunit()
         )
@@ -510,9 +500,11 @@ def _get_ml_model_properties_workunit(
             # Use the same metrics and hyperparams from the run
             hyperparams = self._get_run_params(run)
             training_metrics = self._get_run_metrics(run)
+            training_jobs = [str(DataProcessInstanceUrn.create_from_id(run.info.run_id))] # assume DPI URN is the same as run_id
         else:
             hyperparams = None
             training_metrics = None
+            training_jobs = []
 
         created_time = model_version.creation_timestamp
         created_actor = (
@@ -538,6 +530,7 @@ def _get_ml_model_properties_workunit(
             trainingMetrics=training_metrics,
             tags=list(model_version.tags.keys()),
             groups=[str(ml_model_group_urn)],
+            trainingJobs=training_jobs
         )
         wu = self._create_workunit(urn=ml_model_urn, aspect=ml_model_properties)
         return wu

From 0351a7c4cb893eac81957c5344085aae4deaf513 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Mon, 10 Feb 2025 18:26:05 +0900
Subject: [PATCH 04/37] update mlflow script

---
 .../src/datahub/ingestion/source/mlflow.py    | 168 +++++++++++++-----
 1 file changed, 127 insertions(+), 41 deletions(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index 7ac580993bf856..c02ea604f830a8 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -1,17 +1,20 @@
-from dataclasses import dataclass
-from typing import Any, Callable, Iterable, Optional, TypeVar, Union, List
 import time
+from dataclasses import dataclass, field
+from typing import Any, Callable, Dict, Iterable, List, Optional, TypeVar, Union
 
 from mlflow import MlflowClient
-from mlflow.entities import Run, Experiment
+from mlflow.entities import Experiment, Run
 from mlflow.entities.model_registry import ModelVersion, RegisteredModel
 from mlflow.store.entities import PagedList
 from pydantic.fields import Field
 
 import datahub.emitter.mce_builder as builder
-from datahub.emitter.mcp_builder import ContainerKey
+from datahub.api.entities.dataprocess.dataprocess_instance import (
+    DataProcessInstance,
+)
 from datahub.configuration.source_common import EnvConfigMixin
 from datahub.emitter.mcp import MetadataChangeProposalWrapper
+from datahub.emitter.mcp_builder import ContainerKey
 from datahub.ingestion.api.common import PipelineContext
 from datahub.ingestion.api.decorators import (
     SupportStatus,
@@ -23,35 +26,33 @@
 from datahub.ingestion.api.source import Source, SourceCapability, SourceReport
 from datahub.ingestion.api.workunit import MetadataWorkUnit
 from datahub.metadata.schema_classes import (
+    AuditStampClass,
+    BrowsePathsV2Class,
+    ContainerPropertiesClass,
+    DataPlatformInstanceClass,
+    DataProcessInstanceOutputClass,
+    DataProcessInstancePropertiesClass,
+    DataProcessInstanceRunEventClass,
+    DataProcessInstanceRunResultClass,
+    DataProcessRunStatusClass,
     GlobalTagsClass,
+    MetadataChangeProposalClass,
     MLHyperParamClass,
     MLMetricClass,
     MLModelGroupPropertiesClass,
     MLModelPropertiesClass,
+    MLTrainingRunPropertiesClass,
+    SubTypesClass,
     TagAssociationClass,
     TagPropertiesClass,
-    VersionTagClass,
-    DataProcessInstanceRunEventClass,
-    DataProcessInstancePropertiesClass,
-    ContainerPropertiesClass,
-    AuditStampClass,
     TimeStampClass,
-    DataProcessRunStatusClass,
-    SubTypesClass,
-    DataPlatformInstanceClass,
-    BrowsePathsV2Class,
-    MetadataChangeProposalClass,
-    MLTrainingRunPropertiesClass,
-    DataProcessInstanceRunResultClass,
-    DataProcessInstanceOutputClass,
+    VersionPropertiesClass,
+    VersionSetPropertiesClass,
+    VersionTagClass,
 )
 from datahub.metadata.urns import (
-    DatasetUrn,
     DataPlatformUrn,
-    MlModelUrn,
-    MlModelGroupUrn,
-    DataProcessInstanceUrn,
-    DataPlatformInstanceUrn,
+    VersionSetUrn,
 )
 
 T = TypeVar("T")
@@ -116,6 +117,17 @@ class MLflowRegisteredModelStageInfo:
     color_hex: str
 
 
+@dataclass
+class MLflowEntityMap:
+    """
+    Maintains mappings between MLflow IDs and DataHub URNs during ingestion.
+    """
+
+    experiment_id_to_urn: Dict[str, str] = field(default_factory=dict)
+    run_id_to_urn: Dict[str, str] = field(default_factory=dict)
+    model_version_to_urn: Dict[str, str] = field(default_factory=dict)
+
+
 @platform_name("MLflow")
 @config_class(MLflowConfig)
 @support_status(SupportStatus.TESTING)
@@ -157,6 +169,7 @@ def __init__(self, ctx: PipelineContext, config: MLflowConfig):
             tracking_uri=self.config.tracking_uri,
             registry_uri=self.config.registry_uri,
         )
+        self.entity_map = MLflowEntityMap()
 
     def get_report(self) -> SourceReport:
         return self.report
@@ -194,7 +207,6 @@ def _create_workunit(self, urn: str, aspect: Any) -> MetadataWorkUnit:
     def _get_experiment_workunits(self) -> Iterable[MetadataWorkUnit]:
         experiments = self._get_mlflow_experiments()
         for experiment in experiments:
-            # Yield each workunit from the container workunits
             for wu in self._get_experiment_container_workunit(experiment):
                 yield wu
 
@@ -221,7 +233,10 @@ def _get_experiment_container_workunit(
             subtype="ML Experiment",
             name=experiment.name,
             description=experiment.tags.get("mlflow.note.content"),
-        )  # TODO: this generates a urn as guid, should we change this to use experiment.id?
+        )
+        self.entity_map.experiment_id_to_urn[experiment.experiment_id] = (
+            experiment_container.key.as_urn()
+        )
 
         workunits = [mcp.as_workunit() for mcp in experiment_container.generate_mcp()]
         return workunits
@@ -260,8 +275,14 @@ def _convert_run_result_type(
     def _get_run_workunits(
         self, experiment: Experiment, run: Run
     ) -> List[MetadataWorkUnit]:
+        experiment_key = ContainerKeyWithId(
+            platform=str(DataPlatformUrn.create_from_id("mlflow")), id=experiment.name
+        )
 
-        dpi_urn = f"urn:li:dataProcessInstance:{run.info.run_id}"
+        data_process_instance = DataProcessInstance.from_container(
+            container_key=experiment_key, id=run.info.run_name
+        )
+        self.entity_map.run_id_to_urn[run.info.run_id] = str(data_process_instance.urn)
         workunits = []
 
         run_custom_props = self._get_run_custom_properties(run)
@@ -272,7 +293,7 @@ def _get_run_workunits(
 
         workunits.append(
             MetadataChangeProposalWrapper(
-                entityUrn=dpi_urn,
+                entityUrn=str(data_process_instance.urn),
                 aspect=DataProcessInstancePropertiesClass(
                     name=run.info.run_name or run.info.run_id,
                     created=AuditStampClass(
@@ -291,7 +312,7 @@ def _get_run_workunits(
         if model_versions:
             workunits.append(
                 MetadataChangeProposalWrapper(
-                    entityUrn=dpi_urn,
+                    entityUrn=str(data_process_instance.urn),
                     aspect=DataProcessInstanceOutputClass(outputs=[model_version_urn]),
                 ).as_workunit()
             )
@@ -300,7 +321,7 @@ def _get_run_workunits(
         hyperparams = self._get_run_params(run)
         workunits.append(
             MetadataChangeProposalWrapper(
-                entityUrn=dpi_urn,
+                entityUrn=str(data_process_instance.urn),
                 aspect=MLTrainingRunPropertiesClass(
                     hyperParams=hyperparams,
                     trainingMetrics=metrics,
@@ -310,6 +331,20 @@ def _get_run_workunits(
             ).as_workunit()
         )
 
+        # map experiment urn to run
+        # TODO: this causes null pointer exception
+        experiment_urn = self.entity_map.experiment_id_to_urn.get(
+            experiment.experiment_id
+        )
+        if experiment_urn:
+            pass
+            # workunits.append(
+            #     MetadataChangeProposalWrapper(
+            #         entityUrn=str(data_process_instance.urn),
+            #         aspect=ContainerClass(container=experiment_urn),
+            #     ).as_workunit()
+            # )
+
         result = (
             run.info.status
         )  # TODO: this should be SUCCESS, SKIPPED, FAILURE, UP_FOR_RETRY
@@ -318,7 +353,7 @@ def _get_run_workunits(
         if run.info.end_time:
             workunits.append(
                 MetadataChangeProposalWrapper(
-                    entityUrn=dpi_urn,
+                    entityUrn=str(data_process_instance.urn),
                     aspect=DataProcessInstanceRunEventClass(
                         status=DataProcessRunStatusClass.COMPLETE,
                         timestampMillis=run.info.end_time,
@@ -333,7 +368,7 @@ def _get_run_workunits(
 
         workunits.append(
             MetadataChangeProposalWrapper(
-                entityUrn=dpi_urn,
+                entityUrn=str(data_process_instance.urn),
                 aspect=DataPlatformInstanceClass(
                     platform=str(DataPlatformUrn.create_from_id("mlflow"))
                 ),
@@ -342,7 +377,7 @@ def _get_run_workunits(
 
         workunits.append(
             MetadataChangeProposalWrapper(
-                entityUrn=dpi_urn,
+                entityUrn=str(data_process_instance.urn),
                 aspect=DataProcessInstancePropertiesClass(  # Changed from RunEventClass
                     name=run.info.run_name or run.info.run_id,
                     created=AuditStampClass(
@@ -355,7 +390,7 @@ def _get_run_workunits(
 
         workunits.append(
             MetadataChangeProposalWrapper(
-                entityUrn=dpi_urn,
+                entityUrn=str(data_process_instance.urn),
                 aspect=DataPlatformInstanceClass(
                     platform=str(DataPlatformUrn.create_from_id("mlflow"))
                 ),
@@ -364,7 +399,7 @@ def _get_run_workunits(
 
         workunits.append(
             MetadataChangeProposalWrapper(
-                entityUrn=dpi_urn,
+                entityUrn=str(data_process_instance.urn),
                 aspect=SubTypesClass(typeNames=["ML Training Run"]),
             ).as_workunit()
         )
@@ -372,10 +407,10 @@ def _get_run_workunits(
         return workunits
 
     def _get_mlflow_registered_models(self) -> Iterable[RegisteredModel]:
-        registered_models: Iterable[
-            RegisteredModel
-        ] = self._traverse_mlflow_search_func(
-            search_func=self.client.search_registered_models,
+        registered_models: Iterable[RegisteredModel] = (
+            self._traverse_mlflow_search_func(
+                search_func=self.client.search_registered_models,
+            )
         )
         return registered_models
 
@@ -485,8 +520,58 @@ def _get_ml_model_workunits(self) -> Iterable[MetadataWorkUnit]:
                     model_version=model_version,
                     run=run,
                 )
+                # for wu in self._get_ml_model_version_properties_workunit(
+                #     model_version=model_version,
+                # ):
+                #     yield wu
                 yield self._get_global_tags_workunit(model_version=model_version)
 
+    def _get_ml_model_version_properties_workunit(
+        self,
+        model_version: ModelVersion,
+    ) -> MetadataWorkUnit:
+        ml_model_urn = self._make_ml_model_urn(model_version)
+
+        version_set_urn = VersionSetUrn(
+            id=f"mlmodel_{model_version.name}", entity_type="mlModel"
+        )
+
+        workunits = []
+
+        version_set_properties = VersionSetPropertiesClass(
+            latest=str(
+                ml_model_urn
+            ),  # TODO: this returns cannot set latest to unversioned entity
+            versioningScheme="ALPHANUMERIC_GENERATED_BY_DATAHUB",
+        )
+
+        workunits.append(
+            MetadataChangeProposalWrapper(
+                entityUrn=str(version_set_urn),
+                aspect=version_set_properties,
+            ).as_workunit()
+        )
+
+        ml_model_version_properties = VersionPropertiesClass(
+            version=VersionTagClass(
+                versionTag=str(model_version.version),
+            ),
+            versionSet=str(version_set_urn),
+            sortId="AAAAAAAA",
+            aliases=[
+                VersionTagClass(versionTag=alias) for alias in model_version.aliases
+            ],
+        )
+
+        workunits.append(
+            MetadataChangeProposalWrapper(
+                entityUrn=str(ml_model_urn),
+                aspect=ml_model_version_properties,
+            ).as_workunit()
+        )
+
+        return workunits
+
     def _get_ml_model_properties_workunit(
         self,
         registered_model: RegisteredModel,
@@ -500,7 +585,9 @@ def _get_ml_model_properties_workunit(
             # Use the same metrics and hyperparams from the run
             hyperparams = self._get_run_params(run)
             training_metrics = self._get_run_metrics(run)
-            training_jobs = [str(DataProcessInstanceUrn.create_from_id(run.info.run_id))] # assume DPI URN is the same as run_id
+            # TODO: this should be actually mapped the guid from the run id
+            run_urn = self.entity_map.run_id_to_urn.get(run.info.run_id)
+            training_jobs = [run_urn] if run_urn else []
         else:
             hyperparams = None
             training_metrics = None
@@ -525,12 +612,11 @@ def _get_ml_model_properties_workunit(
                 time=created_time,
                 actor=created_actor,
             ),
-            version=VersionTagClass(versionTag=str(model_version.version)),
             hyperParams=hyperparams,
             trainingMetrics=training_metrics,
             tags=list(model_version.tags.keys()),
             groups=[str(ml_model_group_urn)],
-            trainingJobs=training_jobs
+            trainingJobs=training_jobs,
         )
         wu = self._create_workunit(urn=ml_model_urn, aspect=ml_model_properties)
         return wu
@@ -584,4 +670,4 @@ def _get_global_tags_workunit(
     @classmethod
     def create(cls, config_dict: dict, ctx: PipelineContext) -> Source:
         config = MLflowConfig.parse_obj(config_dict)
-        return cls(ctx, config)
\ No newline at end of file
+        return cls(ctx, config)

From 65d2a96d9c1a5629dff65ade038692cddd3888a3 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Thu, 13 Feb 2025 19:50:30 +0900
Subject: [PATCH 05/37] make updates to versions / experiments

---
 .../src/datahub/ingestion/source/mlflow.py    | 148 +++++++++++++-----
 1 file changed, 109 insertions(+), 39 deletions(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index c02ea604f830a8..37c569314fcb5b 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -7,6 +7,7 @@
 from mlflow.entities.model_registry import ModelVersion, RegisteredModel
 from mlflow.store.entities import PagedList
 from pydantic.fields import Field
+from datahub.ingestion.graph.client import get_default_graph
 
 import datahub.emitter.mce_builder as builder
 from datahub.api.entities.dataprocess.dataprocess_instance import (
@@ -49,6 +50,9 @@
     VersionPropertiesClass,
     VersionSetPropertiesClass,
     VersionTagClass,
+    VersionSetKeyClass,
+    ContainerClass,
+    ContainerKeyClass,
 )
 from datahub.metadata.urns import (
     DataPlatformUrn,
@@ -122,7 +126,6 @@ class MLflowEntityMap:
     """
     Maintains mappings between MLflow IDs and DataHub URNs during ingestion.
     """
-
     experiment_id_to_urn: Dict[str, str] = field(default_factory=dict)
     run_id_to_urn: Dict[str, str] = field(default_factory=dict)
     model_version_to_urn: Dict[str, str] = field(default_factory=dict)
@@ -170,6 +173,7 @@ def __init__(self, ctx: PipelineContext, config: MLflowConfig):
             registry_uri=self.config.registry_uri,
         )
         self.entity_map = MLflowEntityMap()
+        self.graph = get_default_graph()
 
     def get_report(self) -> SourceReport:
         return self.report
@@ -308,8 +312,8 @@ def _get_run_workunits(
 
         # get model from run
         model_versions = self.get_mlflow_model_versions_from_run(run.info.run_id)
-        model_version_urn = self._make_ml_model_urn(model_versions[0])
         if model_versions:
+            model_version_urn = self._make_ml_model_urn(model_versions[0])
             workunits.append(
                 MetadataChangeProposalWrapper(
                     entityUrn=str(data_process_instance.urn),
@@ -332,24 +336,24 @@ def _get_run_workunits(
         )
 
         # map experiment urn to run
-        # TODO: this causes null pointer exception
         experiment_urn = self.entity_map.experiment_id_to_urn.get(
             experiment.experiment_id
         )
-        if experiment_urn:
-            pass
-            # workunits.append(
-            #     MetadataChangeProposalWrapper(
-            #         entityUrn=str(data_process_instance.urn),
-            #         aspect=ContainerClass(container=experiment_urn),
-            #     ).as_workunit()
-            # )
-
-        result = (
-            run.info.status
-        )  # TODO: this should be SUCCESS, SKIPPED, FAILURE, UP_FOR_RETRY
-        duration_millis = run.info.end_time - run.info.start_time
 
+        existing_container = self.graph.get_aspect(
+            entity_urn=str(data_process_instance.urn),
+            aspect_type=ContainerClass
+        )
+
+        if existing_container is None:
+            workunits.append(
+                MetadataChangeProposalWrapper(
+                    entityUrn=str(data_process_instance.urn),
+                    aspect=ContainerClass(container=experiment_urn),
+                ).as_workunit()
+            )
+
+        duration_millis = run.info.end_time - run.info.start_time
         if run.info.end_time:
             workunits.append(
                 MetadataChangeProposalWrapper(
@@ -358,7 +362,7 @@ def _get_run_workunits(
                         status=DataProcessRunStatusClass.COMPLETE,
                         timestampMillis=run.info.end_time,
                         result=DataProcessInstanceRunResultClass(
-                            type=self._convert_run_result_type(result).type,
+                            type=self._convert_run_result_type(run.info.status).type,
                             nativeResultType="mlflow",
                         ),
                         durationMillis=duration_millis,
@@ -508,6 +512,13 @@ def _get_mlflow_run(self, model_version: ModelVersion) -> Union[None, Run]:
         else:
             return None
 
+    class SequencedMetadataWorkUnit(MetadataWorkUnit):
+        """A workunit that knows its dependencies"""
+
+        def __init__(self, id: str, mcp: MetadataChangeProposalWrapper, depends_on: Optional[str] = None):
+            super().__init__(id=id, mcp=mcp)
+            self.depends_on = depends_on
+
     def _get_ml_model_workunits(self) -> Iterable[MetadataWorkUnit]:
         registered_models = self._get_mlflow_registered_models()
         for registered_model in registered_models:
@@ -515,62 +526,121 @@ def _get_ml_model_workunits(self) -> Iterable[MetadataWorkUnit]:
             model_versions = self._get_mlflow_model_versions(registered_model)
             for model_version in model_versions:
                 run = self._get_mlflow_run(model_version)
+                version_set_urn = self._get_version_set_urn(model_version)
                 yield self._get_ml_model_properties_workunit(
                     registered_model=registered_model,
                     model_version=model_version,
                     run=run,
                 )
-                # for wu in self._get_ml_model_version_properties_workunit(
+                yield self._get_version_set(
+                    version_set_urn=version_set_urn,
+                )
+                yield self._get_ml_model_version_properties_workunit(
+                    model_version=model_version,
+                    version_set_urn=version_set_urn,
+                )
+                # yield self._get_version_latest(
                 #     model_version=model_version,
-                # ):
-                #     yield wu
+                #     version_set_urn=version_set_urn,
+                # )
                 yield self._get_global_tags_workunit(model_version=model_version)
 
-    def _get_ml_model_version_properties_workunit(
-        self,
-        model_version: ModelVersion,
-    ) -> MetadataWorkUnit:
-        ml_model_urn = self._make_ml_model_urn(model_version)
+
+    def _get_version_set_urn(self,
+                         model_version: ModelVersion,
+                         ) -> VersionSetUrn:
 
         version_set_urn = VersionSetUrn(
-            id=f"mlmodel_{model_version.name}", entity_type="mlModel"
+            id=f"{model_version.name}{self.config.model_name_separator}{model_version.version}",
+            entity_type="mlModel"
         )
 
-        workunits = []
+        return version_set_urn
+    def _get_version_set(
+            self,
+            version_set_urn: VersionSetUrn,
+    ) -> MetadataWorkUnit:
 
+        version_set_key = VersionSetKeyClass(
+            id=version_set_urn.id,
+            entityType="mlModel",
+        )
+
+        wu = MetadataChangeProposalWrapper(
+                entityUrn=str(version_set_urn),
+                aspect=version_set_key,
+        ).as_workunit()
+
+        return wu
+
+    def _get_version_latest(self
+                            , model_version: ModelVersion
+                            , version_set_urn: VersionSetUrn
+                            ) -> MetadataWorkUnit:
+        ml_model_urn = self._make_ml_model_urn(model_version)
         version_set_properties = VersionSetPropertiesClass(
             latest=str(
                 ml_model_urn
             ),  # TODO: this returns cannot set latest to unversioned entity
-            versioningScheme="ALPHANUMERIC_GENERATED_BY_DATAHUB",
+            versioningScheme="ALPHANUMERIC_GENERATED_BY_DATAHUB", # TODO: wait for change in the backend
         )
 
-        workunits.append(
-            MetadataChangeProposalWrapper(
+        wu = MetadataChangeProposalWrapper(
                 entityUrn=str(version_set_urn),
                 aspect=version_set_properties,
             ).as_workunit()
-        )
 
+
+        return wu
+
+    def _get_ml_model_version_properties_workunit(
+            self,
+            model_version: ModelVersion,
+            version_set_urn: VersionSetUrn,
+    ) -> List[MetadataWorkUnit]:
+        import time
+
+        ml_model_urn = self._make_ml_model_urn(model_version)
+
+        # Try up to 3 times to get the version set
+        max_attempts = 3
+        attempt = 0
+        response = None
+
+        while attempt < max_attempts and response is None:
+            print("!!!! exists?", self.graph.exists(str(version_set_urn)))
+            response = self.graph.get_aspect(
+                entity_urn=str(version_set_urn),
+                aspect_type=VersionSetKeyClass
+            )
+
+            if not response:
+                attempt += 1
+                print(f"Version Set {version_set_urn} not found, attempt {attempt}/{max_attempts}")
+                if attempt < max_attempts:
+                    time.sleep(30)
+
+        if not response:
+            raise Exception(f"Version Set {version_set_urn} not found after {max_attempts} attempts")
+
+        # get mlmodel name from ml model urn
         ml_model_version_properties = VersionPropertiesClass(
             version=VersionTagClass(
                 versionTag=str(model_version.version),
             ),
             versionSet=str(version_set_urn),
-            sortId="AAAAAAAA",
+            sortId='AAAAAAAA',  # TODO: wait for change in the backend
             aliases=[
                 VersionTagClass(versionTag=alias) for alias in model_version.aliases
             ],
         )
 
-        workunits.append(
-            MetadataChangeProposalWrapper(
-                entityUrn=str(ml_model_urn),
-                aspect=ml_model_version_properties,
-            ).as_workunit()
-        )
+        wu = MetadataChangeProposalWrapper(
+            entityUrn=str(ml_model_urn),
+            aspect=ml_model_version_properties,
+        ).as_workunit()
 
-        return workunits
+        return wu
 
     def _get_ml_model_properties_workunit(
         self,

From 97019151275349894f131fd672cfaf72904b5703 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Fri, 14 Feb 2025 09:27:05 +0900
Subject: [PATCH 06/37] update dpi creation process

---
 .../ai/dh_ai_client_sample_file_emitter.py    | 134 ++++++++++++++++++
 .../recipes/mlflow_mcps_from_sdk.json         |   0
 .../src/datahub/ingestion/source/mlflow.py    |  87 +++---------
 3 files changed, 153 insertions(+), 68 deletions(-)
 create mode 100644 metadata-ingestion/examples/ai/dh_ai_client_sample_file_emitter.py
 create mode 100644 metadata-ingestion/examples/recipes/mlflow_mcps_from_sdk.json

diff --git a/metadata-ingestion/examples/ai/dh_ai_client_sample_file_emitter.py b/metadata-ingestion/examples/ai/dh_ai_client_sample_file_emitter.py
new file mode 100644
index 00000000000000..ec74256695639f
--- /dev/null
+++ b/metadata-ingestion/examples/ai/dh_ai_client_sample_file_emitter.py
@@ -0,0 +1,134 @@
+import argparse
+
+from dh_ai_client import DatahubAIClient
+
+import datahub.metadata.schema_classes as models
+from datahub.metadata.com.linkedin.pegasus2avro.dataprocess import RunResultType
+
+if __name__ == "__main__":
+    # Example usage
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--token", required=False, help="DataHub access token")
+    parser.add_argument(
+        "--server_url",
+        required=False,
+        default="http://localhost:8080",
+        help="DataHub server URL (defaults to http://localhost:8080)",
+    )
+    args = parser.parse_args()
+
+    client = DatahubAIClient(token=args.token, server_url=args.server_url)
+
+    # Create model group
+    # model_group_urn = client.create_model_group(
+    #     group_id="airline_forecast_models_group",
+    #     properties=models.MLModelGroupPropertiesClass(
+    #         name="Airline Forecast Models Group",
+    #         description="Group of models for airline passenger forecasting",
+    #         created=models.TimeStampClass(
+    #             time=1628580000000, actor="urn:li:corpuser:datahub"
+    #         ),
+    #     ),
+    # )
+    #
+    # # Creating a model with property classes
+    # model_urn = client.create_model(
+    #     model_id="arima_model",
+    #     properties=models.MLModelPropertiesClass(
+    #         name="ARIMA Model",
+    #         description="ARIMA model for airline passenger forecasting",
+    #         customProperties={"team": "forecasting"},
+    #         trainingMetrics=[
+    #             models.MLMetricClass(name="accuracy", value="0.9"),
+    #             models.MLMetricClass(name="precision", value="0.8"),
+    #         ],
+    #         hyperParams=[
+    #             models.MLHyperParamClass(name="learning_rate", value="0.01"),
+    #             models.MLHyperParamClass(name="batch_size", value="32"),
+    #         ],
+    #         externalUrl="https:localhost:5000",
+    #         created=models.TimeStampClass(
+    #             time=1628580000000, actor="urn:li:corpuser:datahub"
+    #         ),
+    #         lastModified=models.TimeStampClass(
+    #             time=1628580000000, actor="urn:li:corpuser:datahub"
+    #         ),
+    #         tags=["forecasting", "arima"],
+    #     ),
+    #     version="1.0",
+    #     alias="champion",
+    # )
+
+    # Creating an experiment with property class
+    experiment_urn = client.create_experiment(
+        experiment_id="airline_forecast_experiment",
+        properties=models.ContainerPropertiesClass(
+            name="Airline Forecast Experiment",
+            description="Experiment to forecast airline passenger numbers",
+            customProperties={"team": "forecasting"},
+            created=models.TimeStampClass(
+                time=1628580000000, actor="urn:li:corpuser:datahub"
+            ),
+            lastModified=models.TimeStampClass(
+                time=1628580000000, actor="urn:li:corpuser:datahub"
+            ),
+        ),
+    )
+
+    run_urn = client.create_training_run(
+        run_id="simple_training_run",
+        properties=models.DataProcessInstancePropertiesClass(
+            name="Simple Training Run",
+            created=models.AuditStampClass(
+                time=1628580000000, actor="urn:li:corpuser:datahub"
+            ),
+            customProperties={"team": "forecasting"},
+        ),
+        training_run_properties=models.MLTrainingRunPropertiesClass(
+            id="simple_training_run",
+            outputUrls=["s3://my-bucket/output"],
+            trainingMetrics=[models.MLMetricClass(name="accuracy", value="0.9")],
+            hyperParams=[models.MLHyperParamClass(name="learning_rate", value="0.01")],
+            externalUrl="https:localhost:5000",
+        ),
+        run_result=RunResultType.FAILURE,
+        start_timestamp=1628580000000,
+        end_timestamp=1628580001000,
+    )
+    # Create datasets
+    # input_dataset_urn = client.create_dataset(
+    #     platform="snowflake",
+    #     name="iris_input",
+    # )
+    #
+    # output_dataset_urn = client.create_dataset(
+    #     platform="snowflake",
+    #     name="iris_ouptut",
+    # )
+
+    # Add run to experiment
+    client.add_run_to_experiment(run_urn=run_urn, experiment_urn=experiment_urn)
+
+    # Add model to model group
+    # client.add_model_to_model_group(model_urn=model_urn, group_urn=model_group_urn)
+    #
+    # # Add run to model
+    # client.add_run_to_model(
+    #     model_urn=model_urn,
+    #     run_urn=run_urn,
+    # )
+    #
+    # # add run to model group
+    # client.add_run_to_model_group(
+    #     model_group_urn=model_group_urn,
+    #     run_urn=run_urn,
+    # )
+
+    # Add input and output datasets to run
+    # client.add_input_datasets_to_run(
+    #     run_urn=run_urn, dataset_urns=[str(input_dataset_urn)]
+    # )
+    #
+    # client.add_output_datasets_to_run(
+    #     run_urn=run_urn, dataset_urns=[str(output_dataset_urn)]
+    # )
diff --git a/metadata-ingestion/examples/recipes/mlflow_mcps_from_sdk.json b/metadata-ingestion/examples/recipes/mlflow_mcps_from_sdk.json
new file mode 100644
index 00000000000000..e69de29bb2d1d6
diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index 37c569314fcb5b..3d428537a00524 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -277,15 +277,20 @@ def _convert_run_result_type(
             )
 
     def _get_run_workunits(
-        self, experiment: Experiment, run: Run
+            self, experiment: Experiment, run: Run
     ) -> List[MetadataWorkUnit]:
         experiment_key = ContainerKeyWithId(
-            platform=str(DataPlatformUrn.create_from_id("mlflow")), id=experiment.name
+            platform=str(DataPlatformUrn.create_from_id("mlflow")),
+            id=experiment.name
         )
 
-        data_process_instance = DataProcessInstance.from_container(
-            container_key=experiment_key, id=run.info.run_name
+        dpi_id = run.info.run_name or run.info.run_id
+        data_process_instance = DataProcessInstance(
+            id=dpi_id,
+            orchestrator="mlflow",
+            template_urn=None,
         )
+
         self.entity_map.run_id_to_urn[run.info.run_id] = str(data_process_instance.urn)
         workunits = []
 
@@ -310,7 +315,15 @@ def _get_run_workunits(
             ).as_workunit()
         )
 
-        # get model from run
+        workunits.append(
+            MetadataChangeProposalWrapper(
+                entityUrn=str(data_process_instance.urn),
+                aspect=ContainerClass(
+                    container=experiment_key.as_urn()
+                ),
+            ).as_workunit()
+        )
+
         model_versions = self.get_mlflow_model_versions_from_run(run.info.run_id)
         if model_versions:
             model_version_urn = self._make_ml_model_urn(model_versions[0])
@@ -335,26 +348,8 @@ def _get_run_workunits(
             ).as_workunit()
         )
 
-        # map experiment urn to run
-        experiment_urn = self.entity_map.experiment_id_to_urn.get(
-            experiment.experiment_id
-        )
-
-        existing_container = self.graph.get_aspect(
-            entity_urn=str(data_process_instance.urn),
-            aspect_type=ContainerClass
-        )
-
-        if existing_container is None:
-            workunits.append(
-                MetadataChangeProposalWrapper(
-                    entityUrn=str(data_process_instance.urn),
-                    aspect=ContainerClass(container=experiment_urn),
-                ).as_workunit()
-            )
-
-        duration_millis = run.info.end_time - run.info.start_time
         if run.info.end_time:
+            duration_millis = run.info.end_time - run.info.start_time
             workunits.append(
                 MetadataChangeProposalWrapper(
                     entityUrn=str(data_process_instance.urn),
@@ -379,28 +374,6 @@ def _get_run_workunits(
             ).as_workunit()
         )
 
-        workunits.append(
-            MetadataChangeProposalWrapper(
-                entityUrn=str(data_process_instance.urn),
-                aspect=DataProcessInstancePropertiesClass(  # Changed from RunEventClass
-                    name=run.info.run_name or run.info.run_id,
-                    created=AuditStampClass(
-                        time=created_time,
-                        actor=created_actor,
-                    ),
-                ),
-            ).as_workunit()
-        )
-
-        workunits.append(
-            MetadataChangeProposalWrapper(
-                entityUrn=str(data_process_instance.urn),
-                aspect=DataPlatformInstanceClass(
-                    platform=str(DataPlatformUrn.create_from_id("mlflow"))
-                ),
-            ).as_workunit()
-        )
-
         workunits.append(
             MetadataChangeProposalWrapper(
                 entityUrn=str(data_process_instance.urn),
@@ -598,31 +571,9 @@ def _get_ml_model_version_properties_workunit(
             model_version: ModelVersion,
             version_set_urn: VersionSetUrn,
     ) -> List[MetadataWorkUnit]:
-        import time
 
         ml_model_urn = self._make_ml_model_urn(model_version)
 
-        # Try up to 3 times to get the version set
-        max_attempts = 3
-        attempt = 0
-        response = None
-
-        while attempt < max_attempts and response is None:
-            print("!!!! exists?", self.graph.exists(str(version_set_urn)))
-            response = self.graph.get_aspect(
-                entity_urn=str(version_set_urn),
-                aspect_type=VersionSetKeyClass
-            )
-
-            if not response:
-                attempt += 1
-                print(f"Version Set {version_set_urn} not found, attempt {attempt}/{max_attempts}")
-                if attempt < max_attempts:
-                    time.sleep(30)
-
-        if not response:
-            raise Exception(f"Version Set {version_set_urn} not found after {max_attempts} attempts")
-
         # get mlmodel name from ml model urn
         ml_model_version_properties = VersionPropertiesClass(
             version=VersionTagClass(

From 7ced7d8285e5df14fd19c212ff45209205cb7716 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Mon, 17 Feb 2025 15:23:32 +0900
Subject: [PATCH 07/37] lintFix

---
 .../src/datahub/ingestion/source/mlflow.py    | 70 +++++++++----------
 1 file changed, 34 insertions(+), 36 deletions(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index 3d428537a00524..e800efcc690de1 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -7,7 +7,6 @@
 from mlflow.entities.model_registry import ModelVersion, RegisteredModel
 from mlflow.store.entities import PagedList
 from pydantic.fields import Field
-from datahub.ingestion.graph.client import get_default_graph
 
 import datahub.emitter.mce_builder as builder
 from datahub.api.entities.dataprocess.dataprocess_instance import (
@@ -26,9 +25,11 @@
 )
 from datahub.ingestion.api.source import Source, SourceCapability, SourceReport
 from datahub.ingestion.api.workunit import MetadataWorkUnit
+from datahub.ingestion.graph.client import get_default_graph
 from datahub.metadata.schema_classes import (
     AuditStampClass,
     BrowsePathsV2Class,
+    ContainerClass,
     ContainerPropertiesClass,
     DataPlatformInstanceClass,
     DataProcessInstanceOutputClass,
@@ -48,11 +49,9 @@
     TagPropertiesClass,
     TimeStampClass,
     VersionPropertiesClass,
+    VersionSetKeyClass,
     VersionSetPropertiesClass,
     VersionTagClass,
-    VersionSetKeyClass,
-    ContainerClass,
-    ContainerKeyClass,
 )
 from datahub.metadata.urns import (
     DataPlatformUrn,
@@ -126,6 +125,7 @@ class MLflowEntityMap:
     """
     Maintains mappings between MLflow IDs and DataHub URNs during ingestion.
     """
+
     experiment_id_to_urn: Dict[str, str] = field(default_factory=dict)
     run_id_to_urn: Dict[str, str] = field(default_factory=dict)
     model_version_to_urn: Dict[str, str] = field(default_factory=dict)
@@ -277,11 +277,10 @@ def _convert_run_result_type(
             )
 
     def _get_run_workunits(
-            self, experiment: Experiment, run: Run
+        self, experiment: Experiment, run: Run
     ) -> List[MetadataWorkUnit]:
         experiment_key = ContainerKeyWithId(
-            platform=str(DataPlatformUrn.create_from_id("mlflow")),
-            id=experiment.name
+            platform=str(DataPlatformUrn.create_from_id("mlflow")), id=experiment.name
         )
 
         dpi_id = run.info.run_name or run.info.run_id
@@ -318,9 +317,7 @@ def _get_run_workunits(
         workunits.append(
             MetadataChangeProposalWrapper(
                 entityUrn=str(data_process_instance.urn),
-                aspect=ContainerClass(
-                    container=experiment_key.as_urn()
-                ),
+                aspect=ContainerClass(container=experiment_key.as_urn()),
             ).as_workunit()
         )
 
@@ -488,7 +485,12 @@ def _get_mlflow_run(self, model_version: ModelVersion) -> Union[None, Run]:
     class SequencedMetadataWorkUnit(MetadataWorkUnit):
         """A workunit that knows its dependencies"""
 
-        def __init__(self, id: str, mcp: MetadataChangeProposalWrapper, depends_on: Optional[str] = None):
+        def __init__(
+            self,
+            id: str,
+            mcp: MetadataChangeProposalWrapper,
+            depends_on: Optional[str] = None,
+        ):
             super().__init__(id=id, mcp=mcp)
             self.depends_on = depends_on
 
@@ -518,60 +520,56 @@ def _get_ml_model_workunits(self) -> Iterable[MetadataWorkUnit]:
                 # )
                 yield self._get_global_tags_workunit(model_version=model_version)
 
-
-    def _get_version_set_urn(self,
-                         model_version: ModelVersion,
-                         ) -> VersionSetUrn:
-
+    def _get_version_set_urn(
+        self,
+        model_version: ModelVersion,
+    ) -> VersionSetUrn:
         version_set_urn = VersionSetUrn(
             id=f"{model_version.name}{self.config.model_name_separator}{model_version.version}",
-            entity_type="mlModel"
+            entity_type="mlModel",
         )
 
         return version_set_urn
+
     def _get_version_set(
-            self,
-            version_set_urn: VersionSetUrn,
+        self,
+        version_set_urn: VersionSetUrn,
     ) -> MetadataWorkUnit:
-
         version_set_key = VersionSetKeyClass(
             id=version_set_urn.id,
             entityType="mlModel",
         )
 
         wu = MetadataChangeProposalWrapper(
-                entityUrn=str(version_set_urn),
-                aspect=version_set_key,
+            entityUrn=str(version_set_urn),
+            aspect=version_set_key,
         ).as_workunit()
 
         return wu
 
-    def _get_version_latest(self
-                            , model_version: ModelVersion
-                            , version_set_urn: VersionSetUrn
-                            ) -> MetadataWorkUnit:
+    def _get_version_latest(
+        self, model_version: ModelVersion, version_set_urn: VersionSetUrn
+    ) -> MetadataWorkUnit:
         ml_model_urn = self._make_ml_model_urn(model_version)
         version_set_properties = VersionSetPropertiesClass(
             latest=str(
                 ml_model_urn
             ),  # TODO: this returns cannot set latest to unversioned entity
-            versioningScheme="ALPHANUMERIC_GENERATED_BY_DATAHUB", # TODO: wait for change in the backend
+            versioningScheme="ALPHANUMERIC_GENERATED_BY_DATAHUB",  # TODO: wait for change in the backend
         )
 
         wu = MetadataChangeProposalWrapper(
-                entityUrn=str(version_set_urn),
-                aspect=version_set_properties,
-            ).as_workunit()
-
+            entityUrn=str(version_set_urn),
+            aspect=version_set_properties,
+        ).as_workunit()
 
         return wu
 
     def _get_ml_model_version_properties_workunit(
-            self,
-            model_version: ModelVersion,
-            version_set_urn: VersionSetUrn,
+        self,
+        model_version: ModelVersion,
+        version_set_urn: VersionSetUrn,
     ) -> List[MetadataWorkUnit]:
-
         ml_model_urn = self._make_ml_model_urn(model_version)
 
         # get mlmodel name from ml model urn
@@ -580,7 +578,7 @@ def _get_ml_model_version_properties_workunit(
                 versionTag=str(model_version.version),
             ),
             versionSet=str(version_set_urn),
-            sortId='AAAAAAAA',  # TODO: wait for change in the backend
+            sortId="AAAAAAAA",  # TODO: wait for change in the backend
             aliases=[
                 VersionTagClass(versionTag=alias) for alias in model_version.aliases
             ],

From 2dec34ca262f880d972bbc8f3e2335ef7be566a9 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Mon, 17 Feb 2025 15:34:04 +0900
Subject: [PATCH 08/37] fix mypy

---
 .../src/datahub/ingestion/source/mlflow.py    | 21 +++++++++----------
 1 file changed, 10 insertions(+), 11 deletions(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index e800efcc690de1..b46a3103505ffc 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -38,7 +38,6 @@
     DataProcessInstanceRunResultClass,
     DataProcessRunStatusClass,
     GlobalTagsClass,
-    MetadataChangeProposalClass,
     MLHyperParamClass,
     MLMetricClass,
     MLModelGroupPropertiesClass,
@@ -74,7 +73,7 @@ class Container:
 
     def generate_mcp(
         self,
-    ) -> Iterable[Union[MetadataChangeProposalClass, MetadataChangeProposalWrapper]]:
+    ) -> Iterable[MetadataChangeProposalWrapper]:
         container_urn = self.key.as_urn()
 
         container_subtype = SubTypesClass(typeNames=[self.subtype])
@@ -245,17 +244,17 @@ def _get_experiment_container_workunit(
         workunits = [mcp.as_workunit() for mcp in experiment_container.generate_mcp()]
         return workunits
 
-    def _get_run_custom_properties(self, run: Run):
-        custom_props = {}
+    def _get_run_custom_properties(self, run: Run) -> Dict[str, str]:
+        custom_props: dict[str, str] = {}
         custom_props.update(getattr(run, "tags", {}) or {})
         return custom_props
 
-    def _get_run_metrics(self, run: Run):
+    def _get_run_metrics(self, run: Run) -> List[MLMetricClass]:
         return [
             MLMetricClass(name=k, value=str(v)) for k, v in run.data.metrics.items()
         ]
 
-    def _get_run_params(self, run: Run):
+    def _get_run_params(self, run: Run) -> List[MLHyperParamClass]:
         return [
             MLHyperParamClass(name=k, value=str(v)) for k, v in run.data.params.items()
         ]
@@ -296,7 +295,7 @@ def _get_run_workunits(
         run_custom_props = self._get_run_custom_properties(run)
         created_time = run.info.start_time or int(time.time() * 1000)
         created_actor = (
-            f"urn:li:platformResource:{run.info.user_id}" if run.info.user_id else None
+            f"urn:li:platformResource:{run.info.user_id}" if run.info.user_id else ""
         )
 
         workunits.append(
@@ -394,8 +393,8 @@ def _get_mlflow_experiments(self) -> Iterable[Experiment]:
         )
         return experiments
 
-    def _get_mlflow_runs_from_experiment(self, experiment: Experiment) -> List[Run]:
-        runs: List[Run] = self._traverse_mlflow_search_func(
+    def _get_mlflow_runs_from_experiment(self, experiment: Experiment) -> Iterable[Run]:
+        runs: Iterable[Run] = self._traverse_mlflow_search_func(
             search_func=self.client.search_runs,
             experiment_ids=[experiment.experiment_id],
         )
@@ -569,7 +568,7 @@ def _get_ml_model_version_properties_workunit(
         self,
         model_version: ModelVersion,
         version_set_urn: VersionSetUrn,
-    ) -> List[MetadataWorkUnit]:
+    ) -> MetadataWorkUnit:
         ml_model_urn = self._make_ml_model_urn(model_version)
 
         # get mlmodel name from ml model urn
@@ -687,6 +686,6 @@ def _get_global_tags_workunit(
         return wu
 
     @classmethod
-    def create(cls, config_dict: dict, ctx: PipelineContext) -> Source:
+    def create(cls, config_dict: dict, ctx: PipelineContext) -> "MLflowSource":
         config = MLflowConfig.parse_obj(config_dict)
         return cls(ctx, config)

From 1932262318c77210d2cdeaf92ba29dba3c947380 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Mon, 17 Feb 2025 18:47:21 +0900
Subject: [PATCH 09/37] fix lint

---
 metadata-ingestion/src/datahub/ingestion/source/mlflow.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index b46a3103505ffc..7368bcf54048b9 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -245,7 +245,7 @@ def _get_experiment_container_workunit(
         return workunits
 
     def _get_run_custom_properties(self, run: Run) -> Dict[str, str]:
-        custom_props: dict[str, str] = {}
+        custom_props: Dict[str, str] = {}
         custom_props.update(getattr(run, "tags", {}) or {})
         return custom_props
 

From 7a83011e5bd140dda28d3885ebce07443adf59b1 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Tue, 18 Feb 2025 00:01:33 +0900
Subject: [PATCH 10/37] revert unwanted changes

---
 .../src/datahub/ingestion/source/mlflow.py    | 58 +++++++++++++++++++
 1 file changed, 58 insertions(+)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index 7368bcf54048b9..a10e82f9f59dfa 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -110,6 +110,14 @@ class MLflowConfig(EnvConfigMixin):
         default="_",
         description="A string which separates model name from its version (e.g. model_1 or model-1)",
     )
+    base_external_url: Optional[str] = Field(
+        default=None,
+        description=(
+            "Base URL to use when constructing external URLs to MLflow."
+            " If not set, tracking_uri is used if it's an HTTP URL."
+            " If neither is set, external URLs are not generated."
+        ),
+    )
 
 
 @dataclass
@@ -183,6 +191,9 @@ def get_workunits_internal(self) -> Iterable[MetadataWorkUnit]:
         yield from self._get_ml_model_workunits()
 
     def _get_tags_workunits(self) -> Iterable[MetadataWorkUnit]:
+        """
+        Create tags for each Stage in MLflow Model Registry.
+        """
         for stage_info in self.registered_model_stages_info:
             tag_urn = self._make_stage_tag_urn(stage_info.name)
             tag_properties = TagPropertiesClass(
@@ -202,6 +213,9 @@ def _make_stage_tag_name(self, stage_name: str) -> str:
         return f"{self.platform}_{stage_name.lower()}"
 
     def _create_workunit(self, urn: str, aspect: Any) -> MetadataWorkUnit:
+        """
+        Utility to create an MCP workunit.
+        """
         return MetadataChangeProposalWrapper(
             entityUrn=urn,
             aspect=aspect,
@@ -380,6 +394,9 @@ def _get_run_workunits(
         return workunits
 
     def _get_mlflow_registered_models(self) -> Iterable[RegisteredModel]:
+        """
+        Get all Registered Models in MLflow Model Registry.
+        """
         registered_models: Iterable[RegisteredModel] = (
             self._traverse_mlflow_search_func(
                 search_func=self.client.search_registered_models,
@@ -405,6 +422,9 @@ def _traverse_mlflow_search_func(
         search_func: Callable[..., PagedList[T]],
         **kwargs: Any,
     ) -> Iterable[T]:
+        """
+        Utility to traverse an MLflow search_* functions which return PagedList.
+        """
         next_page_token = None
         while True:
             paged_list = search_func(page_token=next_page_token, **kwargs)
@@ -424,6 +444,9 @@ def _get_ml_group_workunit(
         self,
         registered_model: RegisteredModel,
     ) -> MetadataWorkUnit:
+        """
+        Generate an MLModelGroup workunit for an MLflow Registered Model.
+        """
         ml_model_group_urn = self._make_ml_model_group_urn(registered_model)
         ml_model_group_properties = MLModelGroupPropertiesClass(
             customProperties=registered_model.tags,
@@ -457,6 +480,9 @@ def _get_mlflow_model_versions(
         self,
         registered_model: RegisteredModel,
     ) -> Iterable[ModelVersion]:
+        """
+        Get all Model Versions for each Registered Model.
+        """
         filter_string = f"name = '{registered_model.name}'"
         model_versions: Iterable[ModelVersion] = self._traverse_mlflow_search_func(
             search_func=self.client.search_model_versions,
@@ -475,6 +501,9 @@ def get_mlflow_model_versions_from_run(self, run_id):
         return list(model_versions)
 
     def _get_mlflow_run(self, model_version: ModelVersion) -> Union[None, Run]:
+        """
+        Get a Run associated with a Model Version. Some MVs may exist without Run.
+        """
         if model_version.run_id:
             run = self.client.get_run(model_version.run_id)
             return run
@@ -494,6 +523,9 @@ def __init__(
             self.depends_on = depends_on
 
     def _get_ml_model_workunits(self) -> Iterable[MetadataWorkUnit]:
+        """
+        Traverse each Registered Model in Model Registry and generate a corresponding workunit.
+        """
         registered_models = self._get_mlflow_registered_models()
         for registered_model in registered_models:
             yield self._get_ml_group_workunit(registered_model)
@@ -596,6 +628,11 @@ def _get_ml_model_properties_workunit(
         model_version: ModelVersion,
         run: Union[None, Run],
     ) -> MetadataWorkUnit:
+        """
+        Generate an MLModel workunit for an MLflow Model Version.
+        Every Model Version is a DataHub MLModel entity associated with an MLModelGroup corresponding to a Registered Model.
+        If a model was registered without an associated Run then hyperparams and metrics are not available.
+        """
         ml_model_group_urn = self._make_ml_model_group_urn(registered_model)
         ml_model_urn = self._make_ml_model_urn(model_version)
 
@@ -656,6 +693,27 @@ def _make_external_url_from_model_version(
         else:
             return None
 
+    def _get_base_external_url_from_tracking_uri(self) -> Optional[str]:
+        if isinstance(
+            self.client.tracking_uri, str
+        ) and self.client.tracking_uri.startswith("http"):
+            return self.client.tracking_uri
+        else:
+            return None
+
+    def _make_external_url(self, model_version: ModelVersion) -> Optional[str]:
+        """
+        Generate URL for a Model Version to MLflow UI.
+        """
+        base_uri = (
+            self.config.base_external_url
+            or self._get_base_external_url_from_tracking_uri()
+        )
+        if base_uri:
+            return f"{base_uri.rstrip('/')}/#/models/{model_version.name}/versions/{model_version.version}"
+        else:
+            return None
+
     def _make_external_url_from_run(
         self, experiment: Experiment, run: Run
     ) -> Union[None, str]:

From ecbac5ce3fb218e694de6abf37f0ab74c57c76f8 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Tue, 18 Feb 2025 00:03:14 +0900
Subject: [PATCH 11/37] revert back unwanted files

---
 .../ai/dh_ai_client_sample_file_emitter.py    | 134 ------------------
 .../recipes/mlflow_mcps_from_sdk.json         |   0
 2 files changed, 134 deletions(-)
 delete mode 100644 metadata-ingestion/examples/ai/dh_ai_client_sample_file_emitter.py
 delete mode 100644 metadata-ingestion/examples/recipes/mlflow_mcps_from_sdk.json

diff --git a/metadata-ingestion/examples/ai/dh_ai_client_sample_file_emitter.py b/metadata-ingestion/examples/ai/dh_ai_client_sample_file_emitter.py
deleted file mode 100644
index ec74256695639f..00000000000000
--- a/metadata-ingestion/examples/ai/dh_ai_client_sample_file_emitter.py
+++ /dev/null
@@ -1,134 +0,0 @@
-import argparse
-
-from dh_ai_client import DatahubAIClient
-
-import datahub.metadata.schema_classes as models
-from datahub.metadata.com.linkedin.pegasus2avro.dataprocess import RunResultType
-
-if __name__ == "__main__":
-    # Example usage
-    parser = argparse.ArgumentParser()
-    parser.add_argument("--token", required=False, help="DataHub access token")
-    parser.add_argument(
-        "--server_url",
-        required=False,
-        default="http://localhost:8080",
-        help="DataHub server URL (defaults to http://localhost:8080)",
-    )
-    args = parser.parse_args()
-
-    client = DatahubAIClient(token=args.token, server_url=args.server_url)
-
-    # Create model group
-    # model_group_urn = client.create_model_group(
-    #     group_id="airline_forecast_models_group",
-    #     properties=models.MLModelGroupPropertiesClass(
-    #         name="Airline Forecast Models Group",
-    #         description="Group of models for airline passenger forecasting",
-    #         created=models.TimeStampClass(
-    #             time=1628580000000, actor="urn:li:corpuser:datahub"
-    #         ),
-    #     ),
-    # )
-    #
-    # # Creating a model with property classes
-    # model_urn = client.create_model(
-    #     model_id="arima_model",
-    #     properties=models.MLModelPropertiesClass(
-    #         name="ARIMA Model",
-    #         description="ARIMA model for airline passenger forecasting",
-    #         customProperties={"team": "forecasting"},
-    #         trainingMetrics=[
-    #             models.MLMetricClass(name="accuracy", value="0.9"),
-    #             models.MLMetricClass(name="precision", value="0.8"),
-    #         ],
-    #         hyperParams=[
-    #             models.MLHyperParamClass(name="learning_rate", value="0.01"),
-    #             models.MLHyperParamClass(name="batch_size", value="32"),
-    #         ],
-    #         externalUrl="https:localhost:5000",
-    #         created=models.TimeStampClass(
-    #             time=1628580000000, actor="urn:li:corpuser:datahub"
-    #         ),
-    #         lastModified=models.TimeStampClass(
-    #             time=1628580000000, actor="urn:li:corpuser:datahub"
-    #         ),
-    #         tags=["forecasting", "arima"],
-    #     ),
-    #     version="1.0",
-    #     alias="champion",
-    # )
-
-    # Creating an experiment with property class
-    experiment_urn = client.create_experiment(
-        experiment_id="airline_forecast_experiment",
-        properties=models.ContainerPropertiesClass(
-            name="Airline Forecast Experiment",
-            description="Experiment to forecast airline passenger numbers",
-            customProperties={"team": "forecasting"},
-            created=models.TimeStampClass(
-                time=1628580000000, actor="urn:li:corpuser:datahub"
-            ),
-            lastModified=models.TimeStampClass(
-                time=1628580000000, actor="urn:li:corpuser:datahub"
-            ),
-        ),
-    )
-
-    run_urn = client.create_training_run(
-        run_id="simple_training_run",
-        properties=models.DataProcessInstancePropertiesClass(
-            name="Simple Training Run",
-            created=models.AuditStampClass(
-                time=1628580000000, actor="urn:li:corpuser:datahub"
-            ),
-            customProperties={"team": "forecasting"},
-        ),
-        training_run_properties=models.MLTrainingRunPropertiesClass(
-            id="simple_training_run",
-            outputUrls=["s3://my-bucket/output"],
-            trainingMetrics=[models.MLMetricClass(name="accuracy", value="0.9")],
-            hyperParams=[models.MLHyperParamClass(name="learning_rate", value="0.01")],
-            externalUrl="https:localhost:5000",
-        ),
-        run_result=RunResultType.FAILURE,
-        start_timestamp=1628580000000,
-        end_timestamp=1628580001000,
-    )
-    # Create datasets
-    # input_dataset_urn = client.create_dataset(
-    #     platform="snowflake",
-    #     name="iris_input",
-    # )
-    #
-    # output_dataset_urn = client.create_dataset(
-    #     platform="snowflake",
-    #     name="iris_ouptut",
-    # )
-
-    # Add run to experiment
-    client.add_run_to_experiment(run_urn=run_urn, experiment_urn=experiment_urn)
-
-    # Add model to model group
-    # client.add_model_to_model_group(model_urn=model_urn, group_urn=model_group_urn)
-    #
-    # # Add run to model
-    # client.add_run_to_model(
-    #     model_urn=model_urn,
-    #     run_urn=run_urn,
-    # )
-    #
-    # # add run to model group
-    # client.add_run_to_model_group(
-    #     model_group_urn=model_group_urn,
-    #     run_urn=run_urn,
-    # )
-
-    # Add input and output datasets to run
-    # client.add_input_datasets_to_run(
-    #     run_urn=run_urn, dataset_urns=[str(input_dataset_urn)]
-    # )
-    #
-    # client.add_output_datasets_to_run(
-    #     run_urn=run_urn, dataset_urns=[str(output_dataset_urn)]
-    # )
diff --git a/metadata-ingestion/examples/recipes/mlflow_mcps_from_sdk.json b/metadata-ingestion/examples/recipes/mlflow_mcps_from_sdk.json
deleted file mode 100644
index e69de29bb2d1d6..00000000000000

From bdeb2069fffc165d3c719bd9e74e404ab7828431 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Tue, 18 Feb 2025 16:08:19 +0900
Subject: [PATCH 12/37] add cypress test on experiment & runs

---
 .../cypress/cypress/e2e/ml/experiment.js      |  49 +++++++++
 smoke-test/tests/cypress/data.json            | 101 ++++++++++++++++++
 2 files changed, 150 insertions(+)
 create mode 100644 smoke-test/tests/cypress/cypress/e2e/ml/experiment.js

diff --git a/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js b/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
new file mode 100644
index 00000000000000..e48052f368c119
--- /dev/null
+++ b/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
@@ -0,0 +1,49 @@
+describe("experiment", () => {
+  it("can visit experiment end run", () => {
+    cy.visit("/");
+    cy.login();
+//    replace the following line with the correct URL
+    cy.visit(
+      "/container/urn:li:container:airline_forecast_experiment/Summary?is_lineage_mode=false",
+    );
+
+    // the experiment has subtypes and platform
+    cy.contains("ML Experiment");
+    cy.contains("MLflow");
+    // the model has its name and description
+    cy.contains("Airline Forecast Experiment");
+    cy.contains("Experiment to forecast airline passenger numbers")
+
+    // the model has a training run
+    cy.contains("Simple Training Run").click();
+    cy.contains("ML Training Run");
+    cy.contains("Airline Forecast Experiment");
+  });
+
+  it("can visit container and run", () => {
+    cy.visit("/");
+    cy.login();
+    cy.visit(
+      "/dataProcessInstance/urn:li:dataProcessInstance:simple_training_run",
+    );
+    // the run has subtype, na
+    cy.contains("ML Training Run")
+    cy.contains("Simple Training Run");
+
+    // the run has its details
+    cy.contains("Failure");
+    cy.contains("1 secs"); // TODO: should be 1 sec
+    cy.contains("simple_training_run");
+    cy.contains("urn:li:corpuser:datahub");
+    cy.contains("s3://my-bucket/output")
+
+    // the run has its metrics and parameters
+    cy.contains("accuracy");
+    cy.contains("learning_rate");
+
+    // the run has a container and can visit it
+    cy.contains("Airline Forecast Experiment").click();
+    cy.contains("ML Experiment");
+    cy.contains("Simple Training Run")
+  });
+});
diff --git a/smoke-test/tests/cypress/data.json b/smoke-test/tests/cypress/data.json
index 8d4ab371d30bf9..8f2917c3201a89 100644
--- a/smoke-test/tests/cypress/data.json
+++ b/smoke-test/tests/cypress/data.json
@@ -2581,5 +2581,106 @@
       "contentType": "application/json"
     },
     "systemMetadata": null
+  },
+  {
+      "entityType": "container",
+      "entityUrn": "urn:li:container:airline_forecast_experiment",
+      "changeType": "UPSERT",
+      "aspectName": "containerProperties",
+      "aspect": {
+          "json": {
+              "customProperties": {
+                  "team": "forecasting"
+              },
+              "name": "Airline Forecast Experiment",
+              "description": "Experiment to forecast airline passenger numbers",
+              "created": {
+                  "time": 1628580000000,
+                  "actor": "urn:li:corpuser:datahub"
+              },
+              "lastModified": {
+                  "time": 1628580000000,
+                  "actor": "urn:li:corpuser:datahub"
+              }
+          }
+      }
+  },
+  {
+      "entityType": "dataProcessInstance",
+      "entityUrn": "urn:li:dataProcessInstance:simple_training_run",
+      "changeType": "UPSERT",
+      "aspectName": "dataProcessInstanceProperties",
+      "aspect": {
+          "json": {
+              "customProperties": {
+                  "team": "forecasting"
+              },
+              "name": "Simple Training Run",
+              "created": {
+                  "time": 1628580000000,
+                  "actor": "urn:li:corpuser:datahub"
+              }
+          }
+      }
+  },
+  {
+      "entityType": "dataProcessInstance",
+      "entityUrn": "urn:li:dataProcessInstance:simple_training_run",
+      "changeType": "UPSERT",
+      "aspectName": "mlTrainingRunProperties",
+      "aspect": {
+          "json": {
+              "customProperties": {},
+              "externalUrl": "https:localhost:5000",
+              "id": "simple_training_run",
+              "outputUrls": [
+                  "s3://my-bucket/output"
+              ],
+              "hyperParams": [
+                  {
+                      "name": "learning_rate",
+                      "value": "0.01"
+                  }
+              ],
+              "trainingMetrics": [
+                  {
+                      "name": "accuracy",
+                      "value": "0.9"
+                  }
+              ]
+          }
+      }
+  },
+  {
+      "entityType": "dataProcessInstance",
+      "entityUrn": "urn:li:dataProcessInstance:simple_training_run",
+      "changeType": "UPSERT",
+      "aspectName": "dataProcessInstanceRunEvent",
+      "aspect": {
+          "json": {
+              "timestampMillis": 1628580001000,
+              "partitionSpec": {
+                  "partition": "FULL_TABLE_SNAPSHOT",
+                  "type": "FULL_TABLE"
+              },
+              "status": "COMPLETE",
+              "result": {
+                  "type": "FAILURE",
+                  "nativeResultType": "mlflow"
+              },
+              "durationMillis": 1000
+          }
+      }
+  },
+  {
+      "entityType": "dataProcessInstance",
+      "entityUrn": "urn:li:dataProcessInstance:simple_training_run",
+      "changeType": "UPSERT",
+      "aspectName": "container",
+      "aspect": {
+          "json": {
+              "container": "urn:li:container:airline_forecast_experiment"
+          }
+      }
   }
 ]

From b592b512b1ae6902a8f66e08672d1a5bcb2998f0 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Tue, 18 Feb 2025 17:21:12 +0900
Subject: [PATCH 13/37] fix cypress lint

---
 .../cypress/cypress/e2e/ml/experiment.js      |  10 +-
 smoke-test/tests/cypress/data.json            | 168 +++++++++---------
 2 files changed, 88 insertions(+), 90 deletions(-)

diff --git a/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js b/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
index e48052f368c119..fa11e61eef2d60 100644
--- a/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
+++ b/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
@@ -2,7 +2,7 @@ describe("experiment", () => {
   it("can visit experiment end run", () => {
     cy.visit("/");
     cy.login();
-//    replace the following line with the correct URL
+    //    replace the following line with the correct URL
     cy.visit(
       "/container/urn:li:container:airline_forecast_experiment/Summary?is_lineage_mode=false",
     );
@@ -12,7 +12,7 @@ describe("experiment", () => {
     cy.contains("MLflow");
     // the model has its name and description
     cy.contains("Airline Forecast Experiment");
-    cy.contains("Experiment to forecast airline passenger numbers")
+    cy.contains("Experiment to forecast airline passenger numbers");
 
     // the model has a training run
     cy.contains("Simple Training Run").click();
@@ -27,7 +27,7 @@ describe("experiment", () => {
       "/dataProcessInstance/urn:li:dataProcessInstance:simple_training_run",
     );
     // the run has subtype, na
-    cy.contains("ML Training Run")
+    cy.contains("ML Training Run");
     cy.contains("Simple Training Run");
 
     // the run has its details
@@ -35,7 +35,7 @@ describe("experiment", () => {
     cy.contains("1 secs"); // TODO: should be 1 sec
     cy.contains("simple_training_run");
     cy.contains("urn:li:corpuser:datahub");
-    cy.contains("s3://my-bucket/output")
+    cy.contains("s3://my-bucket/output");
 
     // the run has its metrics and parameters
     cy.contains("accuracy");
@@ -44,6 +44,6 @@ describe("experiment", () => {
     // the run has a container and can visit it
     cy.contains("Airline Forecast Experiment").click();
     cy.contains("ML Experiment");
-    cy.contains("Simple Training Run")
+    cy.contains("Simple Training Run");
   });
 });
diff --git a/smoke-test/tests/cypress/data.json b/smoke-test/tests/cypress/data.json
index 8f2917c3201a89..3511de902df4d3 100644
--- a/smoke-test/tests/cypress/data.json
+++ b/smoke-test/tests/cypress/data.json
@@ -2583,104 +2583,102 @@
     "systemMetadata": null
   },
   {
-      "entityType": "container",
-      "entityUrn": "urn:li:container:airline_forecast_experiment",
-      "changeType": "UPSERT",
-      "aspectName": "containerProperties",
-      "aspect": {
-          "json": {
-              "customProperties": {
-                  "team": "forecasting"
-              },
-              "name": "Airline Forecast Experiment",
-              "description": "Experiment to forecast airline passenger numbers",
-              "created": {
-                  "time": 1628580000000,
-                  "actor": "urn:li:corpuser:datahub"
-              },
-              "lastModified": {
-                  "time": 1628580000000,
-                  "actor": "urn:li:corpuser:datahub"
-              }
-          }
+    "entityType": "container",
+    "entityUrn": "urn:li:container:airline_forecast_experiment",
+    "changeType": "UPSERT",
+    "aspectName": "containerProperties",
+    "aspect": {
+      "json": {
+        "customProperties": {
+          "team": "forecasting"
+        },
+        "name": "Airline Forecast Experiment",
+        "description": "Experiment to forecast airline passenger numbers",
+        "created": {
+          "time": 1628580000000,
+          "actor": "urn:li:corpuser:datahub"
+        },
+        "lastModified": {
+          "time": 1628580000000,
+          "actor": "urn:li:corpuser:datahub"
+        }
       }
+    }
   },
   {
-      "entityType": "dataProcessInstance",
-      "entityUrn": "urn:li:dataProcessInstance:simple_training_run",
-      "changeType": "UPSERT",
-      "aspectName": "dataProcessInstanceProperties",
-      "aspect": {
-          "json": {
-              "customProperties": {
-                  "team": "forecasting"
-              },
-              "name": "Simple Training Run",
-              "created": {
-                  "time": 1628580000000,
-                  "actor": "urn:li:corpuser:datahub"
-              }
-          }
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:simple_training_run",
+    "changeType": "UPSERT",
+    "aspectName": "dataProcessInstanceProperties",
+    "aspect": {
+      "json": {
+        "customProperties": {
+          "team": "forecasting"
+        },
+        "name": "Simple Training Run",
+        "created": {
+          "time": 1628580000000,
+          "actor": "urn:li:corpuser:datahub"
+        }
       }
+    }
   },
   {
-      "entityType": "dataProcessInstance",
-      "entityUrn": "urn:li:dataProcessInstance:simple_training_run",
-      "changeType": "UPSERT",
-      "aspectName": "mlTrainingRunProperties",
-      "aspect": {
-          "json": {
-              "customProperties": {},
-              "externalUrl": "https:localhost:5000",
-              "id": "simple_training_run",
-              "outputUrls": [
-                  "s3://my-bucket/output"
-              ],
-              "hyperParams": [
-                  {
-                      "name": "learning_rate",
-                      "value": "0.01"
-                  }
-              ],
-              "trainingMetrics": [
-                  {
-                      "name": "accuracy",
-                      "value": "0.9"
-                  }
-              ]
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:simple_training_run",
+    "changeType": "UPSERT",
+    "aspectName": "mlTrainingRunProperties",
+    "aspect": {
+      "json": {
+        "customProperties": {},
+        "externalUrl": "https:localhost:5000",
+        "id": "simple_training_run",
+        "outputUrls": ["s3://my-bucket/output"],
+        "hyperParams": [
+          {
+            "name": "learning_rate",
+            "value": "0.01"
           }
+        ],
+        "trainingMetrics": [
+          {
+            "name": "accuracy",
+            "value": "0.9"
+          }
+        ]
       }
+    }
   },
   {
-      "entityType": "dataProcessInstance",
-      "entityUrn": "urn:li:dataProcessInstance:simple_training_run",
-      "changeType": "UPSERT",
-      "aspectName": "dataProcessInstanceRunEvent",
-      "aspect": {
-          "json": {
-              "timestampMillis": 1628580001000,
-              "partitionSpec": {
-                  "partition": "FULL_TABLE_SNAPSHOT",
-                  "type": "FULL_TABLE"
-              },
-              "status": "COMPLETE",
-              "result": {
-                  "type": "FAILURE",
-                  "nativeResultType": "mlflow"
-              },
-              "durationMillis": 1000
-          }
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:simple_training_run",
+    "changeType": "UPSERT",
+    "aspectName": "dataProcessInstanceRunEvent",
+    "aspect": {
+      "json": {
+        "timestampMillis": 1628580001000,
+        "partitionSpec": {
+          "partition": "FULL_TABLE_SNAPSHOT",
+          "type": "FULL_TABLE"
+        },
+        "status": "COMPLETE",
+        "result": {
+          "type": "FAILURE",
+          "nativeResultType": "mlflow"
+        },
+        "durationMillis": 1000
       }
+    }
   },
   {
-      "entityType": "dataProcessInstance",
-      "entityUrn": "urn:li:dataProcessInstance:simple_training_run",
-      "changeType": "UPSERT",
-      "aspectName": "container",
-      "aspect": {
-          "json": {
-              "container": "urn:li:container:airline_forecast_experiment"
-          }
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:simple_training_run",
+    "changeType": "UPSERT",
+    "aspectName": "container",
+    "aspect": {
+      "json": {
+        "container": "urn:li:container:airline_forecast_experiment"
       }
+    }
   }
 ]

From 5d4563273377208fd355d8e23a14e71b2425b074 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Tue, 18 Feb 2025 17:28:13 +0900
Subject: [PATCH 14/37] fix cypress lint

---
 smoke-test/tests/cypress/cypress/e2e/ml/experiment.js | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js b/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
index fa11e61eef2d60..9126ea4377790e 100644
--- a/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
+++ b/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
@@ -2,7 +2,7 @@ describe("experiment", () => {
   it("can visit experiment end run", () => {
     cy.visit("/");
     cy.login();
-    //    replace the following line with the correct URL
+    // replace the following line with the correct URL
     cy.visit(
       "/container/urn:li:container:airline_forecast_experiment/Summary?is_lineage_mode=false",
     );
@@ -26,6 +26,7 @@ describe("experiment", () => {
     cy.visit(
       "/dataProcessInstance/urn:li:dataProcessInstance:simple_training_run",
     );
+
     // the run has subtype, na
     cy.contains("ML Training Run");
     cy.contains("Simple Training Run");

From 772548fdd66eb21c7a0cfc3eb599d7b8d419e09d Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Wed, 19 Feb 2025 09:51:25 +0900
Subject: [PATCH 15/37] update golden files

---
 .../src/datahub/ingestion/source/mlflow.py    |   2 -
 .../mlflow/mlflow_mcps_golden.json            | 422 +++++++++++++++++-
 2 files changed, 405 insertions(+), 19 deletions(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index a10e82f9f59dfa..5d2885a03ec4ed 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -25,7 +25,6 @@
 )
 from datahub.ingestion.api.source import Source, SourceCapability, SourceReport
 from datahub.ingestion.api.workunit import MetadataWorkUnit
-from datahub.ingestion.graph.client import get_default_graph
 from datahub.metadata.schema_classes import (
     AuditStampClass,
     BrowsePathsV2Class,
@@ -180,7 +179,6 @@ def __init__(self, ctx: PipelineContext, config: MLflowConfig):
             registry_uri=self.config.registry_uri,
         )
         self.entity_map = MLflowEntityMap()
-        self.graph = get_default_graph()
 
     def get_report(self) -> SourceReport:
         return self.report
diff --git a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
index c70625c74d9983..a26e7ec4fe084c 100644
--- a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
+++ b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
@@ -13,7 +13,8 @@
     },
     "systemMetadata": {
         "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test"
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
     }
 },
 {
@@ -30,7 +31,8 @@
     },
     "systemMetadata": {
         "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test"
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
     }
 },
 {
@@ -47,7 +49,8 @@
     },
     "systemMetadata": {
         "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test"
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
     }
 },
 {
@@ -64,7 +67,142 @@
     },
     "systemMetadata": {
         "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test"
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "container",
+    "entityUrn": "urn:li:container:03d28ec52349332a202a252cb2388d83",
+    "changeType": "UPSERT",
+    "aspectName": "subTypes",
+    "aspect": {
+        "json": {
+            "typeNames": [
+                "ML Experiment"
+            ]
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "container",
+    "entityUrn": "urn:li:container:03d28ec52349332a202a252cb2388d83",
+    "changeType": "UPSERT",
+    "aspectName": "containerProperties",
+    "aspect": {
+        "json": {
+            "customProperties": {},
+            "name": "Default"
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "container",
+    "entityUrn": "urn:li:container:03d28ec52349332a202a252cb2388d83",
+    "changeType": "UPSERT",
+    "aspectName": "dataPlatformInstance",
+    "aspect": {
+        "json": {
+            "platform": "urn:li:dataPlatform:mlflow"
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "container",
+    "entityUrn": "urn:li:container:03d28ec52349332a202a252cb2388d83",
+    "changeType": "UPSERT",
+    "aspectName": "browsePathsV2",
+    "aspect": {
+        "json": {
+            "path": []
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "container",
+    "entityUrn": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815",
+    "changeType": "UPSERT",
+    "aspectName": "subTypes",
+    "aspect": {
+        "json": {
+            "typeNames": [
+                "ML Experiment"
+            ]
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "container",
+    "entityUrn": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815",
+    "changeType": "UPSERT",
+    "aspectName": "containerProperties",
+    "aspect": {
+        "json": {
+            "customProperties": {},
+            "name": "test-experiment"
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "container",
+    "entityUrn": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815",
+    "changeType": "UPSERT",
+    "aspectName": "dataPlatformInstance",
+    "aspect": {
+        "json": {
+            "platform": "urn:li:dataPlatform:mlflow"
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "container",
+    "entityUrn": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815",
+    "changeType": "UPSERT",
+    "aspectName": "browsePathsV2",
+    "aspect": {
+        "json": {
+            "path": []
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
     }
 },
 {
@@ -79,12 +217,21 @@
                 "model_id": "1"
             },
             "description": "This a test registered model",
-            "createdAt": 1615443388097
+            "created": {
+                "time": 1615443388097
+            },
+            "lastModified": {
+                "time": 1615443388097
+            },
+            "version": {
+                "versionTag": "1"
+            }
         }
     },
     "systemMetadata": {
         "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test"
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
     }
 },
 {
@@ -97,9 +244,14 @@
             "customProperties": {
                 "model_version_id": "1"
             },
-            "date": 1615443388097,
-            "version": {
-                "versionTag": "1"
+            "trainingJobs": [
+                "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f"
+            ],
+            "created": {
+                "time": 1615443388097
+            },
+            "lastModified": {
+                "time": 1615443388097
             },
             "hyperParams": [
                 {
@@ -123,7 +275,8 @@
     },
     "systemMetadata": {
         "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test"
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
     }
 },
 {
@@ -142,7 +295,8 @@
     },
     "systemMetadata": {
         "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test"
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
     }
 },
 {
@@ -157,7 +311,8 @@
     },
     "systemMetadata": {
         "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test"
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
     }
 },
 {
@@ -172,7 +327,8 @@
     },
     "systemMetadata": {
         "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test"
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
     }
 },
 {
@@ -187,7 +343,8 @@
     },
     "systemMetadata": {
         "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test"
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
     }
 },
 {
@@ -202,7 +359,8 @@
     },
     "systemMetadata": {
         "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test"
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
     }
 },
 {
@@ -217,7 +375,29 @@
     },
     "systemMetadata": {
         "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test"
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
+    "changeType": "UPSERT",
+    "aspectName": "dataProcessInstanceProperties",
+    "aspect": {
+        "json": {
+            "customProperties": {},
+            "name": "test-run",
+            "created": {
+                "time": 1615443388097,
+                "actor": "urn:li:platformResource:unknown"
+            }
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
     }
 },
 {
@@ -232,7 +412,215 @@
     },
     "systemMetadata": {
         "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test"
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
+    "changeType": "UPSERT",
+    "aspectName": "dataProcessInstanceOutput",
+    "aspect": {
+        "json": {
+            "outputs": [
+                "urn:li:mlModel:(urn:li:dataPlatform:mlflow,test-model_1,PROD)"
+            ]
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
+    "changeType": "UPSERT",
+    "aspectName": "container",
+    "aspect": {
+        "json": {
+            "container": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815"
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
+    "changeType": "UPSERT",
+    "aspectName": "dataPlatformInstance",
+    "aspect": {
+        "json": {
+            "platform": "urn:li:dataPlatform:mlflow"
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "container",
+    "entityUrn": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815",
+    "changeType": "UPSERT",
+    "aspectName": "status",
+    "aspect": {
+        "json": {
+            "removed": false
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "versionSet",
+    "entityUrn": "urn:li:versionSet:(test-model_1,mlModel)",
+    "changeType": "UPSERT",
+    "aspectName": "versionSetKey",
+    "aspect": {
+        "json": {
+            "id": "test-model_1",
+            "entityType": "mlModel"
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "mlModel",
+    "entityUrn": "urn:li:mlModel:(urn:li:dataPlatform:mlflow,test-model_1,PROD)",
+    "changeType": "UPSERT",
+    "aspectName": "versionProperties",
+    "aspect": {
+        "json": {
+            "versionSet": "urn:li:versionSet:(test-model_1,mlModel)",
+            "version": {
+                "versionTag": "1"
+            },
+            "aliases": [],
+            "sortId": "AAAAAAAA"
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
+    "changeType": "UPSERT",
+    "aspectName": "browsePathsV2",
+    "aspect": {
+        "json": {
+            "path": [
+                {
+                    "id": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815",
+                    "urn": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815"
+                }
+            ]
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
+    "changeType": "UPSERT",
+    "aspectName": "mlTrainingRunProperties",
+    "aspect": {
+        "json": {
+            "customProperties": {},
+            "id": "380b79d9e0ef446ab28e17ad83ae4e7a",
+            "outputUrls": [
+                "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-10/test_ingestion0/mlruns/584402759957605357/380b79d9e0ef446ab28e17ad83ae4e7a/artifacts"
+            ],
+            "hyperParams": [
+                {
+                    "name": "p",
+                    "value": "1"
+                }
+            ],
+            "trainingMetrics": [
+                {
+                    "name": "m",
+                    "value": "0.85"
+                }
+            ]
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "container",
+    "entityUrn": "urn:li:container:03d28ec52349332a202a252cb2388d83",
+    "changeType": "UPSERT",
+    "aspectName": "status",
+    "aspect": {
+        "json": {
+            "removed": false
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
+    "changeType": "UPSERT",
+    "aspectName": "subTypes",
+    "aspect": {
+        "json": {
+            "typeNames": [
+                "ML Training Run"
+            ]
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
+    "changeType": "UPSERT",
+    "aspectName": "status",
+    "aspect": {
+        "json": {
+            "removed": false
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
     }
 }
 ]
\ No newline at end of file

From dcccc617120cb80b6ab37155bf325b4110200822 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Wed, 19 Feb 2025 13:38:05 +0900
Subject: [PATCH 16/37] update golden files

---
 .../tests/integration/mlflow/mlflow_mcps_golden.json          | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
index a26e7ec4fe084c..790ed03b7cb214 100644
--- a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
+++ b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
@@ -549,9 +549,9 @@
     "aspect": {
         "json": {
             "customProperties": {},
-            "id": "380b79d9e0ef446ab28e17ad83ae4e7a",
+            "id": "7aea42adb1eb4e08985b12cf861b2646",
             "outputUrls": [
-                "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-10/test_ingestion0/mlruns/584402759957605357/380b79d9e0ef446ab28e17ad83ae4e7a/artifacts"
+                "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-10/test_ingestion0/mlruns/584402759957605357/380b79d9e0ef446ab28e17ad83ae4e7a/artifacts\" to \"/tmp/pytest-of-runner/pytest-0/test_ingestion0/mlruns/278366188861570188/7aea42adb1eb4e08985b12cf861b2646/artifacts"
             ],
             "hyperParams": [
                 {

From 785e60b01c9194a6eb4fd42c0231456e470c949c Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Wed, 19 Feb 2025 17:25:27 +0900
Subject: [PATCH 17/37] update cypress test

---
 smoke-test/tests/cypress/cypress/e2e/ml/experiment.js | 6 +-----
 1 file changed, 1 insertion(+), 5 deletions(-)

diff --git a/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js b/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
index 9126ea4377790e..765e425fbeb5e6 100644
--- a/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
+++ b/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
@@ -8,7 +8,6 @@ describe("experiment", () => {
     );
 
     // the experiment has subtypes and platform
-    cy.contains("ML Experiment");
     cy.contains("MLflow");
     // the model has its name and description
     cy.contains("Airline Forecast Experiment");
@@ -16,7 +15,6 @@ describe("experiment", () => {
 
     // the model has a training run
     cy.contains("Simple Training Run").click();
-    cy.contains("ML Training Run");
     cy.contains("Airline Forecast Experiment");
   });
 
@@ -28,12 +26,11 @@ describe("experiment", () => {
     );
 
     // the run has subtype, na
-    cy.contains("ML Training Run");
     cy.contains("Simple Training Run");
 
     // the run has its details
     cy.contains("Failure");
-    cy.contains("1 secs"); // TODO: should be 1 sec
+    cy.contains("1 sec");
     cy.contains("simple_training_run");
     cy.contains("urn:li:corpuser:datahub");
     cy.contains("s3://my-bucket/output");
@@ -44,7 +41,6 @@ describe("experiment", () => {
 
     // the run has a container and can visit it
     cy.contains("Airline Forecast Experiment").click();
-    cy.contains("ML Experiment");
     cy.contains("Simple Training Run");
   });
 });

From ca6bded65df7ee47d7f17101b98b42cca7d672e0 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Wed, 19 Feb 2025 17:57:38 +0900
Subject: [PATCH 18/37] fix mlflow test to generate static id/outputurls

---
 .../integration/mlflow/mlflow_mcps_golden.json   |  4 ++--
 .../integration/mlflow/test_mlflow_source.py     | 16 +++++++++++-----
 2 files changed, 13 insertions(+), 7 deletions(-)

diff --git a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
index 790ed03b7cb214..b496e79bb55fec 100644
--- a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
+++ b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
@@ -549,9 +549,9 @@
     "aspect": {
         "json": {
             "customProperties": {},
-            "id": "7aea42adb1eb4e08985b12cf861b2646",
+            "id": "02660a3bee9941ed983667f678ce5611",
             "outputUrls": [
-                "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-10/test_ingestion0/mlruns/584402759957605357/380b79d9e0ef446ab28e17ad83ae4e7a/artifacts\" to \"/tmp/pytest-of-runner/pytest-0/test_ingestion0/mlruns/278366188861570188/7aea42adb1eb4e08985b12cf861b2646/artifacts"
+                "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-28/test_ingestion0/mlruns/733453213330887482/02660a3bee9941ed983667f678ce5611/artifacts"
             ],
             "hyperParams": [
                 {
diff --git a/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py b/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
index 155199d5a04e97..9d6222d3a20e38 100644
--- a/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
+++ b/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
@@ -6,6 +6,7 @@
 
 from datahub.ingestion.run.pipeline import Pipeline
 from tests.test_helpers import mce_helpers
+import uuid
 
 T = TypeVar("T")
 
@@ -41,14 +42,21 @@ def pipeline_config(tracking_uri: str, sink_file_path: str) -> Dict[str, Any]:
 
 
 @pytest.fixture
-def generate_mlflow_data(tracking_uri: str) -> None:
+def generate_mlflow_data(tracking_uri: str, monkeypatch) -> None:
+    test_uuid = "02660a3bee9941ed983667f678ce5611"
+    monkeypatch.setattr(uuid, 'uuid4', lambda: uuid.UUID(test_uuid))
+
     client = MlflowClient(tracking_uri=tracking_uri)
     experiment_name = "test-experiment"
     run_name = "test-run"
     model_name = "test-model"
-    test_experiment_id = client.create_experiment(experiment_name)
+
+    experiment_id = client.create_experiment(
+        experiment_name,
+        artifact_location=f"{tracking_uri}/733453213330887482"
+    )
     test_run = client.create_run(
-        experiment_id=test_experiment_id,
+        experiment_id=experiment_id,
         run_name=run_name,
     )
     client.log_param(
@@ -80,8 +88,6 @@ def generate_mlflow_data(tracking_uri: str) -> None:
         version="1",
         stage="Archived",
     )
-
-
 def test_ingestion(
     pytestconfig,
     mock_time,

From c1b223b1a926c8a201dcffc22f4359e3e1527d1b Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Wed, 19 Feb 2025 18:24:05 +0900
Subject: [PATCH 19/37] fix lint

---
 .../tests/integration/mlflow/test_mlflow_source.py   | 12 +++++++-----
 1 file changed, 7 insertions(+), 5 deletions(-)

diff --git a/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py b/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
index 9d6222d3a20e38..f6f516462881c3 100644
--- a/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
+++ b/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
@@ -1,12 +1,13 @@
+import uuid
 from pathlib import Path
 from typing import Any, Dict, TypeVar
 
 import pytest
+from _pytest.monkeypatch import MonkeyPatch
 from mlflow import MlflowClient
 
 from datahub.ingestion.run.pipeline import Pipeline
 from tests.test_helpers import mce_helpers
-import uuid
 
 T = TypeVar("T")
 
@@ -42,9 +43,9 @@ def pipeline_config(tracking_uri: str, sink_file_path: str) -> Dict[str, Any]:
 
 
 @pytest.fixture
-def generate_mlflow_data(tracking_uri: str, monkeypatch) -> None:
+def generate_mlflow_data(tracking_uri: str, monkeypatch: MonkeyPatch) -> None:
     test_uuid = "02660a3bee9941ed983667f678ce5611"
-    monkeypatch.setattr(uuid, 'uuid4', lambda: uuid.UUID(test_uuid))
+    monkeypatch.setattr(uuid, "uuid4", lambda: uuid.UUID(test_uuid))
 
     client = MlflowClient(tracking_uri=tracking_uri)
     experiment_name = "test-experiment"
@@ -52,8 +53,7 @@ def generate_mlflow_data(tracking_uri: str, monkeypatch) -> None:
     model_name = "test-model"
 
     experiment_id = client.create_experiment(
-        experiment_name,
-        artifact_location=f"{tracking_uri}/733453213330887482"
+        experiment_name, artifact_location=f"{tracking_uri}/733453213330887482"
     )
     test_run = client.create_run(
         experiment_id=experiment_id,
@@ -88,6 +88,8 @@ def generate_mlflow_data(tracking_uri: str, monkeypatch) -> None:
         version="1",
         stage="Archived",
     )
+
+
 def test_ingestion(
     pytestconfig,
     mock_time,

From 6dbe5050a792f5eafbf870105517d8dc38a889c6 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Wed, 19 Feb 2025 19:16:03 +0900
Subject: [PATCH 20/37] update golden files

---
 .../tests/integration/mlflow/mlflow_mcps_golden.json            | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
index b496e79bb55fec..247fe5e4cf79d2 100644
--- a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
+++ b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
@@ -551,7 +551,7 @@
             "customProperties": {},
             "id": "02660a3bee9941ed983667f678ce5611",
             "outputUrls": [
-                "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-28/test_ingestion0/mlruns/733453213330887482/02660a3bee9941ed983667f678ce5611/artifacts"
+                "/tmp/pytest-of-runner/pytest-0/test_ingestion0/mlruns/733453213330887482/02660a3bee9941ed983667f678ce5611/artifacts"
             ],
             "hyperParams": [
                 {

From cde3b235e2938fd3b33af47d75eeb985f94676fb Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Thu, 20 Feb 2025 17:10:42 +0900
Subject: [PATCH 21/37] address pr reviews

---
 .../src/datahub/ingestion/source/mlflow.py    | 98 +++++++++----------
 .../integration/mlflow/test_mlflow_source.py  |  3 +-
 2 files changed, 45 insertions(+), 56 deletions(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index 5d2885a03ec4ed..21c5bad7db9fbf 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -55,6 +55,7 @@
     DataPlatformUrn,
     VersionSetUrn,
 )
+from datahub.sdk.container import Container
 
 T = TypeVar("T")
 
@@ -63,39 +64,6 @@ class ContainerKeyWithId(ContainerKey):
     id: str
 
 
-@dataclass
-class Container:
-    key: ContainerKeyWithId
-    subtype: str
-    name: Optional[str] = None
-    description: Optional[str] = None
-
-    def generate_mcp(
-        self,
-    ) -> Iterable[MetadataChangeProposalWrapper]:
-        container_urn = self.key.as_urn()
-
-        container_subtype = SubTypesClass(typeNames=[self.subtype])
-
-        container_info = ContainerPropertiesClass(
-            name=self.name or self.key.id,
-            description=self.description,
-            customProperties={},
-        )
-
-        browse_path = BrowsePathsV2Class(path=[])
-
-        dpi = DataPlatformInstanceClass(
-            platform=self.key.platform,
-            instance=self.key.instance,
-        )
-
-        return MetadataChangeProposalWrapper.construct_many(
-            entityUrn=container_urn,
-            aspects=[container_subtype, container_info, browse_path, dpi],
-        )
-
-
 class MLflowConfig(EnvConfigMixin):
     tracking_uri: Optional[str] = Field(
         default=None,
@@ -241,19 +209,53 @@ def _get_experiment_container_workunit(
         self, experiment: Experiment
     ) -> List[MetadataWorkUnit]:
         experiment_container = Container(
-            key=ContainerKeyWithId(
+            container_key=ContainerKeyWithId(
                 platform=str(DataPlatformUrn.create_from_id("mlflow")),
                 id=experiment.name,
             ),
             subtype="ML Experiment",
-            name=experiment.name,
+            display_name=experiment.name,
             description=experiment.tags.get("mlflow.note.content"),
         )
-        self.entity_map.experiment_id_to_urn[experiment.experiment_id] = (
-            experiment_container.key.as_urn()
+        self.entity_map.experiment_id_to_urn[experiment.experiment_id] = str(
+            experiment_container.urn
+        )
+        workunits = []
+
+        workunits.append(
+            MetadataChangeProposalWrapper(
+                entityUrn=str(experiment_container.urn),
+                aspect=SubTypesClass(typeNames=[str(experiment_container.subtype)]),
+            ).as_workunit()
+        )
+
+        workunits.append(
+            MetadataChangeProposalWrapper(
+                entityUrn=str(experiment_container.urn),
+                aspect=ContainerPropertiesClass(
+                    name=experiment_container.display_name,
+                    description=experiment_container.description,
+                    customProperties=self._get_experiment_custom_properties(experiment),
+                ),
+            ).as_workunit()
+        )
+
+        workunits.append(
+            MetadataChangeProposalWrapper(
+                entityUrn=str(experiment_container.urn),
+                aspect=BrowsePathsV2Class(path=[]),
+            ).as_workunit()
+        )
+
+        workunits.append(
+            MetadataChangeProposalWrapper(
+                entityUrn=str(experiment_container.urn),
+                aspect=DataPlatformInstanceClass(
+                    platform=str(DataPlatformUrn.create_from_id("mlflow")),
+                ),
+            ).as_workunit()
         )
 
-        workunits = [mcp.as_workunit() for mcp in experiment_container.generate_mcp()]
         return workunits
 
     def _get_run_custom_properties(self, run: Run) -> Dict[str, str]:
@@ -508,18 +510,6 @@ def _get_mlflow_run(self, model_version: ModelVersion) -> Union[None, Run]:
         else:
             return None
 
-    class SequencedMetadataWorkUnit(MetadataWorkUnit):
-        """A workunit that knows its dependencies"""
-
-        def __init__(
-            self,
-            id: str,
-            mcp: MetadataChangeProposalWrapper,
-            depends_on: Optional[str] = None,
-        ):
-            super().__init__(id=id, mcp=mcp)
-            self.depends_on = depends_on
-
     def _get_ml_model_workunits(self) -> Iterable[MetadataWorkUnit]:
         """
         Traverse each Registered Model in Model Registry and generate a corresponding workunit.
@@ -539,10 +529,10 @@ def _get_ml_model_workunits(self) -> Iterable[MetadataWorkUnit]:
                 yield self._get_version_set(
                     version_set_urn=version_set_urn,
                 )
-                yield self._get_ml_model_version_properties_workunit(
-                    model_version=model_version,
-                    version_set_urn=version_set_urn,
-                )
+                # yield self._get_ml_model_version_properties_workunit(
+                #     model_version=model_version,
+                #     version_set_urn=version_set_urn,
+                # )
                 # yield self._get_version_latest(
                 #     model_version=model_version,
                 #     version_set_urn=version_set_urn,
diff --git a/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py b/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
index f6f516462881c3..9f585bef6f90c0 100644
--- a/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
+++ b/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
@@ -3,7 +3,6 @@
 from typing import Any, Dict, TypeVar
 
 import pytest
-from _pytest.monkeypatch import MonkeyPatch
 from mlflow import MlflowClient
 
 from datahub.ingestion.run.pipeline import Pipeline
@@ -43,7 +42,7 @@ def pipeline_config(tracking_uri: str, sink_file_path: str) -> Dict[str, Any]:
 
 
 @pytest.fixture
-def generate_mlflow_data(tracking_uri: str, monkeypatch: MonkeyPatch) -> None:
+def generate_mlflow_data(tracking_uri: str, monkeypatch: pytest.MonkeyPatch) -> None:
     test_uuid = "02660a3bee9941ed983667f678ce5611"
     monkeypatch.setattr(uuid, "uuid4", lambda: uuid.UUID(test_uuid))
 

From a25231056f2ddaf3a7e8391c53df21605295b1ea Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Thu, 20 Feb 2025 17:15:39 +0900
Subject: [PATCH 22/37] fix lint

---
 metadata-ingestion/src/datahub/ingestion/source/mlflow.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index c05a1fea2dc6f6..13704daf84d700 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -75,6 +75,7 @@
 class ContainerKeyWithId(ContainerKey):
     id: str
 
+
 class MLflowConfig(StatefulIngestionConfigBase, EnvConfigMixin):
     tracking_uri: Optional[str] = Field(
         default=None,

From 2b378e7eeb0f252b1681881c1d475e10372cda95 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Thu, 20 Feb 2025 18:36:48 +0900
Subject: [PATCH 23/37] fix tests

---
 .../mlflow/mlflow_mcps_golden.json            | 23 +------------------
 .../integration/mlflow/test_mlflow_source.py  | 15 ++++++++++--
 .../cypress/cypress/e2e/ml/experiment.js      | 11 +++++----
 3 files changed, 20 insertions(+), 29 deletions(-)

diff --git a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
index 247fe5e4cf79d2..0a5ba1e684b2fb 100644
--- a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
+++ b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
@@ -499,27 +499,6 @@
         "lastRunId": "no-run-id-provided"
     }
 },
-{
-    "entityType": "mlModel",
-    "entityUrn": "urn:li:mlModel:(urn:li:dataPlatform:mlflow,test-model_1,PROD)",
-    "changeType": "UPSERT",
-    "aspectName": "versionProperties",
-    "aspect": {
-        "json": {
-            "versionSet": "urn:li:versionSet:(test-model_1,mlModel)",
-            "version": {
-                "versionTag": "1"
-            },
-            "aliases": [],
-            "sortId": "AAAAAAAA"
-        }
-    },
-    "systemMetadata": {
-        "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test",
-        "lastRunId": "no-run-id-provided"
-    }
-},
 {
     "entityType": "dataProcessInstance",
     "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
@@ -551,7 +530,7 @@
             "customProperties": {},
             "id": "02660a3bee9941ed983667f678ce5611",
             "outputUrls": [
-                "/tmp/pytest-of-runner/pytest-0/test_ingestion0/mlruns/733453213330887482/02660a3bee9941ed983667f678ce5611/artifacts"
+                "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-53/test_ingestion0/mlruns/766847104871454225/02660a3bee9941ed983667f678ce5611/artifacts"
             ],
             "hyperParams": [
                 {
diff --git a/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py b/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
index 9f585bef6f90c0..e886b562e65de8 100644
--- a/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
+++ b/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
@@ -6,6 +6,7 @@
 from mlflow import MlflowClient
 
 from datahub.ingestion.run.pipeline import Pipeline
+from datahub.ingestion.source.mlflow import MLflowSource
 from tests.test_helpers import mce_helpers
 
 T = TypeVar("T")
@@ -51,9 +52,19 @@ def generate_mlflow_data(tracking_uri: str, monkeypatch: pytest.MonkeyPatch) ->
     run_name = "test-run"
     model_name = "test-model"
 
-    experiment_id = client.create_experiment(
-        experiment_name, artifact_location=f"{tracking_uri}/733453213330887482"
+    # Deliberately exclude artifacts_location since it's environment-specific
+    def mock_get_experiment_custom_properties(self, experiment):
+        experiment_custom_props = getattr(experiment, "tags", {}) or {}
+        experiment_custom_props.pop("mlflow.note.content", None)
+        return experiment_custom_props
+
+    monkeypatch.setattr(
+        MLflowSource,
+        "_get_experiment_custom_properties",
+        mock_get_experiment_custom_properties,
     )
+
+    experiment_id = client.create_experiment(experiment_name)
     test_run = client.create_run(
         experiment_id=experiment_id,
         run_name=run_name,
diff --git a/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js b/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
index 765e425fbeb5e6..fe17a55e76a072 100644
--- a/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
+++ b/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
@@ -1,15 +1,16 @@
 describe("experiment", () => {
-  it("can visit experiment end run", () => {
+  beforeEach(() => {
     cy.visit("/");
     cy.login();
-    // replace the following line with the correct URL
+  });
+
+  it("can visit experiment end run", () => {
+    // Then visit the specific page
     cy.visit(
       "/container/urn:li:container:airline_forecast_experiment/Summary?is_lineage_mode=false",
     );
 
-    // the experiment has subtypes and platform
-    cy.contains("MLflow");
-    // the model has its name and description
+    cy.contains("MLflow", { timeout: 20000 });
     cy.contains("Airline Forecast Experiment");
     cy.contains("Experiment to forecast airline passenger numbers");
 

From 82fb534b50a1ea2ac75fda97f0ec8395a39f77b9 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Thu, 20 Feb 2025 22:10:31 +0900
Subject: [PATCH 24/37] fix tests

---
 .../src/datahub/ingestion/source/mlflow.py    |  8 ++--
 .../mlflow/mlflow_mcps_golden.json            | 10 +++--
 .../integration/mlflow/test_mlflow_source.py  | 39 ++++++++++++-------
 3 files changed, 36 insertions(+), 21 deletions(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index 13704daf84d700..0116e9efa3aab1 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -231,7 +231,7 @@ def _get_experiment_container_workunit(
     ) -> List[MetadataWorkUnit]:
         experiment_container = Container(
             container_key=ContainerKeyWithId(
-                platform=str(DataPlatformUrn.create_from_id("mlflow")),
+                platform=str(DataPlatformUrn(platform_name="mlflow")),
                 id=experiment.name,
             ),
             subtype="ML Experiment",
@@ -272,7 +272,7 @@ def _get_experiment_container_workunit(
             MetadataChangeProposalWrapper(
                 entityUrn=str(experiment_container.urn),
                 aspect=DataPlatformInstanceClass(
-                    platform=str(DataPlatformUrn.create_from_id("mlflow")),
+                    platform=str(DataPlatformUrn("mlflow")),
                 ),
             ).as_workunit()
         )
@@ -314,7 +314,7 @@ def _get_run_workunits(
         self, experiment: Experiment, run: Run
     ) -> List[MetadataWorkUnit]:
         experiment_key = ContainerKeyWithId(
-            platform=str(DataPlatformUrn.create_from_id("mlflow")), id=experiment.name
+            platform=str(DataPlatformUrn("mlflow")), id=experiment.name
         )
 
         dpi_id = run.info.run_name or run.info.run_id
@@ -400,7 +400,7 @@ def _get_run_workunits(
             MetadataChangeProposalWrapper(
                 entityUrn=str(data_process_instance.urn),
                 aspect=DataPlatformInstanceClass(
-                    platform=str(DataPlatformUrn.create_from_id("mlflow"))
+                    platform=str(DataPlatformUrn("mlflow"))
                 ),
             ).as_workunit()
         )
diff --git a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
index 0a5ba1e684b2fb..91e49997613fa4 100644
--- a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
+++ b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
@@ -96,7 +96,9 @@
     "aspectName": "containerProperties",
     "aspect": {
         "json": {
-            "customProperties": {},
+            "customProperties": {
+                "artifacts_location": "s3://test-bucket"
+            },
             "name": "Default"
         }
     },
@@ -163,7 +165,9 @@
     "aspectName": "containerProperties",
     "aspect": {
         "json": {
-            "customProperties": {},
+            "customProperties": {
+                "artifacts_location": "s3://test-bucket"
+            },
             "name": "test-experiment"
         }
     },
@@ -530,7 +534,7 @@
             "customProperties": {},
             "id": "02660a3bee9941ed983667f678ce5611",
             "outputUrls": [
-                "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-53/test_ingestion0/mlruns/766847104871454225/02660a3bee9941ed983667f678ce5611/artifacts"
+                "s3://test-bucket"
             ],
             "hyperParams": [
                 {
diff --git a/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py b/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
index e886b562e65de8..bbe63a833e0d23 100644
--- a/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
+++ b/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
@@ -5,13 +5,37 @@
 import pytest
 from mlflow import MlflowClient
 
+from datahub.emitter.mcp import MetadataChangeProposalWrapper
 from datahub.ingestion.run.pipeline import Pipeline
 from datahub.ingestion.source.mlflow import MLflowSource
+from datahub.metadata.schema_classes import MLTrainingRunPropertiesClass
 from tests.test_helpers import mce_helpers
 
 T = TypeVar("T")
 
 
+def setup_test_environment(monkeypatch: pytest.MonkeyPatch) -> None:
+    def mock_run_props(self, experiment, run):
+        for wu in original_get_run_workunits(self, experiment, run):
+            if isinstance(wu.metadata, MetadataChangeProposalWrapper) and isinstance(
+                wu.metadata.aspect, MLTrainingRunPropertiesClass
+            ):
+                wu.metadata.aspect.outputUrls = ["s3://test-bucket"]
+            yield wu
+
+    # Fix environment-dependent values
+    original_get_run_workunits = MLflowSource._get_run_workunits
+    monkeypatch.setattr(
+        uuid, "uuid4", lambda: uuid.UUID("02660a3bee9941ed983667f678ce5611")
+    )
+    monkeypatch.setattr(
+        MLflowSource,
+        "_get_experiment_custom_properties",
+        lambda *_: {"artifacts_location": "s3://test-bucket"},
+    )
+    monkeypatch.setattr(MLflowSource, "_get_run_workunits", mock_run_props)
+
+
 @pytest.fixture
 def tracking_uri(tmp_path: Path) -> str:
     return str(tmp_path / "mlruns")
@@ -44,26 +68,13 @@ def pipeline_config(tracking_uri: str, sink_file_path: str) -> Dict[str, Any]:
 
 @pytest.fixture
 def generate_mlflow_data(tracking_uri: str, monkeypatch: pytest.MonkeyPatch) -> None:
-    test_uuid = "02660a3bee9941ed983667f678ce5611"
-    monkeypatch.setattr(uuid, "uuid4", lambda: uuid.UUID(test_uuid))
+    setup_test_environment(monkeypatch)
 
     client = MlflowClient(tracking_uri=tracking_uri)
     experiment_name = "test-experiment"
     run_name = "test-run"
     model_name = "test-model"
 
-    # Deliberately exclude artifacts_location since it's environment-specific
-    def mock_get_experiment_custom_properties(self, experiment):
-        experiment_custom_props = getattr(experiment, "tags", {}) or {}
-        experiment_custom_props.pop("mlflow.note.content", None)
-        return experiment_custom_props
-
-    monkeypatch.setattr(
-        MLflowSource,
-        "_get_experiment_custom_properties",
-        mock_get_experiment_custom_properties,
-    )
-
     experiment_id = client.create_experiment(experiment_name)
     test_run = client.create_run(
         experiment_id=experiment_id,

From 4ace078b0e883fbdd128666e153193f2d0557209 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Thu, 20 Feb 2025 23:13:32 +0900
Subject: [PATCH 25/37] fix tests

---
 smoke-test/tests/cypress/cypress/e2e/ml/experiment.js | 1 -
 1 file changed, 1 deletion(-)

diff --git a/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js b/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
index fe17a55e76a072..8deceb888aaf75 100644
--- a/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
+++ b/smoke-test/tests/cypress/cypress/e2e/ml/experiment.js
@@ -10,7 +10,6 @@ describe("experiment", () => {
       "/container/urn:li:container:airline_forecast_experiment/Summary?is_lineage_mode=false",
     );
 
-    cy.contains("MLflow", { timeout: 20000 });
     cy.contains("Airline Forecast Experiment");
     cy.contains("Experiment to forecast airline passenger numbers");
 

From d6247773bdaf3591a760dcbb90e75d1e45faafe2 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Thu, 20 Feb 2025 23:18:09 +0900
Subject: [PATCH 26/37] revert unnecessary changes

---
 .../tests/integration/mlflow/test_mlflow_source.py            | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py b/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
index bbe63a833e0d23..9e92d54a37e7ff 100644
--- a/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
+++ b/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
@@ -75,9 +75,9 @@ def generate_mlflow_data(tracking_uri: str, monkeypatch: pytest.MonkeyPatch) ->
     run_name = "test-run"
     model_name = "test-model"
 
-    experiment_id = client.create_experiment(experiment_name)
+    test_experiment_id = client.create_experiment(experiment_name)
     test_run = client.create_run(
-        experiment_id=experiment_id,
+        experiment_id=test_experiment_id,
         run_name=run_name,
     )
     client.log_param(

From 10cc89abb5c646a256c1a16b9e9c4d824404e375 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Fri, 21 Feb 2025 14:36:54 +0900
Subject: [PATCH 27/37] reflect code review

---
 .../ingestion/source/common/subtypes.py       |   5 +
 .../src/datahub/ingestion/source/mlflow.py    | 256 ++++++++----------
 .../mlflow/mlflow_mcps_golden.json            | 252 ++++++++---------
 .../integration/mlflow/test_mlflow_source.py  |  37 +--
 4 files changed, 237 insertions(+), 313 deletions(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/common/subtypes.py b/metadata-ingestion/src/datahub/ingestion/source/common/subtypes.py
index 8eb53259df8062..ab675ca7448e7e 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/common/subtypes.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/common/subtypes.py
@@ -85,3 +85,8 @@ class BIAssetSubTypes(StrEnum):
     # SAP Analytics Cloud
     SAC_STORY = "Story"
     SAC_APPLICATION = "Application"
+
+
+class MLAssetSubTypes(StrEnum):
+    MLFLOW_TRAINING_RUN = "ML Training Run"
+    MLFLOW_EXPERIMENT = "ML Experiment"
diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index 0116e9efa3aab1..1e40a3ad508e08 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -1,6 +1,6 @@
 import time
-from dataclasses import dataclass, field
-from typing import Any, Callable, Dict, Iterable, List, Optional, TypeVar, Union
+from dataclasses import dataclass
+from typing import Any, Callable, Iterable, List, Optional, TypeVar, Union
 
 from mlflow import MlflowClient
 from mlflow.entities import Experiment, Run
@@ -29,6 +29,7 @@
     SourceReport,
 )
 from datahub.ingestion.api.workunit import MetadataWorkUnit
+from datahub.ingestion.source.common.subtypes import MLAssetSubTypes
 from datahub.ingestion.source.state.stale_entity_removal_handler import (
     StaleEntityRemovalHandler,
     StaleEntityRemovalSourceReport,
@@ -49,6 +50,7 @@
     DataProcessInstanceRunResultClass,
     DataProcessRunStatusClass,
     GlobalTagsClass,
+    MetadataAttributionClass,
     MLHyperParamClass,
     MLMetricClass,
     MLModelGroupPropertiesClass,
@@ -62,6 +64,7 @@
     VersionSetKeyClass,
     VersionSetPropertiesClass,
     VersionTagClass,
+    _Aspect,
 )
 from datahub.metadata.urns import (
     DataPlatformUrn,
@@ -106,17 +109,6 @@ class MLflowRegisteredModelStageInfo:
     color_hex: str
 
 
-@dataclass
-class MLflowEntityMap:
-    """
-    Maintains mappings between MLflow IDs and DataHub URNs during ingestion.
-    """
-
-    experiment_id_to_urn: Dict[str, str] = field(default_factory=dict)
-    run_id_to_urn: Dict[str, str] = field(default_factory=dict)
-    model_version_to_urn: Dict[str, str] = field(default_factory=dict)
-
-
 @platform_name("MLflow")
 @config_class(MLflowConfig)
 @support_status(SupportStatus.TESTING)
@@ -159,7 +151,6 @@ def __init__(self, ctx: PipelineContext, config: MLflowConfig):
             tracking_uri=self.config.tracking_uri,
             registry_uri=self.config.registry_uri,
         )
-        self.entity_map = MLflowEntityMap()
 
     def get_report(self) -> SourceReport:
         return self.report
@@ -199,7 +190,7 @@ def _make_stage_tag_urn(self, stage_name: str) -> str:
     def _make_stage_tag_name(self, stage_name: str) -> str:
         return f"{self.platform}_{stage_name.lower()}"
 
-    def _create_workunit(self, urn: str, aspect: Any) -> MetadataWorkUnit:
+    def _create_workunit(self, urn: str, aspect: _Aspect) -> MetadataWorkUnit:
         """
         Utility to create an MCP workunit.
         """
@@ -211,14 +202,12 @@ def _create_workunit(self, urn: str, aspect: Any) -> MetadataWorkUnit:
     def _get_experiment_workunits(self) -> Iterable[MetadataWorkUnit]:
         experiments = self._get_mlflow_experiments()
         for experiment in experiments:
-            for wu in self._get_experiment_container_workunit(experiment):
-                yield wu
+            yield from self._get_experiment_container_workunit(experiment)
 
             runs = self._get_mlflow_runs_from_experiment(experiment)
             if runs:
                 for run in runs:
-                    for wu in self._get_run_workunits(experiment, run):
-                        yield wu
+                    yield from self._get_run_workunits(experiment, run)
 
     def _get_experiment_custom_properties(self, experiment):
         experiment_custom_props = getattr(experiment, "tags", {}) or {}
@@ -228,61 +217,42 @@ def _get_experiment_custom_properties(self, experiment):
 
     def _get_experiment_container_workunit(
         self, experiment: Experiment
-    ) -> List[MetadataWorkUnit]:
+    ) -> Iterable[MetadataWorkUnit]:
         experiment_container = Container(
             container_key=ContainerKeyWithId(
-                platform=str(DataPlatformUrn(platform_name="mlflow")),
+                platform=str(DataPlatformUrn(platform_name=self.platform)),
                 id=experiment.name,
             ),
-            subtype="ML Experiment",
+            subtype=MLAssetSubTypes.MLFLOW_EXPERIMENT,
             display_name=experiment.name,
             description=experiment.tags.get("mlflow.note.content"),
         )
-        self.entity_map.experiment_id_to_urn[experiment.experiment_id] = str(
-            experiment_container.urn
-        )
-        workunits = []
-
-        workunits.append(
-            MetadataChangeProposalWrapper(
-                entityUrn=str(experiment_container.urn),
-                aspect=SubTypesClass(typeNames=[str(experiment_container.subtype)]),
-            ).as_workunit()
-        )
 
-        workunits.append(
-            MetadataChangeProposalWrapper(
-                entityUrn=str(experiment_container.urn),
-                aspect=ContainerPropertiesClass(
-                    name=experiment_container.display_name,
-                    description=experiment_container.description,
-                    customProperties=self._get_experiment_custom_properties(experiment),
-                ),
-            ).as_workunit()
-        )
-
-        workunits.append(
-            MetadataChangeProposalWrapper(
-                entityUrn=str(experiment_container.urn),
-                aspect=BrowsePathsV2Class(path=[]),
-            ).as_workunit()
-        )
+        yield MetadataChangeProposalWrapper(
+            entityUrn=str(experiment_container.urn),
+            aspect=SubTypesClass(typeNames=[str(experiment_container.subtype)]),
+        ).as_workunit()
 
-        workunits.append(
-            MetadataChangeProposalWrapper(
-                entityUrn=str(experiment_container.urn),
-                aspect=DataPlatformInstanceClass(
-                    platform=str(DataPlatformUrn("mlflow")),
-                ),
-            ).as_workunit()
-        )
+        yield MetadataChangeProposalWrapper(
+            entityUrn=str(experiment_container.urn),
+            aspect=ContainerPropertiesClass(
+                name=experiment_container.display_name,
+                description=experiment_container.description,
+                customProperties=self._get_experiment_custom_properties(experiment),
+            ),
+        ).as_workunit()
 
-        return workunits
+        yield MetadataChangeProposalWrapper(
+            entityUrn=str(experiment_container.urn),
+            aspect=BrowsePathsV2Class(path=[]),
+        ).as_workunit()
 
-    def _get_run_custom_properties(self, run: Run) -> Dict[str, str]:
-        custom_props: Dict[str, str] = {}
-        custom_props.update(getattr(run, "tags", {}) or {})
-        return custom_props
+        yield MetadataChangeProposalWrapper(
+            entityUrn=str(experiment_container.urn),
+            aspect=DataPlatformInstanceClass(
+                platform=str(DataPlatformUrn(self.platform)),
+            ),
+        ).as_workunit()
 
     def _get_run_metrics(self, run: Run) -> List[MLMetricClass]:
         return [
@@ -299,120 +269,100 @@ def _convert_run_result_type(
     ) -> DataProcessInstanceRunResultClass:
         if status == "FINISHED":
             return DataProcessInstanceRunResultClass(
-                type="SUCCESS", nativeResultType="mlflow"
+                type="SUCCESS", nativeResultType=self.platform
             )
         elif status == "FAILED":
             return DataProcessInstanceRunResultClass(
-                type="FAILURE", nativeResultType="mlflow"
+                type="FAILURE", nativeResultType=self.platform
             )
         else:
             return DataProcessInstanceRunResultClass(
-                type="SKIPPED", nativeResultType="mlflow"
+                type="SKIPPED", nativeResultType=self.platform
             )
 
     def _get_run_workunits(
         self, experiment: Experiment, run: Run
-    ) -> List[MetadataWorkUnit]:
+    ) -> Iterable[MetadataWorkUnit]:
         experiment_key = ContainerKeyWithId(
-            platform=str(DataPlatformUrn("mlflow")), id=experiment.name
+            platform=str(DataPlatformUrn(self.platform)), id=experiment.name
         )
 
-        dpi_id = run.info.run_name or run.info.run_id
         data_process_instance = DataProcessInstance(
-            id=dpi_id,
-            orchestrator="mlflow",
+            id=run.info.run_id,
+            orchestrator=self.platform,
             template_urn=None,
         )
 
-        self.entity_map.run_id_to_urn[run.info.run_id] = str(data_process_instance.urn)
-        workunits = []
-
-        run_custom_props = self._get_run_custom_properties(run)
         created_time = run.info.start_time or int(time.time() * 1000)
         created_actor = (
             f"urn:li:platformResource:{run.info.user_id}" if run.info.user_id else ""
         )
 
-        workunits.append(
-            MetadataChangeProposalWrapper(
-                entityUrn=str(data_process_instance.urn),
-                aspect=DataProcessInstancePropertiesClass(
-                    name=run.info.run_name or run.info.run_id,
-                    created=AuditStampClass(
-                        time=created_time,
-                        actor=created_actor,
-                    ),
-                    externalUrl=self._make_external_url_from_run(experiment, run),
-                    customProperties=run_custom_props,
+        yield MetadataChangeProposalWrapper(
+            entityUrn=str(data_process_instance.urn),
+            aspect=DataProcessInstancePropertiesClass(
+                name=run.info.run_name or run.info.run_id,
+                created=AuditStampClass(
+                    time=created_time,
+                    actor=created_actor,
                 ),
-            ).as_workunit()
-        )
+                externalUrl=self._make_external_url_from_run(experiment, run),
+                customProperties=getattr(run, "tags", {}) or {},
+            ),
+        ).as_workunit()
 
-        workunits.append(
-            MetadataChangeProposalWrapper(
-                entityUrn=str(data_process_instance.urn),
-                aspect=ContainerClass(container=experiment_key.as_urn()),
-            ).as_workunit()
-        )
+        yield MetadataChangeProposalWrapper(
+            entityUrn=str(data_process_instance.urn),
+            aspect=ContainerClass(container=experiment_key.as_urn()),
+        ).as_workunit()
 
         model_versions = self.get_mlflow_model_versions_from_run(run.info.run_id)
         if model_versions:
             model_version_urn = self._make_ml_model_urn(model_versions[0])
-            workunits.append(
-                MetadataChangeProposalWrapper(
-                    entityUrn=str(data_process_instance.urn),
-                    aspect=DataProcessInstanceOutputClass(outputs=[model_version_urn]),
-                ).as_workunit()
-            )
+            yield MetadataChangeProposalWrapper(
+                entityUrn=str(data_process_instance.urn),
+                aspect=DataProcessInstanceOutputClass(outputs=[model_version_urn]),
+            ).as_workunit()
 
         metrics = self._get_run_metrics(run)
         hyperparams = self._get_run_params(run)
-        workunits.append(
-            MetadataChangeProposalWrapper(
-                entityUrn=str(data_process_instance.urn),
-                aspect=MLTrainingRunPropertiesClass(
-                    hyperParams=hyperparams,
-                    trainingMetrics=metrics,
-                    outputUrls=[run.info.artifact_uri],
-                    id=run.info.run_id,
-                ),
-            ).as_workunit()
-        )
+        yield MetadataChangeProposalWrapper(
+            entityUrn=str(data_process_instance.urn),
+            aspect=MLTrainingRunPropertiesClass(
+                hyperParams=hyperparams,
+                trainingMetrics=metrics,
+                outputUrls=[run.info.artifact_uri],
+                id=run.info.run_id,
+            ),
+        ).as_workunit()
 
         if run.info.end_time:
             duration_millis = run.info.end_time - run.info.start_time
-            workunits.append(
-                MetadataChangeProposalWrapper(
-                    entityUrn=str(data_process_instance.urn),
-                    aspect=DataProcessInstanceRunEventClass(
-                        status=DataProcessRunStatusClass.COMPLETE,
-                        timestampMillis=run.info.end_time,
-                        result=DataProcessInstanceRunResultClass(
-                            type=self._convert_run_result_type(run.info.status).type,
-                            nativeResultType="mlflow",
-                        ),
-                        durationMillis=duration_millis,
-                    ),
-                ).as_workunit()
-            )
 
-        workunits.append(
-            MetadataChangeProposalWrapper(
+            yield MetadataChangeProposalWrapper(
                 entityUrn=str(data_process_instance.urn),
-                aspect=DataPlatformInstanceClass(
-                    platform=str(DataPlatformUrn("mlflow"))
+                aspect=DataProcessInstanceRunEventClass(
+                    status=DataProcessRunStatusClass.COMPLETE,
+                    timestampMillis=run.info.end_time,
+                    result=DataProcessInstanceRunResultClass(
+                        type=self._convert_run_result_type(run.info.status).type,
+                        nativeResultType=self.platform,
+                    ),
+                    durationMillis=duration_millis,
                 ),
             ).as_workunit()
-        )
 
-        workunits.append(
-            MetadataChangeProposalWrapper(
-                entityUrn=str(data_process_instance.urn),
-                aspect=SubTypesClass(typeNames=["ML Training Run"]),
-            ).as_workunit()
-        )
+        yield MetadataChangeProposalWrapper(
+            entityUrn=str(data_process_instance.urn),
+            aspect=DataPlatformInstanceClass(
+                platform=str(DataPlatformUrn(self.platform))
+            ),
+        ).as_workunit()
 
-        return workunits
+        yield MetadataChangeProposalWrapper(
+            entityUrn=str(data_process_instance.urn),
+            aspect=SubTypesClass(typeNames=[MLAssetSubTypes.MLFLOW_TRAINING_RUN]),
+        ).as_workunit()
 
     def _get_mlflow_registered_models(self) -> Iterable[RegisteredModel]:
         """
@@ -480,7 +430,11 @@ def _get_ml_group_workunit(
                 actor=None,
             ),
             version=VersionTagClass(
-                versionTag=self._get_latest_version(registered_model)
+                versionTag=self._get_latest_version(registered_model),
+                metadataAttribution=MetadataAttributionClass(
+                    time=registered_model.last_updated_timestamp,
+                    actor="urn:li:corpuser:datahub",
+                ),
             ),
         )
         wu = self._create_workunit(
@@ -537,19 +491,17 @@ def _get_ml_model_workunits(self) -> Iterable[MetadataWorkUnit]:
         """
         registered_models = self._get_mlflow_registered_models()
         for registered_model in registered_models:
+            version_set_urn = self._get_version_set_urn(registered_model)
             yield self._get_ml_group_workunit(registered_model)
+            yield self._get_version_set(version_set_urn)
             model_versions = self._get_mlflow_model_versions(registered_model)
             for model_version in model_versions:
                 run = self._get_mlflow_run(model_version)
-                version_set_urn = self._get_version_set_urn(model_version)
                 yield self._get_ml_model_properties_workunit(
                     registered_model=registered_model,
                     model_version=model_version,
                     run=run,
                 )
-                yield self._get_version_set(
-                    version_set_urn=version_set_urn,
-                )
                 # yield self._get_ml_model_version_properties_workunit(
                 #     model_version=model_version,
                 #     version_set_urn=version_set_urn,
@@ -560,12 +512,9 @@ def _get_ml_model_workunits(self) -> Iterable[MetadataWorkUnit]:
                 # )
                 yield self._get_global_tags_workunit(model_version=model_version)
 
-    def _get_version_set_urn(
-        self,
-        model_version: ModelVersion,
-    ) -> VersionSetUrn:
+    def _get_version_set_urn(self, registered_model: RegisteredModel) -> VersionSetUrn:
         version_set_urn = VersionSetUrn(
-            id=f"{model_version.name}{self.config.model_name_separator}{model_version.version}",
+            id=f"{registered_model.name}",  # TODO: where's id?
             entity_type="mlModel",
         )
 
@@ -616,6 +565,10 @@ def _get_ml_model_version_properties_workunit(
         ml_model_version_properties = VersionPropertiesClass(
             version=VersionTagClass(
                 versionTag=str(model_version.version),
+                metadataAttribution=MetadataAttributionClass(
+                    time=model_version.creation_timestamp,
+                    actor="urn:li:corpuser:datahub",
+                ),
             ),
             versionSet=str(version_set_urn),
             sortId="AAAAAAAA",  # TODO: wait for change in the backend
@@ -649,9 +602,12 @@ def _get_ml_model_properties_workunit(
             # Use the same metrics and hyperparams from the run
             hyperparams = self._get_run_params(run)
             training_metrics = self._get_run_metrics(run)
-            # TODO: this should be actually mapped the guid from the run id
-            run_urn = self.entity_map.run_id_to_urn.get(run.info.run_id)
-            training_jobs = [run_urn] if run_urn else []
+            run_urn = DataProcessInstance(
+                id=run.info.run_id,
+                orchestrator=self.platform,
+            ).urn
+
+            training_jobs = [str(run_urn)] if run_urn else []
         else:
             hyperparams = None
             training_metrics = None
diff --git a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
index 91e49997613fa4..afdc518e834cf4 100644
--- a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
+++ b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
@@ -97,7 +97,7 @@
     "aspect": {
         "json": {
             "customProperties": {
-                "artifacts_location": "s3://test-bucket"
+                "artifacts_location": "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-8/test_ingestion0/mlruns/0"
             },
             "name": "Default"
         }
@@ -166,7 +166,7 @@
     "aspect": {
         "json": {
             "customProperties": {
-                "artifacts_location": "s3://test-bucket"
+                "artifacts_location": "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-8/test_ingestion0/mlruns/375862264488761128"
             },
             "name": "test-experiment"
         }
@@ -209,6 +209,43 @@
         "lastRunId": "no-run-id-provided"
     }
 },
+{
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:d1534a1bb266c4ee4663d78ff4af734f",
+    "changeType": "UPSERT",
+    "aspectName": "dataProcessInstanceProperties",
+    "aspect": {
+        "json": {
+            "customProperties": {},
+            "name": "test-run",
+            "created": {
+                "time": 1615443388097,
+                "actor": "urn:li:platformResource:unknown"
+            }
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
+{
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:d1534a1bb266c4ee4663d78ff4af734f",
+    "changeType": "UPSERT",
+    "aspectName": "container",
+    "aspect": {
+        "json": {
+            "container": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815"
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
 {
     "entityType": "mlModelGroup",
     "entityUrn": "urn:li:mlModelGroup:(urn:li:dataPlatform:mlflow,test-model,PROD)",
@@ -228,7 +265,12 @@
                 "time": 1615443388097
             },
             "version": {
-                "versionTag": "1"
+                "versionTag": "1",
+                "metadataAttribution": {
+                    "time": 1615443388097,
+                    "actor": "urn:li:corpuser:datahub",
+                    "sourceDetail": {}
+                }
             }
         }
     },
@@ -249,7 +291,7 @@
                 "model_version_id": "1"
             },
             "trainingJobs": [
-                "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f"
+                "urn:li:dataProcessInstance:d1534a1bb266c4ee4663d78ff4af734f"
             ],
             "created": {
                 "time": 1615443388097
@@ -284,17 +326,13 @@
     }
 },
 {
-    "entityType": "mlModel",
-    "entityUrn": "urn:li:mlModel:(urn:li:dataPlatform:mlflow,test-model_1,PROD)",
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:d1534a1bb266c4ee4663d78ff4af734f",
     "changeType": "UPSERT",
-    "aspectName": "globalTags",
+    "aspectName": "dataPlatformInstance",
     "aspect": {
         "json": {
-            "tags": [
-                {
-                    "tag": "urn:li:tag:mlflow_archived"
-                }
-            ]
+            "platform": "urn:li:dataPlatform:mlflow"
         }
     },
     "systemMetadata": {
@@ -304,13 +342,15 @@
     }
 },
 {
-    "entityType": "mlModel",
-    "entityUrn": "urn:li:mlModel:(urn:li:dataPlatform:mlflow,test-model_1,PROD)",
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:d1534a1bb266c4ee4663d78ff4af734f",
     "changeType": "UPSERT",
-    "aspectName": "status",
+    "aspectName": "dataProcessInstanceOutput",
     "aspect": {
         "json": {
-            "removed": false
+            "outputs": [
+                "urn:li:mlModel:(urn:li:dataPlatform:mlflow,test-model_1,PROD)"
+            ]
         }
     },
     "systemMetadata": {
@@ -320,13 +360,29 @@
     }
 },
 {
-    "entityType": "mlModelGroup",
-    "entityUrn": "urn:li:mlModelGroup:(urn:li:dataPlatform:mlflow,test-model,PROD)",
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:d1534a1bb266c4ee4663d78ff4af734f",
     "changeType": "UPSERT",
-    "aspectName": "status",
+    "aspectName": "mlTrainingRunProperties",
     "aspect": {
         "json": {
-            "removed": false
+            "customProperties": {},
+            "id": "46f1a037b43e4caabe2000573d08bb74",
+            "outputUrls": [
+                "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-8/test_ingestion0/mlruns/375862264488761128/46f1a037b43e4caabe2000573d08bb74/artifacts"
+            ],
+            "hyperParams": [
+                {
+                    "name": "p",
+                    "value": "1"
+                }
+            ],
+            "trainingMetrics": [
+                {
+                    "name": "m",
+                    "value": "0.85"
+                }
+            ]
         }
     },
     "systemMetadata": {
@@ -336,13 +392,17 @@
     }
 },
 {
-    "entityType": "tag",
-    "entityUrn": "urn:li:tag:mlflow_staging",
+    "entityType": "mlModel",
+    "entityUrn": "urn:li:mlModel:(urn:li:dataPlatform:mlflow,test-model_1,PROD)",
     "changeType": "UPSERT",
-    "aspectName": "status",
+    "aspectName": "globalTags",
     "aspect": {
         "json": {
-            "removed": false
+            "tags": [
+                {
+                    "tag": "urn:li:tag:mlflow_archived"
+                }
+            ]
         }
     },
     "systemMetadata": {
@@ -352,13 +412,14 @@
     }
 },
 {
-    "entityType": "tag",
-    "entityUrn": "urn:li:tag:mlflow_archived",
+    "entityType": "versionSet",
+    "entityUrn": "urn:li:versionSet:(test-model,mlModel)",
     "changeType": "UPSERT",
-    "aspectName": "status",
+    "aspectName": "versionSetKey",
     "aspect": {
         "json": {
-            "removed": false
+            "id": "test-model",
+            "entityType": "mlModel"
         }
     },
     "systemMetadata": {
@@ -368,8 +429,8 @@
     }
 },
 {
-    "entityType": "tag",
-    "entityUrn": "urn:li:tag:mlflow_production",
+    "entityType": "mlModel",
+    "entityUrn": "urn:li:mlModel:(urn:li:dataPlatform:mlflow,test-model_1,PROD)",
     "changeType": "UPSERT",
     "aspectName": "status",
     "aspect": {
@@ -385,17 +446,14 @@
 },
 {
     "entityType": "dataProcessInstance",
-    "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
+    "entityUrn": "urn:li:dataProcessInstance:d1534a1bb266c4ee4663d78ff4af734f",
     "changeType": "UPSERT",
-    "aspectName": "dataProcessInstanceProperties",
+    "aspectName": "subTypes",
     "aspect": {
         "json": {
-            "customProperties": {},
-            "name": "test-run",
-            "created": {
-                "time": 1615443388097,
-                "actor": "urn:li:platformResource:unknown"
-            }
+            "typeNames": [
+                "ML Training Run"
+            ]
         }
     },
     "systemMetadata": {
@@ -405,8 +463,8 @@
     }
 },
 {
-    "entityType": "tag",
-    "entityUrn": "urn:li:tag:mlflow_none",
+    "entityType": "mlModelGroup",
+    "entityUrn": "urn:li:mlModelGroup:(urn:li:dataPlatform:mlflow,test-model,PROD)",
     "changeType": "UPSERT",
     "aspectName": "status",
     "aspect": {
@@ -421,31 +479,13 @@
     }
 },
 {
-    "entityType": "dataProcessInstance",
-    "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
-    "changeType": "UPSERT",
-    "aspectName": "dataProcessInstanceOutput",
-    "aspect": {
-        "json": {
-            "outputs": [
-                "urn:li:mlModel:(urn:li:dataPlatform:mlflow,test-model_1,PROD)"
-            ]
-        }
-    },
-    "systemMetadata": {
-        "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test",
-        "lastRunId": "no-run-id-provided"
-    }
-},
-{
-    "entityType": "dataProcessInstance",
-    "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
+    "entityType": "tag",
+    "entityUrn": "urn:li:tag:mlflow_staging",
     "changeType": "UPSERT",
-    "aspectName": "container",
+    "aspectName": "status",
     "aspect": {
         "json": {
-            "container": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815"
+            "removed": false
         }
     },
     "systemMetadata": {
@@ -456,23 +496,7 @@
 },
 {
     "entityType": "dataProcessInstance",
-    "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
-    "changeType": "UPSERT",
-    "aspectName": "dataPlatformInstance",
-    "aspect": {
-        "json": {
-            "platform": "urn:li:dataPlatform:mlflow"
-        }
-    },
-    "systemMetadata": {
-        "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test",
-        "lastRunId": "no-run-id-provided"
-    }
-},
-{
-    "entityType": "container",
-    "entityUrn": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815",
+    "entityUrn": "urn:li:dataProcessInstance:d1534a1bb266c4ee4663d78ff4af734f",
     "changeType": "UPSERT",
     "aspectName": "status",
     "aspect": {
@@ -487,14 +511,13 @@
     }
 },
 {
-    "entityType": "versionSet",
-    "entityUrn": "urn:li:versionSet:(test-model_1,mlModel)",
+    "entityType": "tag",
+    "entityUrn": "urn:li:tag:mlflow_archived",
     "changeType": "UPSERT",
-    "aspectName": "versionSetKey",
+    "aspectName": "status",
     "aspect": {
         "json": {
-            "id": "test-model_1",
-            "entityType": "mlModel"
+            "removed": false
         }
     },
     "systemMetadata": {
@@ -504,18 +527,13 @@
     }
 },
 {
-    "entityType": "dataProcessInstance",
-    "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
+    "entityType": "tag",
+    "entityUrn": "urn:li:tag:mlflow_production",
     "changeType": "UPSERT",
-    "aspectName": "browsePathsV2",
+    "aspectName": "status",
     "aspect": {
         "json": {
-            "path": [
-                {
-                    "id": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815",
-                    "urn": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815"
-                }
-            ]
+            "removed": false
         }
     },
     "systemMetadata": {
@@ -525,29 +543,13 @@
     }
 },
 {
-    "entityType": "dataProcessInstance",
-    "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
+    "entityType": "tag",
+    "entityUrn": "urn:li:tag:mlflow_none",
     "changeType": "UPSERT",
-    "aspectName": "mlTrainingRunProperties",
+    "aspectName": "status",
     "aspect": {
         "json": {
-            "customProperties": {},
-            "id": "02660a3bee9941ed983667f678ce5611",
-            "outputUrls": [
-                "s3://test-bucket"
-            ],
-            "hyperParams": [
-                {
-                    "name": "p",
-                    "value": "1"
-                }
-            ],
-            "trainingMetrics": [
-                {
-                    "name": "m",
-                    "value": "0.85"
-                }
-            ]
+            "removed": false
         }
     },
     "systemMetadata": {
@@ -558,7 +560,7 @@
 },
 {
     "entityType": "container",
-    "entityUrn": "urn:li:container:03d28ec52349332a202a252cb2388d83",
+    "entityUrn": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815",
     "changeType": "UPSERT",
     "aspectName": "status",
     "aspect": {
@@ -573,26 +575,8 @@
     }
 },
 {
-    "entityType": "dataProcessInstance",
-    "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
-    "changeType": "UPSERT",
-    "aspectName": "subTypes",
-    "aspect": {
-        "json": {
-            "typeNames": [
-                "ML Training Run"
-            ]
-        }
-    },
-    "systemMetadata": {
-        "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test",
-        "lastRunId": "no-run-id-provided"
-    }
-},
-{
-    "entityType": "dataProcessInstance",
-    "entityUrn": "urn:li:dataProcessInstance:f0a08b483f34190fdeba8bed94607a2f",
+    "entityType": "container",
+    "entityUrn": "urn:li:container:03d28ec52349332a202a252cb2388d83",
     "changeType": "UPSERT",
     "aspectName": "status",
     "aspect": {
diff --git a/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py b/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
index 9e92d54a37e7ff..e21dbef61332c3 100644
--- a/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
+++ b/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
@@ -1,41 +1,15 @@
-import uuid
 from pathlib import Path
 from typing import Any, Dict, TypeVar
 
 import pytest
 from mlflow import MlflowClient
 
-from datahub.emitter.mcp import MetadataChangeProposalWrapper
 from datahub.ingestion.run.pipeline import Pipeline
-from datahub.ingestion.source.mlflow import MLflowSource
-from datahub.metadata.schema_classes import MLTrainingRunPropertiesClass
 from tests.test_helpers import mce_helpers
 
 T = TypeVar("T")
 
 
-def setup_test_environment(monkeypatch: pytest.MonkeyPatch) -> None:
-    def mock_run_props(self, experiment, run):
-        for wu in original_get_run_workunits(self, experiment, run):
-            if isinstance(wu.metadata, MetadataChangeProposalWrapper) and isinstance(
-                wu.metadata.aspect, MLTrainingRunPropertiesClass
-            ):
-                wu.metadata.aspect.outputUrls = ["s3://test-bucket"]
-            yield wu
-
-    # Fix environment-dependent values
-    original_get_run_workunits = MLflowSource._get_run_workunits
-    monkeypatch.setattr(
-        uuid, "uuid4", lambda: uuid.UUID("02660a3bee9941ed983667f678ce5611")
-    )
-    monkeypatch.setattr(
-        MLflowSource,
-        "_get_experiment_custom_properties",
-        lambda *_: {"artifacts_location": "s3://test-bucket"},
-    )
-    monkeypatch.setattr(MLflowSource, "_get_run_workunits", mock_run_props)
-
-
 @pytest.fixture
 def tracking_uri(tmp_path: Path) -> str:
     return str(tmp_path / "mlruns")
@@ -67,9 +41,7 @@ def pipeline_config(tracking_uri: str, sink_file_path: str) -> Dict[str, Any]:
 
 
 @pytest.fixture
-def generate_mlflow_data(tracking_uri: str, monkeypatch: pytest.MonkeyPatch) -> None:
-    setup_test_environment(monkeypatch)
-
+def generate_mlflow_data(tracking_uri: str) -> None:
     client = MlflowClient(tracking_uri=tracking_uri)
     experiment_name = "test-experiment"
     run_name = "test-run"
@@ -122,6 +94,12 @@ def test_ingestion(
     golden_file_path = (
         pytestconfig.rootpath / "tests/integration/mlflow/mlflow_mcps_golden.json"
     )
+    ignore_paths = [
+        "root[*]['aspect']['json']['customProperties']['artifacts_location']",
+        "root[*]['aspect']['json']['id']",
+        "root[*]['aspect']['json']['outputUrls']"
+        "root[*]['aspect']['json']['trainingJobs']",
+    ]
 
     pipeline = Pipeline.create(pipeline_config)
     pipeline.run()
@@ -132,4 +110,5 @@ def test_ingestion(
         pytestconfig=pytestconfig,
         output_path=sink_file_path,
         golden_path=golden_file_path,
+        ignore_paths=ignore_paths,
     )

From 6ba92e9027570a1184860a0c13b912e3e9694e71 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Fri, 21 Feb 2025 15:03:46 +0900
Subject: [PATCH 28/37] revert unncessary changes

---
 .../src/datahub/ingestion/source/mlflow.py    | 23 ++++++++-----------
 1 file changed, 10 insertions(+), 13 deletions(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index 1e40a3ad508e08..eb7cba27b9847b 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -82,11 +82,17 @@ class ContainerKeyWithId(ContainerKey):
 class MLflowConfig(StatefulIngestionConfigBase, EnvConfigMixin):
     tracking_uri: Optional[str] = Field(
         default=None,
-        description="Tracking server URI. If not set, an MLflow default tracking_uri is used (local `mlruns/` directory or `MLFLOW_TRACKING_URI` environment variable)",
+        description=(
+            "Tracking server URI. If not set, an MLflow default tracking_uri is used"
+            " (local `mlruns/` directory or `MLFLOW_TRACKING_URI` environment variable)"
+        ),
     )
     registry_uri: Optional[str] = Field(
         default=None,
-        description="Registry server URI. If not set, an MLflow default registry_uri is used (value of tracking_uri or `MLFLOW_REGISTRY_URI` environment variable)",
+        description=(
+            "Registry server URI. If not set, an MLflow default registry_uri is used"
+            " (value of tracking_uri or `MLFLOW_REGISTRY_URI` environment variable)"
+        ),
     )
     model_name_separator: str = Field(
         default="_",
@@ -399,7 +405,7 @@ def _traverse_mlflow_search_func(
         next_page_token = None
         while True:
             paged_list = search_func(page_token=next_page_token, **kwargs)
-            yield from paged_list
+            yield from paged_list.to_list()
             next_page_token = paged_list.token
             if not next_page_token:
                 return
@@ -622,11 +628,11 @@ def _get_ml_model_properties_workunit(
 
         ml_model_properties = MLModelPropertiesClass(
             customProperties=model_version.tags,
+            externalUrl=self._make_external_url(model_version),
             lastModified=TimeStampClass(
                 time=model_version.last_updated_timestamp,
                 actor=None,
             ),
-            externalUrl=self._make_external_url_from_model_version(model_version),
             description=model_version.description,
             created=TimeStampClass(
                 time=created_time,
@@ -649,15 +655,6 @@ def _make_ml_model_urn(self, model_version: ModelVersion) -> str:
         )
         return urn
 
-    def _make_external_url_from_model_version(
-        self, model_version: ModelVersion
-    ) -> Union[None, str]:
-        base_uri = self.client.tracking_uri
-        if base_uri.startswith("http"):
-            return f"{base_uri.rstrip('/')}/#/models/{model_version.name}/versions/{model_version.version}"
-        else:
-            return None
-
     def _get_base_external_url_from_tracking_uri(self) -> Optional[str]:
         if isinstance(
             self.client.tracking_uri, str

From 5cbc2fc31e0596d8a457ab489b178afb1d763953 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Fri, 21 Feb 2025 15:08:11 +0900
Subject: [PATCH 29/37] revert unncessary changes

---
 metadata-ingestion/src/datahub/ingestion/source/mlflow.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index eb7cba27b9847b..e5184ed3ef0d28 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -640,8 +640,9 @@ def _get_ml_model_properties_workunit(
             ),
             hyperParams=hyperparams,
             trainingMetrics=training_metrics,
+            # mlflow tags are dicts, but datahub tags are lists. currently use only keys from mlflow tags
             tags=list(model_version.tags.keys()),
-            groups=[str(ml_model_group_urn)],
+            groups=[ml_model_group_urn],
             trainingJobs=training_jobs,
         )
         wu = self._create_workunit(urn=ml_model_urn, aspect=ml_model_properties)

From 116385548c9f2eb65fb0df865b3aefd3edca96c1 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Fri, 21 Feb 2025 17:05:31 +0900
Subject: [PATCH 30/37] fix ingestion tests

---
 .../mlflow/mlflow_mcps_golden.json            | 150 +++++++++---------
 .../integration/mlflow/test_mlflow_source.py  |  13 +-
 2 files changed, 82 insertions(+), 81 deletions(-)

diff --git a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
index afdc518e834cf4..904b6fbca1f21c 100644
--- a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
+++ b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
@@ -97,7 +97,7 @@
     "aspect": {
         "json": {
             "customProperties": {
-                "artifacts_location": "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-8/test_ingestion0/mlruns/0"
+                "artifacts_location": "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-35/test_ingestion0/mlruns/0"
             },
             "name": "Default"
         }
@@ -166,7 +166,7 @@
     "aspect": {
         "json": {
             "customProperties": {
-                "artifacts_location": "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-8/test_ingestion0/mlruns/375862264488761128"
+                "artifacts_location": "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-35/test_ingestion0/mlruns/766847104871454225"
             },
             "name": "test-experiment"
         }
@@ -211,7 +211,7 @@
 },
 {
     "entityType": "dataProcessInstance",
-    "entityUrn": "urn:li:dataProcessInstance:d1534a1bb266c4ee4663d78ff4af734f",
+    "entityUrn": "urn:li:dataProcessInstance:2666299269d6ebea994d5ec0c29e3aca",
     "changeType": "UPSERT",
     "aspectName": "dataProcessInstanceProperties",
     "aspect": {
@@ -230,22 +230,6 @@
         "lastRunId": "no-run-id-provided"
     }
 },
-{
-    "entityType": "dataProcessInstance",
-    "entityUrn": "urn:li:dataProcessInstance:d1534a1bb266c4ee4663d78ff4af734f",
-    "changeType": "UPSERT",
-    "aspectName": "container",
-    "aspect": {
-        "json": {
-            "container": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815"
-        }
-    },
-    "systemMetadata": {
-        "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test",
-        "lastRunId": "no-run-id-provided"
-    }
-},
 {
     "entityType": "mlModelGroup",
     "entityUrn": "urn:li:mlModelGroup:(urn:li:dataPlatform:mlflow,test-model,PROD)",
@@ -281,42 +265,13 @@
     }
 },
 {
-    "entityType": "mlModel",
-    "entityUrn": "urn:li:mlModel:(urn:li:dataPlatform:mlflow,test-model_1,PROD)",
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:2666299269d6ebea994d5ec0c29e3aca",
     "changeType": "UPSERT",
-    "aspectName": "mlModelProperties",
+    "aspectName": "container",
     "aspect": {
         "json": {
-            "customProperties": {
-                "model_version_id": "1"
-            },
-            "trainingJobs": [
-                "urn:li:dataProcessInstance:d1534a1bb266c4ee4663d78ff4af734f"
-            ],
-            "created": {
-                "time": 1615443388097
-            },
-            "lastModified": {
-                "time": 1615443388097
-            },
-            "hyperParams": [
-                {
-                    "name": "p",
-                    "value": "1"
-                }
-            ],
-            "trainingMetrics": [
-                {
-                    "name": "m",
-                    "value": "0.85"
-                }
-            ],
-            "tags": [
-                "model_version_id"
-            ],
-            "groups": [
-                "urn:li:mlModelGroup:(urn:li:dataPlatform:mlflow,test-model,PROD)"
-            ]
+            "container": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815"
         }
     },
     "systemMetadata": {
@@ -327,12 +282,14 @@
 },
 {
     "entityType": "dataProcessInstance",
-    "entityUrn": "urn:li:dataProcessInstance:d1534a1bb266c4ee4663d78ff4af734f",
+    "entityUrn": "urn:li:dataProcessInstance:2666299269d6ebea994d5ec0c29e3aca",
     "changeType": "UPSERT",
-    "aspectName": "dataPlatformInstance",
+    "aspectName": "dataProcessInstanceOutput",
     "aspect": {
         "json": {
-            "platform": "urn:li:dataPlatform:mlflow"
+            "outputs": [
+                "urn:li:mlModel:(urn:li:dataPlatform:mlflow,test-model_1,PROD)"
+            ]
         }
     },
     "systemMetadata": {
@@ -343,13 +300,27 @@
 },
 {
     "entityType": "dataProcessInstance",
-    "entityUrn": "urn:li:dataProcessInstance:d1534a1bb266c4ee4663d78ff4af734f",
+    "entityUrn": "urn:li:dataProcessInstance:2666299269d6ebea994d5ec0c29e3aca",
     "changeType": "UPSERT",
-    "aspectName": "dataProcessInstanceOutput",
+    "aspectName": "mlTrainingRunProperties",
     "aspect": {
         "json": {
-            "outputs": [
-                "urn:li:mlModel:(urn:li:dataPlatform:mlflow,test-model_1,PROD)"
+            "customProperties": {},
+            "id": "02660a3bee9941ed983667f678ce5611",
+            "outputUrls": [
+                "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-35/test_ingestion0/mlruns/766847104871454225/02660a3bee9941ed983667f678ce5611/artifacts"
+            ],
+            "hyperParams": [
+                {
+                    "name": "p",
+                    "value": "1"
+                }
+            ],
+            "trainingMetrics": [
+                {
+                    "name": "m",
+                    "value": "0.85"
+                }
             ]
         }
     },
@@ -360,17 +331,24 @@
     }
 },
 {
-    "entityType": "dataProcessInstance",
-    "entityUrn": "urn:li:dataProcessInstance:d1534a1bb266c4ee4663d78ff4af734f",
+    "entityType": "mlModel",
+    "entityUrn": "urn:li:mlModel:(urn:li:dataPlatform:mlflow,test-model_1,PROD)",
     "changeType": "UPSERT",
-    "aspectName": "mlTrainingRunProperties",
+    "aspectName": "mlModelProperties",
     "aspect": {
         "json": {
-            "customProperties": {},
-            "id": "46f1a037b43e4caabe2000573d08bb74",
-            "outputUrls": [
-                "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-8/test_ingestion0/mlruns/375862264488761128/46f1a037b43e4caabe2000573d08bb74/artifacts"
+            "customProperties": {
+                "model_version_id": "1"
+            },
+            "trainingJobs": [
+                "urn:li:dataProcessInstance:2666299269d6ebea994d5ec0c29e3aca"
             ],
+            "created": {
+                "time": 1615443388097
+            },
+            "lastModified": {
+                "time": 1615443388097
+            },
             "hyperParams": [
                 {
                     "name": "p",
@@ -382,6 +360,12 @@
                     "name": "m",
                     "value": "0.85"
                 }
+            ],
+            "tags": [
+                "model_version_id"
+            ],
+            "groups": [
+                "urn:li:mlModelGroup:(urn:li:dataPlatform:mlflow,test-model,PROD)"
             ]
         }
     },
@@ -428,6 +412,22 @@
         "lastRunId": "no-run-id-provided"
     }
 },
+{
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:2666299269d6ebea994d5ec0c29e3aca",
+    "changeType": "UPSERT",
+    "aspectName": "dataPlatformInstance",
+    "aspect": {
+        "json": {
+            "platform": "urn:li:dataPlatform:mlflow"
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
 {
     "entityType": "mlModel",
     "entityUrn": "urn:li:mlModel:(urn:li:dataPlatform:mlflow,test-model_1,PROD)",
@@ -446,7 +446,7 @@
 },
 {
     "entityType": "dataProcessInstance",
-    "entityUrn": "urn:li:dataProcessInstance:d1534a1bb266c4ee4663d78ff4af734f",
+    "entityUrn": "urn:li:dataProcessInstance:2666299269d6ebea994d5ec0c29e3aca",
     "changeType": "UPSERT",
     "aspectName": "subTypes",
     "aspect": {
@@ -495,8 +495,8 @@
     }
 },
 {
-    "entityType": "dataProcessInstance",
-    "entityUrn": "urn:li:dataProcessInstance:d1534a1bb266c4ee4663d78ff4af734f",
+    "entityType": "tag",
+    "entityUrn": "urn:li:tag:mlflow_archived",
     "changeType": "UPSERT",
     "aspectName": "status",
     "aspect": {
@@ -512,7 +512,7 @@
 },
 {
     "entityType": "tag",
-    "entityUrn": "urn:li:tag:mlflow_archived",
+    "entityUrn": "urn:li:tag:mlflow_production",
     "changeType": "UPSERT",
     "aspectName": "status",
     "aspect": {
@@ -528,7 +528,7 @@
 },
 {
     "entityType": "tag",
-    "entityUrn": "urn:li:tag:mlflow_production",
+    "entityUrn": "urn:li:tag:mlflow_none",
     "changeType": "UPSERT",
     "aspectName": "status",
     "aspect": {
@@ -543,8 +543,8 @@
     }
 },
 {
-    "entityType": "tag",
-    "entityUrn": "urn:li:tag:mlflow_none",
+    "entityType": "container",
+    "entityUrn": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815",
     "changeType": "UPSERT",
     "aspectName": "status",
     "aspect": {
@@ -559,8 +559,8 @@
     }
 },
 {
-    "entityType": "container",
-    "entityUrn": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815",
+    "entityType": "dataProcessInstance",
+    "entityUrn": "urn:li:dataProcessInstance:2666299269d6ebea994d5ec0c29e3aca",
     "changeType": "UPSERT",
     "aspectName": "status",
     "aspect": {
diff --git a/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py b/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
index e21dbef61332c3..48ffcc5a4fe1ca 100644
--- a/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
+++ b/metadata-ingestion/tests/integration/mlflow/test_mlflow_source.py
@@ -1,3 +1,4 @@
+import uuid
 from pathlib import Path
 from typing import Any, Dict, TypeVar
 
@@ -41,7 +42,10 @@ def pipeline_config(tracking_uri: str, sink_file_path: str) -> Dict[str, Any]:
 
 
 @pytest.fixture
-def generate_mlflow_data(tracking_uri: str) -> None:
+def generate_mlflow_data(tracking_uri: str, monkeypatch: pytest.MonkeyPatch) -> None:
+    test_uuid = "02660a3bee9941ed983667f678ce5611"
+    monkeypatch.setattr(uuid, "uuid4", lambda: uuid.UUID(test_uuid))
+
     client = MlflowClient(tracking_uri=tracking_uri)
     experiment_name = "test-experiment"
     run_name = "test-run"
@@ -95,12 +99,9 @@ def test_ingestion(
         pytestconfig.rootpath / "tests/integration/mlflow/mlflow_mcps_golden.json"
     )
     ignore_paths = [
-        "root[*]['aspect']['json']['customProperties']['artifacts_location']",
-        "root[*]['aspect']['json']['id']",
-        "root[*]['aspect']['json']['outputUrls']"
-        "root[*]['aspect']['json']['trainingJobs']",
+        r"root\[\d+\]\['aspect'\]\['json'\]\['customProperties'\]\['artifacts_location'\]",
+        r"root\[\d+\]\['aspect'\]\['json'\]\['outputUrls'\]",
     ]
-
     pipeline = Pipeline.create(pipeline_config)
     pipeline.run()
     pipeline.pretty_print_summary()

From b947eecae16cfc2dd6b3061a3e130e6efc6a3766 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Tue, 4 Mar 2025 19:00:39 +0900
Subject: [PATCH 31/37] modify versio-related stuff

---
 .../src/datahub/ingestion/source/mlflow.py    | 35 ++++---------------
 1 file changed, 6 insertions(+), 29 deletions(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index e5184ed3ef0d28..8f8ac280546f13 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -62,7 +62,6 @@
     TimeStampClass,
     VersionPropertiesClass,
     VersionSetKeyClass,
-    VersionSetPropertiesClass,
     VersionTagClass,
     _Aspect,
 )
@@ -508,19 +507,15 @@ def _get_ml_model_workunits(self) -> Iterable[MetadataWorkUnit]:
                     model_version=model_version,
                     run=run,
                 )
-                # yield self._get_ml_model_version_properties_workunit(
-                #     model_version=model_version,
-                #     version_set_urn=version_set_urn,
-                # )
-                # yield self._get_version_latest(
-                #     model_version=model_version,
-                #     version_set_urn=version_set_urn,
-                # )
+                yield self._get_ml_model_version_properties_workunit(
+                    model_version=model_version,
+                    version_set_urn=version_set_urn,
+                )
                 yield self._get_global_tags_workunit(model_version=model_version)
 
     def _get_version_set_urn(self, registered_model: RegisteredModel) -> VersionSetUrn:
         version_set_urn = VersionSetUrn(
-            id=f"{registered_model.name}",  # TODO: where's id?
+            id=f"{registered_model.name}",
             entity_type="mlModel",
         )
 
@@ -542,24 +537,6 @@ def _get_version_set(
 
         return wu
 
-    def _get_version_latest(
-        self, model_version: ModelVersion, version_set_urn: VersionSetUrn
-    ) -> MetadataWorkUnit:
-        ml_model_urn = self._make_ml_model_urn(model_version)
-        version_set_properties = VersionSetPropertiesClass(
-            latest=str(
-                ml_model_urn
-            ),  # TODO: this returns cannot set latest to unversioned entity
-            versioningScheme="ALPHANUMERIC_GENERATED_BY_DATAHUB",  # TODO: wait for change in the backend
-        )
-
-        wu = MetadataChangeProposalWrapper(
-            entityUrn=str(version_set_urn),
-            aspect=version_set_properties,
-        ).as_workunit()
-
-        return wu
-
     def _get_ml_model_version_properties_workunit(
         self,
         model_version: ModelVersion,
@@ -577,7 +554,7 @@ def _get_ml_model_version_properties_workunit(
                 ),
             ),
             versionSet=str(version_set_urn),
-            sortId="AAAAAAAA",  # TODO: wait for change in the backend
+            sortId="",
             aliases=[
                 VersionTagClass(versionTag=alias) for alias in model_version.aliases
             ],

From c0100cd66a1c5bdbc7c75d1fa524f2f8db0e5e89 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Wed, 5 Mar 2025 00:04:42 +0900
Subject: [PATCH 32/37] add more cypress tests

---
 .../mlflow/mlflow_mcps_golden.json            | 27 ++++++
 .../cypress/cypress/e2e/ml/model_mlflow.js    | 85 +++++++++++++++++++
 .../e2e/ml/{model.js => model_sagemaker.js}   |  4 +-
 smoke-test/tests/cypress/data.json            | 64 ++++++++++++++
 4 files changed, 178 insertions(+), 2 deletions(-)
 create mode 100644 smoke-test/tests/cypress/cypress/e2e/ml/model_mlflow.js
 rename smoke-test/tests/cypress/cypress/e2e/ml/{model.js => model_sagemaker.js} (89%)

diff --git a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
index 904b6fbca1f21c..6f24df40c28273 100644
--- a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
+++ b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
@@ -428,6 +428,33 @@
         "lastRunId": "no-run-id-provided"
     }
 },
+{
+    "entityType": "mlModel",
+    "entityUrn": "urn:li:mlModel:(urn:li:dataPlatform:mlflow,test-model_1,PROD)",
+    "changeType": "UPSERT",
+    "aspectName": "versionProperties",
+    "aspect": {
+        "json": {
+            "versionSet": "urn:li:versionSet:(test-model,mlModel)",
+            "version": {
+                "versionTag": "1",
+                "metadataAttribution": {
+                    "time": 1615443388097,
+                    "actor": "urn:li:corpuser:datahub",
+                    "sourceDetail": {}
+                }
+            },
+            "aliases": [],
+            "sortId": "",
+            "versioningScheme": "LEXICOGRAPHIC_STRING"
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
 {
     "entityType": "mlModel",
     "entityUrn": "urn:li:mlModel:(urn:li:dataPlatform:mlflow,test-model_1,PROD)",
diff --git a/smoke-test/tests/cypress/cypress/e2e/ml/model_mlflow.js b/smoke-test/tests/cypress/cypress/e2e/ml/model_mlflow.js
new file mode 100644
index 00000000000000..1cc85de0a4ac76
--- /dev/null
+++ b/smoke-test/tests/cypress/cypress/e2e/ml/model_mlflow.js
@@ -0,0 +1,85 @@
+describe("models", () => {
+  // Add global error handling
+  beforeEach(() => {
+    // This prevents test failures due to unhandled exceptions in the application
+    Cypress.on("uncaught:exception", (err, runnable) => {
+      console.error("Uncaught exception:", err);
+      return false; // Prevents Cypress from failing the test
+    });
+  });
+
+  it("can visit mlflow model groups", () => {
+    // Monitor GraphQL requests to debug API issues
+    cy.intercept("POST", "/api/v2/graphql*").as("graphqlRequest");
+
+    // Visit with improved waiting for page load
+    cy.visitWithLogin(
+      "/mlModelGroup/urn:li:mlModelGroup:(urn:li:dataPlatform:mlflow,sample_ml_model_group,PROD)",
+    );
+
+    // Wait for initial GraphQL request to complete
+    cy.wait("@graphqlRequest");
+
+    // Ensure page has loaded by checking for specific content
+    cy.contains("2025-03-03").should("be.visible");
+    cy.contains("2025-03-04").should("be.visible");
+    cy.contains("urn:li:corpuser:datahub").should("be.visible");
+
+    // Navigate to Properties tab with verification
+    cy.url().should("include", "mlModelGroup");
+    cy.get('[data-node-key="Properties"]').should("be.visible").first().click();
+
+    // Wait for content to load after tab change
+    cy.contains("data_science").should("be.visible");
+
+    // Navigate to Models tab with verification
+    cy.get('[data-node-key="Models"]').should("be.visible").click();
+
+    // Wait for models to load
+    cy.contains("SAMPLE ML MODEL").should("be.visible");
+    cy.contains("A sample ML model").should("be.visible");
+
+    // Click model with verification
+    cy.contains("SAMPLE ML MODEL").click();
+
+    // Verify model details page loaded
+    cy.contains("A sample ML model").should("be.visible");
+  });
+
+  it("can visit mlflow model", () => {
+    // Monitor GraphQL requests
+    cy.intercept("POST", "/api/v2/graphql*").as("graphqlRequest");
+
+    cy.visitWithLogin(
+      "/mlModels/urn:li:mlModel:(urn:li:dataPlatform:mlflow,sample_ml_model,PROD)",
+    );
+
+    // Wait for initial data load
+    cy.wait("@graphqlRequest");
+
+    // Verify model metadata
+    cy.contains("Simple Training Run").should("be.visible");
+    cy.contains("A sample ML model").should("be.visible");
+    cy.contains("val_loss").should("be.visible");
+    cy.contains("max_depth").should("be.visible");
+
+    // Navigate to Properties tab with verification
+    cy.contains("Properties").should("be.visible").click();
+
+    // Wait for properties to load
+    cy.contains("data_science").should("be.visible");
+
+    // Navigate to Group tab with verification
+    cy.contains("Group").should("be.visible").click();
+
+    // Wait for group data to load
+    cy.contains("SAMPLE ML MODEL GROUP").should("be.visible");
+    cy.contains("A sample ML model group").should("be.visible");
+
+    // Click model group with verification
+    cy.contains("SAMPLE ML MODEL GROUP").click();
+
+    // Verify group details page loaded
+    cy.contains("A sample ML model group").should("be.visible");
+  });
+});
diff --git a/smoke-test/tests/cypress/cypress/e2e/ml/model.js b/smoke-test/tests/cypress/cypress/e2e/ml/model_sagemaker.js
similarity index 89%
rename from smoke-test/tests/cypress/cypress/e2e/ml/model.js
rename to smoke-test/tests/cypress/cypress/e2e/ml/model_sagemaker.js
index 9a351100c000f0..d6d3fca0ee6c4a 100644
--- a/smoke-test/tests/cypress/cypress/e2e/ml/model.js
+++ b/smoke-test/tests/cypress/cypress/e2e/ml/model_sagemaker.js
@@ -1,5 +1,5 @@
 describe("models", () => {
-  it("can visit models and groups", () => {
+  it("can visit sagemaker models and groups", () => {
     cy.visitWithLogin(
       "/mlModels/urn:li:mlModel:(urn:li:dataPlatform:sagemaker,cypress-model,PROD)/Summary?is_lineage_mode=false",
     );
@@ -21,7 +21,7 @@ describe("models", () => {
     cy.contains("cypress-model-package-group");
   });
 
-  it("can visit models and groups", () => {
+  it("can visit sagemaker models and groups", () => {
     cy.visitWithLogin(
       "/mlModelGroup/urn:li:mlModelGroup:(urn:li:dataPlatform:sagemaker,cypress-model-package-group,PROD)",
     );
diff --git a/smoke-test/tests/cypress/data.json b/smoke-test/tests/cypress/data.json
index 3511de902df4d3..b5cc7caa7cc49d 100644
--- a/smoke-test/tests/cypress/data.json
+++ b/smoke-test/tests/cypress/data.json
@@ -2680,5 +2680,69 @@
         "container": "urn:li:container:airline_forecast_experiment"
       }
     }
+  },
+  {
+    "entityType": "mlModelGroup",
+    "entityUrn": "urn:li:mlModelGroup:(urn:li:dataPlatform:mlflow,sample_ml_model_group,PROD)",
+    "changeType": "UPSERT",
+    "aspectName": "mlModelGroupProperties",
+    "aspect": {
+      "json": {
+        "customProperties": {
+          "team": "data_science"
+        },
+        "trainingJobs": ["urn:li:dataProcessInstance:simple_training_run"],
+        "name": "SAMPLE ML MODEL GROUP",
+        "description": "A sample ML model group",
+        "created": {
+          "time": 1741096069000,
+          "actor": "urn:li:corpuser:datahub"
+        },
+        "lastModified": {
+          "time": 1741000000000,
+          "actor": "urn:li:corpuser:datahub"
+        }
+      }
+    }
+  },
+  {
+    "entityType": "mlModel",
+    "entityUrn": "urn:li:mlModel:(urn:li:dataPlatform:mlflow,sample_ml_model,PROD)",
+    "changeType": "UPSERT",
+    "aspectName": "mlModelProperties",
+    "aspect": {
+      "json": {
+        "customProperties": {
+          "team": "data_science"
+        },
+        "trainingJobs": ["urn:li:dataProcessInstance:simple_training_run"],
+        "name": "SAMPLE ML MODEL",
+        "description": "A sample ML model",
+        "created": {
+          "time": 1741096069000,
+          "actor": "urn:li:corpuser:datahub"
+        },
+        "lastModified": {
+          "time": 1741000000000,
+          "actor": "urn:li:corpuser:datahub"
+        },
+        "hyperParams": [
+          {
+            "name": "max_depth",
+            "value": "3"
+          }
+        ],
+        "trainingMetrics": [
+          {
+            "name": "val_loss",
+            "value": "0.1"
+          }
+        ],
+        "tags": [],
+        "groups": [
+          "urn:li:mlModelGroup:(urn:li:dataPlatform:mlflow,sample_ml_model_group,PROD)"
+        ]
+      }
+    }
   }
 ]

From 5d67288dac00231478d3f76a85cebed163d2c431 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Wed, 5 Mar 2025 13:58:17 +0900
Subject: [PATCH 33/37] delete versionset and add sortid

---
 .../src/datahub/ingestion/source/mlflow.py    | 20 +------------------
 1 file changed, 1 insertion(+), 19 deletions(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index 8f8ac280546f13..a593154ba0588f 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -61,7 +61,6 @@
     TagPropertiesClass,
     TimeStampClass,
     VersionPropertiesClass,
-    VersionSetKeyClass,
     VersionTagClass,
     _Aspect,
 )
@@ -498,7 +497,6 @@ def _get_ml_model_workunits(self) -> Iterable[MetadataWorkUnit]:
         for registered_model in registered_models:
             version_set_urn = self._get_version_set_urn(registered_model)
             yield self._get_ml_group_workunit(registered_model)
-            yield self._get_version_set(version_set_urn)
             model_versions = self._get_mlflow_model_versions(registered_model)
             for model_version in model_versions:
                 run = self._get_mlflow_run(model_version)
@@ -521,22 +519,6 @@ def _get_version_set_urn(self, registered_model: RegisteredModel) -> VersionSetU
 
         return version_set_urn
 
-    def _get_version_set(
-        self,
-        version_set_urn: VersionSetUrn,
-    ) -> MetadataWorkUnit:
-        version_set_key = VersionSetKeyClass(
-            id=version_set_urn.id,
-            entityType="mlModel",
-        )
-
-        wu = MetadataChangeProposalWrapper(
-            entityUrn=str(version_set_urn),
-            aspect=version_set_key,
-        ).as_workunit()
-
-        return wu
-
     def _get_ml_model_version_properties_workunit(
         self,
         model_version: ModelVersion,
@@ -554,7 +536,7 @@ def _get_ml_model_version_properties_workunit(
                 ),
             ),
             versionSet=str(version_set_urn),
-            sortId="",
+            sortId=str(model_version.version).zfill(10),
             aliases=[
                 VersionTagClass(versionTag=alias) for alias in model_version.aliases
             ],

From eb88a71ee5e6a83e0de10d6dc54321198628a1b9 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Wed, 5 Mar 2025 14:00:59 +0900
Subject: [PATCH 34/37] update golden files

---
 .../mlflow/mlflow_mcps_golden.json            | 19 +------------------
 1 file changed, 1 insertion(+), 18 deletions(-)

diff --git a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
index 6f24df40c28273..58a3de7dcab713 100644
--- a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
+++ b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
@@ -395,23 +395,6 @@
         "lastRunId": "no-run-id-provided"
     }
 },
-{
-    "entityType": "versionSet",
-    "entityUrn": "urn:li:versionSet:(test-model,mlModel)",
-    "changeType": "UPSERT",
-    "aspectName": "versionSetKey",
-    "aspect": {
-        "json": {
-            "id": "test-model",
-            "entityType": "mlModel"
-        }
-    },
-    "systemMetadata": {
-        "lastObserved": 1615443388097,
-        "runId": "mlflow-source-test",
-        "lastRunId": "no-run-id-provided"
-    }
-},
 {
     "entityType": "dataProcessInstance",
     "entityUrn": "urn:li:dataProcessInstance:2666299269d6ebea994d5ec0c29e3aca",
@@ -445,7 +428,7 @@
                 }
             },
             "aliases": [],
-            "sortId": "",
+            "sortId": "0000000001",
             "versioningScheme": "LEXICOGRAPHIC_STRING"
         }
     },

From ddc81613498a4948e5f995c6baab4be19f3560d8 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Wed, 5 Mar 2025 15:52:37 +0900
Subject: [PATCH 35/37] include value in model tag ingestion

---
 metadata-ingestion/src/datahub/ingestion/source/mlflow.py     | 4 ++--
 .../tests/integration/mlflow/mlflow_mcps_golden.json          | 2 +-
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index a593154ba0588f..237ef8a6530a78 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -584,6 +584,7 @@ def _get_ml_model_properties_workunit(
             if model_version.user_id
             else None
         )
+        model_version_tags = [f"{k}:{v}" for k, v in model_version.tags.items()]
 
         ml_model_properties = MLModelPropertiesClass(
             customProperties=model_version.tags,
@@ -599,8 +600,7 @@ def _get_ml_model_properties_workunit(
             ),
             hyperParams=hyperparams,
             trainingMetrics=training_metrics,
-            # mlflow tags are dicts, but datahub tags are lists. currently use only keys from mlflow tags
-            tags=list(model_version.tags.keys()),
+            tags=model_version_tags,
             groups=[ml_model_group_urn],
             trainingJobs=training_jobs,
         )
diff --git a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
index 58a3de7dcab713..2cb9ce02286d88 100644
--- a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
+++ b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
@@ -362,7 +362,7 @@
                 }
             ],
             "tags": [
-                "model_version_id"
+                "model_version_id:1"
             ],
             "groups": [
                 "urn:li:mlModelGroup:(urn:li:dataPlatform:mlflow,test-model,PROD)"

From da253bb0902efce922a6f3089128e0df1a53d036 Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Fri, 7 Mar 2025 16:49:21 +0900
Subject: [PATCH 36/37] reflect code review

---
 .../src/datahub/ingestion/source/mlflow.py    | 53 ++++++++-----------
 .../mlflow/mlflow_mcps_golden.json            | 43 +++++++++++++--
 2 files changed, 61 insertions(+), 35 deletions(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index 237ef8a6530a78..4522591490e229 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -40,9 +40,7 @@
 )
 from datahub.metadata.schema_classes import (
     AuditStampClass,
-    BrowsePathsV2Class,
     ContainerClass,
-    ContainerPropertiesClass,
     DataPlatformInstanceClass,
     DataProcessInstanceOutputClass,
     DataProcessInstancePropertiesClass,
@@ -56,6 +54,7 @@
     MLModelGroupPropertiesClass,
     MLModelPropertiesClass,
     MLTrainingRunPropertiesClass,
+    PlatformResourceInfoClass,
     SubTypesClass,
     TagAssociationClass,
     TagPropertiesClass,
@@ -66,6 +65,7 @@
 )
 from datahub.metadata.urns import (
     DataPlatformUrn,
+    MlModelUrn,
     VersionSetUrn,
 )
 from datahub.sdk.container import Container
@@ -230,33 +230,10 @@ def _get_experiment_container_workunit(
             subtype=MLAssetSubTypes.MLFLOW_EXPERIMENT,
             display_name=experiment.name,
             description=experiment.tags.get("mlflow.note.content"),
+            extra_properties=self._get_experiment_custom_properties(experiment),
         )
 
-        yield MetadataChangeProposalWrapper(
-            entityUrn=str(experiment_container.urn),
-            aspect=SubTypesClass(typeNames=[str(experiment_container.subtype)]),
-        ).as_workunit()
-
-        yield MetadataChangeProposalWrapper(
-            entityUrn=str(experiment_container.urn),
-            aspect=ContainerPropertiesClass(
-                name=experiment_container.display_name,
-                description=experiment_container.description,
-                customProperties=self._get_experiment_custom_properties(experiment),
-            ),
-        ).as_workunit()
-
-        yield MetadataChangeProposalWrapper(
-            entityUrn=str(experiment_container.urn),
-            aspect=BrowsePathsV2Class(path=[]),
-        ).as_workunit()
-
-        yield MetadataChangeProposalWrapper(
-            entityUrn=str(experiment_container.urn),
-            aspect=DataPlatformInstanceClass(
-                platform=str(DataPlatformUrn(self.platform)),
-            ),
-        ).as_workunit()
+        yield from experiment_container.as_workunits()
 
     def _get_run_metrics(self, run: Run) -> List[MLMetricClass]:
         return [
@@ -298,17 +275,28 @@ def _get_run_workunits(
         )
 
         created_time = run.info.start_time or int(time.time() * 1000)
-        created_actor = (
-            f"urn:li:platformResource:{run.info.user_id}" if run.info.user_id else ""
+        user_id = run.info.user_id if run.info.user_id else "mlflow"
+        guid_dict_user = {"platform": self.platform, "user": user_id}
+        platform_user_urn = (
+            f"urn:li:platformResource:{builder.datahub_guid(guid_dict_user)}"
         )
 
+        # TODO: platform resource key class?
+        yield MetadataChangeProposalWrapper(
+            entityUrn=platform_user_urn,
+            aspect=PlatformResourceInfoClass(
+                resourceType="user",
+                primaryKey=user_id,
+            ),
+        ).as_workunit()
+
         yield MetadataChangeProposalWrapper(
             entityUrn=str(data_process_instance.urn),
             aspect=DataProcessInstancePropertiesClass(
                 name=run.info.run_name or run.info.run_id,
                 created=AuditStampClass(
                     time=created_time,
-                    actor=created_actor,
+                    actor=platform_user_urn,
                 ),
                 externalUrl=self._make_external_url_from_run(experiment, run),
                 customProperties=getattr(run, "tags", {}) or {},
@@ -512,9 +500,10 @@ def _get_ml_model_workunits(self) -> Iterable[MetadataWorkUnit]:
                 yield self._get_global_tags_workunit(model_version=model_version)
 
     def _get_version_set_urn(self, registered_model: RegisteredModel) -> VersionSetUrn:
+        guid_dict = {"platform": self.platform, "name": registered_model.name}
         version_set_urn = VersionSetUrn(
-            id=f"{registered_model.name}",
-            entity_type="mlModel",
+            id=builder.datahub_guid(guid_dict),
+            entity_type=MlModelUrn.ENTITY_TYPE,
         )
 
         return version_set_urn
diff --git a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
index 2cb9ce02286d88..12daaf68628e23 100644
--- a/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
+++ b/metadata-ingestion/tests/integration/mlflow/mlflow_mcps_golden.json
@@ -97,7 +97,9 @@
     "aspect": {
         "json": {
             "customProperties": {
-                "artifacts_location": "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-35/test_ingestion0/mlruns/0"
+                "platform": "urn:li:dataPlatform:mlflow",
+                "id": "Default",
+                "artifacts_location": "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-48/test_ingestion0/mlruns/0"
             },
             "name": "Default"
         }
@@ -166,7 +168,9 @@
     "aspect": {
         "json": {
             "customProperties": {
-                "artifacts_location": "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-35/test_ingestion0/mlruns/766847104871454225"
+                "platform": "urn:li:dataPlatform:mlflow",
+                "id": "test-experiment",
+                "artifacts_location": "/private/var/folders/8_/y6mv42x92bl57_f1n4sp37s40000gn/T/pytest-of-yoonhyejin/pytest-48/test_ingestion0/mlruns/766847104871454225"
             },
             "name": "test-experiment"
         }
@@ -209,6 +213,23 @@
         "lastRunId": "no-run-id-provided"
     }
 },
+{
+    "entityType": "platformResource",
+    "entityUrn": "urn:li:platformResource:1bbe5a4af9f91bbd2b4dd90c552008e1",
+    "changeType": "UPSERT",
+    "aspectName": "platformResourceInfo",
+    "aspect": {
+        "json": {
+            "resourceType": "user",
+            "primaryKey": "unknown"
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
 {
     "entityType": "dataProcessInstance",
     "entityUrn": "urn:li:dataProcessInstance:2666299269d6ebea994d5ec0c29e3aca",
@@ -418,7 +439,7 @@
     "aspectName": "versionProperties",
     "aspect": {
         "json": {
-            "versionSet": "urn:li:versionSet:(test-model,mlModel)",
+            "versionSet": "urn:li:versionSet:(658730e7177b283e4f94410fe4b41519,mlModel)",
             "version": {
                 "versionTag": "1",
                 "metadataAttribution": {
@@ -552,6 +573,22 @@
         "lastRunId": "no-run-id-provided"
     }
 },
+{
+    "entityType": "platformResource",
+    "entityUrn": "urn:li:platformResource:1bbe5a4af9f91bbd2b4dd90c552008e1",
+    "changeType": "UPSERT",
+    "aspectName": "status",
+    "aspect": {
+        "json": {
+            "removed": false
+        }
+    },
+    "systemMetadata": {
+        "lastObserved": 1615443388097,
+        "runId": "mlflow-source-test",
+        "lastRunId": "no-run-id-provided"
+    }
+},
 {
     "entityType": "container",
     "entityUrn": "urn:li:container:e37dbaee9481246e0997d7d8fefd8815",

From ea6e399474f821ad45ac391e15afb4c22ee94eeb Mon Sep 17 00:00:00 2001
From: Hyejin Yoon <0327jane@gmail.com>
Date: Fri, 7 Mar 2025 19:20:06 +0900
Subject: [PATCH 37/37] remove todo comment

---
 metadata-ingestion/src/datahub/ingestion/source/mlflow.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
index 4522591490e229..c9e1e4b9796515 100644
--- a/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/mlflow.py
@@ -281,7 +281,6 @@ def _get_run_workunits(
             f"urn:li:platformResource:{builder.datahub_guid(guid_dict_user)}"
         )
 
-        # TODO: platform resource key class?
         yield MetadataChangeProposalWrapper(
             entityUrn=platform_user_urn,
             aspect=PlatformResourceInfoClass(