huggingface
diff --git a/‎docs/source/en/api/pipelines/cogvideox.md
Lines changed: 7 additions & 1 deletion b/‎docs/source/en/api/pipelines/cogvideox.md
Lines changed: 7 additions & 1 deletion
diff --git a/‎src/diffusers/__init__.py
Lines changed: 2 additions & 0 deletions b/‎src/diffusers/__init__.py
Lines changed: 2 additions & 0 deletions
diff --git a/‎src/diffusers/pipelines/__init__.py
Lines changed: 2 additions & 2 deletions b/‎src/diffusers/pipelines/__init__.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/diffusers/pipelines/cogvideo/__init__.py
Lines changed: 2 additions & 0 deletions b/‎src/diffusers/pipelines/cogvideo/__init__.py
Lines changed: 2 additions & 0 deletions
diff --git a/‎src/diffusers/pipelines/cogvideo/pipeline_cogvideox.py
Lines changed: 2 additions & 17 deletions b/‎src/diffusers/pipelines/cogvideo/pipeline_cogvideox.py
Lines changed: 2 additions & 17 deletions
@@ -98,6 +98,12 @@ It is also worth noting that torchao quantization is fully compatible with [torc
   - all
   - __call__
 
+## CogVideoXVideoToVideoPipeline
+
+[[autodoc]] CogVideoXVideoToVideoPipeline
+  - all
+  - __call__
+
 ## CogVideoXPipelineOutput
 
-[[autodoc]] pipelines.cogvideo.pipeline_cogvideox.CogVideoXPipelineOutput
+[[autodoc]] pipelines.cogvideo.pipeline_output.CogVideoXPipelineOutput
@@ -255,6 +255,7 @@
             "BlipDiffusionPipeline",
             "CLIPImageProjection",
             "CogVideoXPipeline",
+            "CogVideoXVideoToVideoPipeline",
             "CycleDiffusionPipeline",
             "FluxControlNetPipeline",
             "FluxPipeline",
@@ -699,6 +700,7 @@
             AuraFlowPipeline,
             CLIPImageProjection,
             CogVideoXPipeline,
+            CogVideoXVideoToVideoPipeline,
             CycleDiffusionPipeline,
             FluxControlNetPipeline,
             FluxPipeline,
 
@@ -132,7 +132,7 @@
         "AudioLDM2UNet2DConditionModel",
     ]
     _import_structure["blip_diffusion"] = ["BlipDiffusionPipeline"]
-    _import_structure["cogvideo"] = ["CogVideoXPipeline"]
+    _import_structure["cogvideo"] = ["CogVideoXPipeline", "CogVideoXVideoToVideoPipeline"]
     _import_structure["controlnet"].extend(
         [
             "BlipDiffusionControlNetPipeline",
@@ -454,7 +454,7 @@
         )
         from .aura_flow import AuraFlowPipeline
         from .blip_diffusion import BlipDiffusionPipeline
-        from .cogvideo import CogVideoXPipeline
+        from .cogvideo import CogVideoXPipeline, CogVideoXVideoToVideoPipeline
         from .controlnet import (
             BlipDiffusionControlNetPipeline,
             StableDiffusionControlNetImg2ImgPipeline,
 
@@ -23,6 +23,7 @@
     _dummy_objects.update(get_objects_from_module(dummy_torch_and_transformers_objects))
 else:
     _import_structure["pipeline_cogvideox"] = ["CogVideoXPipeline"]
+    _import_structure["pipeline_cogvideox_video2video"] = ["CogVideoXVideoToVideoPipeline"]
 
 if TYPE_CHECKING or DIFFUSERS_SLOW_IMPORT:
     try:
@@ -33,6 +34,7 @@
         from ...utils.dummy_torch_and_transformers_objects import *
     else:
         from .pipeline_cogvideox import CogVideoXPipeline
+        from .pipeline_cogvideox_video2video import CogVideoXVideoToVideoPipeline
 
 else:
     import sys
 
@@ -15,7 +15,6 @@
 
 import inspect
 import math
-from dataclasses import dataclass
 from typing import Callable, Dict, List, Optional, Tuple, Union
 
 import torch
@@ -26,9 +25,10 @@
 from ...models.embeddings import get_3d_rotary_pos_embed
 from ...pipelines.pipeline_utils import DiffusionPipeline
 from ...schedulers import CogVideoXDDIMScheduler, CogVideoXDPMScheduler
-from ...utils import BaseOutput, logging, replace_example_docstring
+from ...utils import logging, replace_example_docstring
 from ...utils.torch_utils import randn_tensor
 from ...video_processor import VideoProcessor
+from .pipeline_output import CogVideoXPipelineOutput
 
 
 logger = logging.get_logger(__name__)  # pylint: disable=invalid-name
@@ -136,21 +136,6 @@ def retrieve_timesteps(
     return timesteps, num_inference_steps
 
 
-@dataclass
-class CogVideoXPipelineOutput(BaseOutput):
-    r"""
-    Output class for CogVideo pipelines.
-
-    Args:
-        frames (`torch.Tensor`, `np.ndarray`, or List[List[PIL.Image.Image]]):
-            List of video outputs - It can be a nested list of length `batch_size,` with each sub-list containing
-            denoised PIL image sequences of length `num_frames.` It can also be a NumPy array or Torch tensor of shape
-            `(batch_size, num_frames, channels, height, width)`.
-    """
-
-    frames: torch.Tensor
-
-
 class CogVideoXPipeline(DiffusionPipeline):
     r"""
     Pipeline for text-to-video generation using CogVideoX.
Original file line number	Diff line number	Diff line change
`@@ -132,7 +132,7 @@`
`132`	`132`	`"AudioLDM2UNet2DConditionModel",`
`133`	`133`	`]`
`134`	`134`	`_import_structure["blip_diffusion"] = ["BlipDiffusionPipeline"]`
`135`		`- _import_structure["cogvideo"] = ["CogVideoXPipeline"]`
	`135`	`+ _import_structure["cogvideo"] = ["CogVideoXPipeline", "CogVideoXVideoToVideoPipeline"]`
`136`	`136`	`_import_structure["controlnet"].extend(`
`137`	`137`	`[`
`138`	`138`	`"BlipDiffusionControlNetPipeline",`
`@@ -454,7 +454,7 @@`
`454`	`454`	`)`
`455`	`455`	`from .aura_flow import AuraFlowPipeline`
`456`	`456`	`from .blip_diffusion import BlipDiffusionPipeline`
`457`		`- from .cogvideo import CogVideoXPipeline`
	`457`	`+ from .cogvideo import CogVideoXPipeline, CogVideoXVideoToVideoPipeline`
`458`	`458`	`from .controlnet import (`
`459`	`459`	`BlipDiffusionControlNetPipeline,`
`460`	`460`	`StableDiffusionControlNetImg2ImgPipeline,`