Artículos

1: Cómo procesar los datos

1: Cómo procesar los datos



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Generalmente, no necesita una computadora para procesar los datos. Sin embargo, las estadísticas contemporáneas son “pesadas” y casi siempre requieren la ayuda técnica de algún tipo de software.


Procesamiento de datos

Procesamiento de datos es, en general, "la recopilación y manipulación de elementos de datos para producir información significativa". [1] En este sentido, se puede considerar un subconjunto de procesamiento de información, "el cambio (procesamiento) de información de cualquier manera detectable por un observador". [nota 1]

El término procesamiento de datos (DP) también se ha utilizado para referirse a un departamento dentro de una organización responsable del funcionamiento de las aplicaciones de procesamiento de datos. [2]


Día 3: Prueba de hipótesis

Hasta ahora, hemos trazado y visualizado datos de varias formas. Hoy, veremos cómo respaldar estadísticamente algunas de las observaciones que hicimos al analizar nuestros datos. Las estadísticas son una herramienta que ayuda a separar las historias respaldadas por datos que generan noticias de las anécdotas únicas. Por lo general, ambos tipos de historias comienzan con una corazonada y las estadísticas nos ayudan a cuantificar la evidencia que respalda esa corazonada.

Siempre que tenga una corazonada (un hipótesis en lenguaje estadístico), lo primero que debe hacer es mirar algunas estadísticas resumidas (por ejemplo, promedios) y explorar los datos gráficamente como lo hicimos ayer. Si las visualizaciones parecen apoyar su corazonada, pasará al modo de prueba de hipótesis.


Estructura de proyecto estandarizada

El hecho de que todos los proyectos compartan una estructura de directorio y utilicen plantillas para los documentos del proyecto facilita que los miembros del equipo encuentren información sobre sus proyectos. Todo el código y los documentos se almacenan en un sistema de control de versiones (VCS) como Git, TFS o Subversion para permitir la colaboración en equipo. El seguimiento de tareas y funciones en un sistema de seguimiento de proyectos ágil como Jira, Rally y Azure DevOps permite un seguimiento más detallado del código para funciones individuales. Este seguimiento también permite a los equipos obtener mejores estimaciones de costos. TDSP recomienda crear un repositorio separado para cada proyecto en el VCS para control de versiones, seguridad de la información y colaboración. La estructura estandarizada para todos los proyectos ayuda a generar conocimiento institucional en toda la organización.

Proporcionamos plantillas para la estructura de carpetas y los documentos requeridos en ubicaciones estándar. Esta estructura de carpetas organiza los archivos que contienen código para la exploración de datos y la extracción de características, y que registran las iteraciones del modelo. Estas plantillas facilitan que los miembros del equipo comprendan el trabajo realizado por otros y agreguen nuevos miembros a los equipos. Es fácil ver y actualizar las plantillas de documentos en formato de rebajas. Utilice plantillas para proporcionar listas de verificación con preguntas clave para cada proyecto para asegurar que el problema esté bien definido y que los entregables cumplan con la calidad esperada. Ejemplos incluyen:

  • una carta del proyecto para documentar el problema comercial y el alcance del proyecto
  • informes de datos para documentar la estructura y las estadísticas de los datos sin procesar
  • informes de modelo para documentar las características derivadas
  • métricas de rendimiento del modelo, como curvas ROC o MSE

La estructura del directorio se puede clonar desde GitHub.


5 pasos para calcular el precio por factura

Según los expertos, el costo de una factura en papel puede oscilar entre $ 12 y $ 30 para procesar con un costo promedio cercano a $ 15.

Mientras que las empresas más grandes con un proceso de cuentas por pagar más complejo pueden costar casi $ 40 por factura. La facturación automatizada en línea cuesta significativamente menos, alrededor de $ 3.50 por proceso de facturación. La automatización puede ahorrarle a su empresa cientos de miles de dólares al año.

La ecuación para calcular el precio por factura: calcule el costo total anual del departamento de Cuentas por pagar (generalmente el total del salario) y divídalo por el número total de facturas procesadas anualmente.

Puede obtener un número aún más preciso siguiendo estos cinco pasos.

1) Mapear el proceso

Este podría ser el paso más difícil porque necesita una comprensión profunda del proceso y todos sus desafíos y obstáculos. Siga todo el proceso de facturación, desde el manejo del correo hasta el archivo una vez completado. Esto le dará una idea clara del tiempo dedicado a la facturación.

2) Quién está involucrado en el proceso

¿Sabe cuántas personas están involucradas en cada paso que enumeró en el proceso de mapeo? Piense en todos los involucrados, no solo en el departamento de cuentas por pagar, sino en todos los involucrados en los pasos de codificación y aprobación. En organizaciones más grandes, esto puede ser realizado por personas de muchos departamentos diferentes.

3) Se invierte tiempo en cada paso del proceso

Ahora que sabe quién está haciendo qué, debe comprender cuánto tiempo le toma a cada miembro del equipo completar sus tareas. Pida a los miembros del equipo que calculen el tiempo que dedican a su función de procesar una factura.

4) Cantidad a la que se le paga a las personas por hora

Ahora que sabe quiénes están involucrados, qué están haciendo y cuánto tiempo dedican a hacerlo, es hora de tener en cuenta su tasa de pago. Desglose el costo por minuto, si tiene más sentido en términos de cuánto tiempo toma cada tarea.

5) Haz las matemáticas

Ahora que tiene toda la información relevante, es hora de hacer la fórmula para averiguar su costo por factura. Multiplique la cantidad de personas por la cantidad de tiempo dedicado a cada tarea por su salario para obtener un valor en dólares de cuánto cuesta el proceso por factura.


Crear y vincular a diagramas de subprocesos

Actualmente, la función Visualizador de datos no admite la creación de subprocesos a partir de una sola tabla de Excel. Sin embargo, puede crear varios diagramas utilizando diferentes tablas en un archivo de Visio y luego vincular formas como una solución alternativa.

En la aplicación de escritorio de Visio, seleccione una plantilla de Visualizador de datos y luego seleccione el Plantilla de datos de Excel enlace para abrir Excel. Luego seleccione Crear para abrir la plantilla Visio Data Visualizer.

Utilice la plantilla de datos de Excel para crear tablas para sus procesos y subprocesos. Coloque la tabla para cada subproceso en una hoja diferente y luego guarde el archivo de Excel.

Por ejemplo, Hoja 1: Proceso principal, Hoja 2: Subproceso1, Hoja 3: Subproceso2.

Vuelva a la aplicación de escritorio de Visio y use el asistente para importar la tabla del proceso principal a la página 1 de su lienzo de Visio.

Debajo del lienzo, seleccione el + para crear una página 2. En la pestaña Datos, seleccione Crear para iniciar de nuevo el asistente de importación. Elija importar datos de la siguiente hoja en el libro de Excel y complete los pasos en el asistente.

Continúe creando nuevas páginas en Visio y usando el asistente para cada una de las tablas de datos de subprocesos que haya creado.

Finalmente, seleccione la página con el diagrama del proceso principal y haga clic con el botón derecho en una forma para vincularla a un subproceso. Seleccione Hipervínculo y vincúlelo a cualquier forma en uno de los diagramas de subproceso.


3.4 Identificar relaciones

La Figura 5 muestra un LDM parcial para un sistema de pedidos en línea. Lo primero que hay que notar son los diversos estilos que se aplican a los nombres y roles de las relaciones: las diferentes relaciones requieren diferentes enfoques. Por ejemplo, la relación entre Cliente y Pedido tiene dos nombres, lugares y es colocado por, mientras que la relación entre Cliente y Habla a Tiene uno. En este ejemplo, tener un segundo nombre en la relación, la idea es que desea especificar cómo leer la relación en cada dirección, es redundante; es mejor encontrar una redacción clara para un solo nombre de relación, lo que reduce el desorden en su diagrama. De manera similar, a menudo encontrará que al especificar los roles que desempeña una entidad en una relación, a menudo se anulará la necesidad de darle un nombre a la relación (aunque algunas herramientas CASE pueden obligarlo a hacer esto sin darse cuenta). Por ejemplo, el papel de Dirección de Envio y la etiqueta facturado a son claramente redundantes, realmente solo necesita uno. Por ejemplo el rol parte de que Elemento en linea tiene en su relación con Pedido es suficientemente obvio sin un nombre de relación.

Figura 5. Un modelo de datos lógicos (notación de Ingeniería de la Información).

También es necesario identificar la cardinalidad y la opcionalidad de una relación (el UML combina los conceptos de opcionalidad y cardinalidad en el concepto único de multiplicidad). La cardinalidad representa el concepto de "cuántos", mientras que la opcionalidad representa el concepto de "si debe tener algo". Por ejemplo, no es suficiente saber que los clientes realizan pedidos. ¿Cuántos pedidos puede realizar un cliente? ¿Ninguno, uno o varios? Además, las relaciones son bidireccionales: los clientes no solo hacen pedidos, sino que los hacen los clientes. Esto lleva a preguntas como: ¿cuántos clientes se pueden inscribir en un pedido determinado y es posible tener un pedido sin ningún cliente involucrado? La Figura 5 muestra que los clientes realizan cero o más pedidos y que cualquier pedido determinado lo realiza un cliente y solo un cliente. También muestra que un cliente vive en una o más direcciones y que cualquier dirección dada tiene cero o más clientes viviendo en ella.

Aunque UML distingue entre diferentes tipos de relaciones (asociaciones, herencia, agregación, composición y dependencia), los modeladores de datos a menudo no están tan preocupados por este tema como los modeladores de objetos. La subtipificación, una aplicación de la herencia, se encuentra a menudo en modelos de datos, un ejemplo de lo cual es el es un relación entre Artículo y son dos "subentidades" Servicio y Producto. La agregación y la composición son mucho menos comunes y, por lo general, deben estar implícitas en el modelo de datos, como puede ver con el parte de papel que Elemento en linea toma con Pedido. Las dependencias UML suelen ser una construcción de software y, por lo tanto, no aparecerían en un modelo de datos, a menos que, por supuesto, fuera un modelo físico muy detallado que mostrara cómo las vistas, los disparadores o los procedimientos almacenados dependían de otros aspectos del esquema de la base de datos.


Datos de importacion

1. Abra una hoja de cálculo de Excel en blanco y siga las instrucciones de "Consejos profesionales de Excel: Importación y análisis de datos". Tenga en cuenta que toda la información se importa en un campo, por lo que debe analizar los datos para dividir esta cadena de texto en campos separados. Tenga en cuenta que analizar los datos utilizados en el artículo de referencia fue muy sencillo porque cada campo contenía registros similares.

2. En nuestro ejemplo, solo ingresaremos una docena de registros, que podría editar manualmente en unos minutos. Pero la técnica que les mostraré funcionará para editar miles de registros. Nota: Para el resto de este artículo, supongamos que su hoja de cálculo tiene 1000 registros. Los campos de esta base de datos son Nombre, Título, Ubicación de la sucursal, Ciudad y Estado, que son cinco columnas (o campos).

Los seis campos importados en una columna


El proceso de Poisson

El proceso de Poisson se puede utilizar para modelar el número de ocurrencias de eventos, como las llegadas de pacientes a la sala de emergencias, durante un cierto período de tiempo, como 24 horas, asumiendo que uno conoce la ocurrencia promedio de esos eventos durante un período de tiempo. Por ejemplo, un promedio de 10 pacientes ingresan a la sala de emergencias por hora.

El proceso de Poisson tiene las siguientes propiedades:

  1. Está formado por una secuencia de variables aleatorias. X1, X2, X3,… Xk de manera que cada variable representa el número de ocurrencias de algún evento, como pacientes que ingresan a una sala de emergencias, durante algún intervalo de tiempo.
  2. Es un proceso estocástico. Cada vez que ejecute el proceso de Poisson, producirá una secuencia diferente de resultados aleatorios según alguna distribución de probabilidad que veremos pronto.
  3. Es un proceso discreto. Los resultados del proceso de Poisson son el número de ocurrencias de algún evento en el período de tiempo especificado, que sin duda es un número entero, es decir, un número discreto.
  4. Tiene incrementos independientes. Lo que esto significa es que el número de eventos que el proceso predice que ocurrirán en cualquier intervalo dado, es independiente del número en cualquier otro intervalo disjunto. Por ej. el número de personas que ingresan a la sala de emergencias desde el momento cero (inicio de la observación) hasta las 10 a. m., es independiente del número que ingresa desde las 3:33 p. m. hasta las 8:26 p.
  5. Variables constituyentes del proceso de Poisson X1, X2, X3,… Xktodos tienen distribución idéntica.
  6. Variables constituyentes del proceso de Poisson X1, X2, X3,… Xktodos tienen un distribución de veneno, que viene dado por el PAGrobabilidad METROculo Función:

La fórmula anterior nos da la probabilidad de ocurrencia de k eventos en unidad de tiempo, dado que la tasa de ocurrencia promedio es λ eventos por unidad de tiempo.

Las siguientes 4 gráficas muestran la forma del PMF para diferentes valores de λ:

En cada gráfico, puede ver que la probabilidad alcanza su punto máximo en el valor correspondiente de λ, y disminuye gradualmente a ambos lados de este valor.

En cada gráfico, la suma de probabilidades para todos los valores posibles de k es siempre 1.0, es decir, es seguro que uno de los resultados se materializará.

Echemos un vistazo más de cerca a la situación cuando λ = 5. En nuestro ejemplo, esto corresponde a cinco llegadas de pacientes por hora. La probabilidad de que 0,1, 2, 3,…, 10, 11,… etc. pacientes ingresen a la sala de emergencias en una hora Se ve como esto:

Como puede ver, la probabilidad alcanza su punto máximo en k = 5.

Para conocer la probabilidad de k pacientes entrando a la sala de emergencias en t horas, lo modelamos como un proceso de Poisson con una tasa (λt).La fórmula correspondiente para el PMF para k ocurrencias en el tiempo t Se ve como esto:

El siguiente conjunto de distribuciones de probabilidad se ha generado utilizando la fórmula de distribución de Poisson anterior al escalar la tasa λ por un intervalo de tiempo diferente t:


Publicado el 15 de septiembre de 2014

Organizaciones de todos los tipos, formas y tamaños se están ahogando en un maremoto de datos.

Cuando observa cuánto se ha expandido el big data, puede resultar alarmante. Por ejemplo, Google recibe más de 2 millones de consultas de búsqueda cada minuto. A mayor escala, los seres humanos actualmente generan aproximadamente 2,5 trillones de bytes de datos cada día.

Aquí hay una forma de ver esta estadística: el 90 por ciento de los datos del mundo se ha creado solo en los últimos dos años. El surgimiento de una multitud de fuentes, desde las redes sociales hasta la web y el uso ampliado de sensores, está dificultando que las organizaciones le den sentido a los datos. Cuando esto ocurre, es casi imposible traducir la información en algo procesable que proporcione un retorno de la inversión (ROI) tangible.

Afortunadamente, el aumento de las pantallas de datos visuales o la visualización de datos está ayudando a satisfacer esta necesidad.

La visualización funciona desde una perspectiva humana porque respondemos y procesamos los datos visuales mejor que cualquier otro tipo de datos. De hecho, el cerebro humano procesa imágenes 60.000 veces más rápido que el texto y el 90 por ciento de la información transmitida al cerebro es visual. Dado que somos visuales por naturaleza, podemos utilizar esta habilidad para mejorar el procesamiento de datos y la eficacia organizativa.

Las empresas manejan datos que son muy complejos, con relaciones multidimensionales entre muchos conjuntos de datos masivos y diferentes. Estos podrían incluir ventas, ubicaciones de sitios, datos demográficos, carreteras y promociones, cada uno como su propio conjunto de datos complejos.

La buena noticia es que todos estos datos son geoespaciales y se pueden presentar de forma visual. Los datos de varios departamentos se pueden liberar de sus respectivos silos y crear una toma de decisiones más rápida y precisa. Además, la información visual facilita la colaboración y genera nuevas ideas que impactan el desempeño organizacional.

Los seres humanos son criaturas visuales. Como tal, es el momento adecuado para que las organizaciones implementen nuevas soluciones para aprovechar la visualización de datos y desbloquear su verdadero potencial para cumplir la misión y los objetivos comerciales.

- Harris Eisenberg, vicepresidente ejecutivo

CIENCIAS TERMOPILAS + TECNOLOGÍA
1911 N. Fort Myer Dr. Suite 700
Arlington, VA 22209
703-740-8768


# 2 Compare Cp con Cpk

Cp es similar a Cpk en que cuanto menor es el número, peor es el proceso, y podemos usar el mismo patrón oro 1.33. Sin embargo, las dos estadísticas y sus fórmulas correspondientes difieren en que Cp solo compara la distribución de los datos con el ancho de tolerancia, y no no tener en cuenta si el proceso está realmente centrado entre los límites de las especificaciones.

Interpretar Cp es muy parecido a preguntar "¿cabrá mi coche en el garaje?" donde los datos son su automóvil y los límites de especificaciones son las paredes de su garaje. No tomamos en cuenta si eres o no un conductor malo y si realmente puedes conducir recto y centrar el auto; solo estamos viendo si tu auto es o no lo suficientemente estrecho como para adaptarse físicamente.

Ejemplo 1: El análisis de Diameter1 tiene un Cp de 1,64, lo cual es muy bueno. Debido a que Cp es bueno, sabemos que la variación es aceptable: podemos colocar físicamente nuestro automóvil en el garaje. Sin embargo, Cpk, que cuenta si el proceso está centrado o no, es horrible, a solo 0,35.

R: Cambie la media para centrar el proceso entre las especificaciones, sin aumentar la variación.

Ejemplo 2: El análisis para el diámetro 2 muestra que Cp = 0,43 y Cpk = 0,41. Debido a que Cp es malo, sabemos que hay demasiadas variaciones: nuestro automóvil no puede caber físicamente en el garaje. Y debido a que los valores de Cp y Cpk son similares, esto nos dice que el proceso está bastante centrado.

R: Reducir la variación, manteniendo el mismo promedio.

Ejemplo 3: El análisis para el diámetro 3 tiene un Cp = 0.43 y Cpk = -0.23. Debido a que Cp es malo, sabemos que hay demasiada variación. Y como Cp ni siquiera está cerca de Cpk, sabemos que el proceso también está descentrado.

A. Cambie la media Y reduzca la variación.


Ver el vídeo: The Data Science Process - A Visual Guide Part 1 (Agosto 2022).