Planificación de una web

Desde hace algún tiempo vengo dándole vueltas a estudiar con un poco de detenimiento el impacto que tiene la hora de publicación de los post en un blog sobre las visitas que obtienen.

Hay bastante literatura al respecto en internet, aunque generalmente, con pocos datos que la sustenten.

Esta es una primera aproximación, que habrá que refinar o repetir en un futuro para contrastar los resultados.

A continuación os adjunto un gráfico, en el cual podemos observar la media de visitas que obtienen los post por la hora de publicación.

Media de Visitas por hora

Aunque existe un riesgo grande de que los datos estén sesgados por los artículos “de exito”, un vistazo rápido, contradice mucho de lo que había leido sobre el tema, ya que habitualmente, se recomienda publicar a primeras horas del día.

Vemos que el punto optimo, es entre las 16:00 y las 17:00 y aunque es más que posible, que la cresta sea demasiado alta, si se observa una clara tendencia creciente hasta esas horas.

Dentro de algún tiempo, repetiremos el experimento, para confirmar (o no) si los resultados se mantienen a lo largo del tiempo.

Mientras tanto, ¿habéis observado en vuestros blogs o webs alguna relación entre la hora de publicación y la cantidad de visitas?

P.D: He utilizado los datos de las visitas de Prismablog

He tenido el blog un poco descuidado, aunque hay un motivo para ello, todo ha cambiado.

La idea del blog era ir narrando como era la evolución de un proyecto, pero hace cosa de 1 año, por circunstancias con las que no quiero aburriros, lo vendí.

Mirando hacia atrás, es difícil saber si fue una decisión acertada, pero como no conozco a nadie que tenga un Delorean (¿se escribe así?), hay que seguir hacia adelante.

No obstante, hace unas semanas comencé con un nuevo proyecto, un blog sobre política, el cual aun esta en pañales, pero que va cogiendo forma.

El día 1 de septiembre empezaremos con fuerza, pero mientras tanto, si os interesa el tema, podéis pasaros y dejar vuestras impresiones y comentarios.

Prisma Blog – Tres visiones de política

Aqui os dejo el desarrollo del proyecto de mineria de texto del que os hable hace unos dias, espero que os parezca interesante.

Etiquetas: ,

Si todo sigue el ritmo de los últimos dias, la tan citada migración comenzara el sabado (o por lo menos ya estara todo listo para ello). Ultimando los preparativos, hemos topado con los especiales.

Una sección que comenzo con la propia web, por el 2004, muchos de ellos, los primeros sobre todo, son casi páginas aisladas dentro del portal, algunos incluso siguen teniendo el diseño anterior, por el tiempo que requería pasarlos al nuevo.

Por ello, al menos temporalmente, no sin pena, me veo obligado a relegar a varios de ellos al obstracismo, sobre todo los primeros.  Los que voy a “sacar de la mochila” son los siguientes:

Festival de Malaga 2005

A este texto le tengo especial cariño, no lo escribi yo, se lo debemos a María Sanchez Gonzalez, que siguio haciendo coberturas para otros medios (y ya hacia antes). Es el más profesional de los especiales, pero al ser tambien de los primeros, adaptarlo seria volver a hacerlo, por lo que por el momento, no se viene a la nueva versión. Eso si, de los que voy a eliminar, este es el único que si me gustaria retomarlo cuando tenga más tiempo.

II Festival de Cine de Alicante

Una pequeña cobertura que hice yo mismo al festival de cine de alicante cuando empezaba. Este aunque no tiene demasiado contenido, tampoco aporta mucho, asi que no hay más opciones que eliminarlo.

Semana del Cortometraje de la Comunidad de Madrid 2005

El 2005 parece que fue un año muy interesante para el portal (como pasa el tiempo). Este especial parece que lo hice para satisfacer mi propio ego, ya que fui invitado a la semana del cortometraje madrileño, pero la información que pongo sobre la semana del cortometraje es muy anecdótica, por lo que…al cajón.

House, Temporada 3

Una reseña de los capítulos de la 3 temporada de House…sin demasiada conexión con el resto del portal.

El resto de los especiales, excepto los de Cálico Electrónico, ya siguen unas pautas, por lo que el trabajo es más sencillo, y migrando uno, migran todos (más o menos).

Bueno, aprobecho este momento para agradecer a toda la gente que ha colaborado en algun especial en cinecin:

Beat Henrique, Gracias.

Laura Valero, Gracias (Esta es familia).

Maria Sanchez Gonzalez, Gracias.

Nikodemo, Gracias.

Chico Morera, Gracias.

Como os contaba en el anterior post, estoy haciendo una asignatura de minería de datos, en la cual hemos de realizar un proyecto de minería de datos a nuestra elección. Como es natural teniendo en cuenta el nuevo enfoque que quiero darle a cinecin, decidí hacerlo sobre los datos del portal.

Gracias a la inspiración del libro Inteligencia colectiva, estoy tratando de rescatar de una manera automática las características independientes de las películas mediante factorización de matrices no negativas.

Entonces…¿que es lo que estoy haciendo?. Pues la idea es más simple de lo que puede parecer.

Primero creamos una matriz (Enorme) en la que las filas son las películas y las columnas el numero de veces que sale una palabra en los textos que tenemos sobre ella en cinecin (Críticas, comentarios y sinopsis). Así en la posición [i][j] tendremos el numero de veces que aparece la palabra j en la película i. A esta matriz le llamaremos matriz de películas.

Luego utilizamos un poco las matemáticas, por lo que para entender esto, es necesario saber como funcionan la multiplicación de matrices.

Vamos a tratar de conseguir dos matrices más pequeñas, que serán la matriz de características y la matriz de pesos que paso a describiros.

Matriz de características: Esta matriz tiene una fila para cada característica y una columna para cada palabra. Los valores indican lo importante que es una palabra para una característica. Cada característica debería representar un tema que emerge del conjunto, de modo que en teoria, de una película romántica, cabría esperar que que le otrogue mayor peso a la palabra “Amor”, “Relaciones” o algo similar.

Matriz de pesos: Esta matriz mapea las características a la matriz de películas. Cada fila es una película y cada columna es una característica. Los valores indican cuánta característica se aplica a cada película.

(Las explicaciones de las matrices han sido sacadas del libro que os he comentado anteriormente)

matrices1

Este es un algoritmo con un coste computacional muy alto, ya que tiene que realizar multiplicaciones de matrices muy grandes, y para nuestro catalogo de películas, realizar del orden de 10.000.000 millones de multiplicaciones (simples) por cada multiplicación de dos matrices. Teniendo en cuenta que el algoritmo va buscando las dos posibles mejores matrices de características y pesos por conteo y error (lo que hace es un poco más sofisticado), por lo que cuantas más veces lo hagamos, mejores seran los resultados, al final, nos sale que solo en este punto, debe realizar cerca de 1.000.000.000 millones de multiplicaciones.

He realizado algunas pruebas con un subconjunto de las películas para ver si los resultados eran interesantes.  Las pruebas han sido realizadas buscando 100 características entre 500 películas.  Una de las características encontradas es la siguiente:

['monstruos', 'pretensiones', 'aventuras', 'especiales', 'interesante', 'escenarios']

Y las dos películas que más se adecuan a ella son:

(40.37530089748217, u’Van Helsing (Van Helsing)’)

(6.9470342492382224, u’Hellboy (Hellboy)’)

Además, vemos que Van Helsing se adecua a esta característica mucho mejor que HellBoy, aunque ambas muestras un grado alto de relación. Parece que monstruos,aventuras y bonitos escenarios podrían ser buenas palabras para hablar sobre estas películas.

Otra característica es:
['alejandro', 'ambientada', 'decorados', 'acostumbrados', 'personaje', 'realizado']
(51.222888588756831, u’Alejandro Magno (Alexander)’)

(0.20527926974419811, u’Mar adentro (Mar adentro)’)

(0.058286842414668125, u’Oceanos de fuego (Hidalgo) (Hidalgo)’)

Aqui podemos observar, que parece que la película Alejandro Magno, no ha conseguido relacionarse bien con el resto de carácterísticas y tiene una para ella.  Esto se puede ver facilmente porque el resto de películas tienen un grado muy bajo de relación.

Aunque la aplicación directa de esto para cinecin no es simple, ya que cada vez que queramos sacar los temas de una película nueva, necesitamos realizar todo el proceso, puede ser una buena manera de extraer palabras clave para las películas.

Espero haber podido explicar bien el algoritmo y el proceso de obtención de información a partir de unos datos aparentemente triviales.

Como os iba contando… ya tengo el portal migrado a PHP a un 80% la parte pública y un 60% la parte de administración. Por lo que en breve comenzaremos con la migración interna a PHP (Sin cambio de servidor) y pasado un tiempo, haremos el cambio de servidor.

¿Porqué? Simple, si lo hago todo en un paso, todas las páginas indexadas por google se perderían, ya que en el nuevo servidor no hay soporte para ASP (Ya que el equipo es Linux). Por lo tanto, una vez que estemos funcionando en PHP, habrá que redirigir las páginas a sus nuevas hermanas (clónicas) en php. Ahora mismo no recuerdo el tipo de redirección que era, aunque eso con una simple búsqueda en google se soluciona.

Por otro lado, retomando el tema que ha motivado todo esto, la evolución de cinecin.com, he estado leyendo y viendo temas muy interesantes últimamente.

Por un lado, estoy cursando una asignatura de minería de datos, por decirlo de alguna manera, en la que se han comentado algunas cosas interesantes, como algunos algoritmos que permiten determinar qué cosas tener en cuenta para predecir valores, o metodos para generar subconjuntos, que aplicado aqui, seria generar grupos de usuarios con mayor afinidad, para reducir el espacio de busqueda de como se llaman en filmaffinity, almas gemelas.

Por otro lado, si os interesa el tema, también me he comprado un libro, llamado Inteligencia Colectiva: Desarrollo de aplicaciones web 2.0, de la editorial Anaya, que aunque el título, en su postilla  no me gusta (creo que web 2.0 es al desarrollo en internet como gratis a la publicidad), es muy interesante. Hace una recopilación de distintos tipos de algoritmos para muchos de los propósitos que me interesan. Aunque hay que mencionar que para el tema de las recomendaciones no aporta nada nuevo a los artículos que comente que hay por internet, si hace una explicación más elemental, que si las matemáticas no son lo tuyo, viene muy bien.

En un futuro (espero que a corto plazo), hare un esquema de las posibilidades que hay para realizar las recomendaciones, y algunas ideas que me rondan por la cabeza acerca de los métodos que he leído.

Hace casi dos meses que no he podido sacar tiempo para escribir y siendo francos, también ha sido mucho menos del que hubiese querido para desarrollar.

Aunque por otro lado, ha sido un periodo de decisiones y cambios.

Por un lado, en la parte más práctica, tras negociar con mi actual empresa de hosting, hemos actualizados los términos de su contrato de servicios, para poder explotar el futuro cinecin. En el próximo mes, migraremos de servidor, a plataforma Linux y con más recursos.

Esto implica que hay que realizar una migración del portal a php lo más rápido posible, y  para ello, he creído conveniente, aplazar el nuevo diseño de la página, y centrarnos en el núcleo de la aplicación, la colección de clases que harán (en principio), todo el trabajo, centralizando en un único punto, todas las acciones, logrando una escalabilidad y mantenimiento mucho más simples.

Por otro lado, hay que ser conscientes de la realidad y de la capacidad de tiempo disponible para el desarrollo, por lo que durante esta semana espero hacer un plan temporal en el que por lo menos marcar unas horas de desarrollo por semana y unos objetivos mensuales.

Seguir

Recibe cada nueva publicación en tu buzón de correo electrónico.