[Solar-general] Fwd: [Softwarelibre] El poder de R.
Diego Saravia
dsa en unsa.edu.ar
Vie Ene 9 17:07:21 CET 2009
Date: Sat, 10 Jan 2009 10:41:48
To: Lista General de Discusión Sobre Software Libre<softwarelibre en solve.net.ve>
Subject: [Softwarelibre] El poder de R.
Traducción libre del artículo publicado en el New York Times el 7 de
enero (http://www.nytimes.com/2009/01/07/technology/business-computing/07program.html)
Creo que vale la pena comentarlo.
=====
7 de enero de 2009
Los analistas de datos, cautivados por la Potencia R
Por ASHLEE VANCE
Para algunas personas R es sólo la decimoctava letra del alfabeto.
Para otros, es la calificación de películas subidas de tono, una
medida del aislamiento de un ático o lo que dicen los piratas en las
películas.
R es también el nombre de un popular lenguaje de programación
utilizado por un número creciente de analistas de datos dentro de las
empresas y el mundo académico. Se está convirtiendo en su "lingua
franca" en parte debido a que la minería de datos ha entrado en una
edad de oro, ya sea para fijar los precios de anuncios, encontrar
nuevos medicamentos con mayor rapidez o perfeccionar modelos
financieros. Empresas tan diversas como Google, Pfizer, Merck, Bank of
America, el InterContinental Hotels Group y Shell lo utilizan.
Pero R también ha juntado seguidores rápidamente porque estadísticos,
ingenieros y científicos sin capacidades de programación lo encuentran
fácil de usar.
"R es realmente importante hasta el punto de que es difícil
sobrevalorarlo", dijo Daryl Pregibon, un científico investigador de
Google, que utiliza el software ampliamente. "Permite a los
estadísticos a hacer análisis muy intrincados y complejos sin conocer
la sangre y las tripas de los sistemas de computación."
También es libre. R es un programa de código abierto, y su popularidad
refleja un cambio en el tipo de software utilizado en las empresas. El
software de código abierto es libre de utilizar y modificar para
cualquier persona. IBM, Hewlett-Packard y Dell hacen miles de millones
de dólares al año vendiendo de servidores que ejecutan sistema
operativo de código abierto Linux, que compite con Windows de
Microsoft. La mayoría de los sitios web son desplegados usando una
aplicación de código abierto llamada Apache, y las empresas confían
cada vez más en la base de datos de código abierto MySQL para
almacenar su información crítica. Muchas personas visualizan los
resultados finales de toda esta tecnología a través del navegador web
Firefox, también un software de código abierto.
R es similar a otros lenguajes de programación, como C, Java y Perl,
en la medida en que ayuda a las personas a realizar una amplia
variedad de tareas de computación, dándoles acceso a distintos
comandos. Para los estadísticos, sin embargo, R es particularmente
útil porque contiene una serie de mecanismos incorporados para
organizar los datos, ejecutar cálculos sobre la información y crear
representaciones gráficas de los conjuntos de datos.
Algunas personas familiarizadas con R lo describen como una versión
repotenciada de la hoja de cálculo Excel de Microsoft que puede ayudar
a iluminar las tendencias de datos con más claridad de lo que es
posible introduciendo la información en filas y columnas.
Lo que hace tan útil R - y ayuda a explicar su rápida aceptación - es
que los estadísticos, ingenieros y científicos pueden mejorar el
código del software o escribir variaciones para tareas específicas.
Los paquetes escritos para R añaden algoritmos avanzados, gráficos a
color y texturizados, y técnicas de minería para escarbar hondo en las
bases de datos.
Cerca de 1600 paquetes diferentes estan alojados en uno de los muchos
sitios web dedicados a R, y el número de paquetes ha crecido de manera
exponencial. Un paquete, llamado BiodiversityR, ofrece una interfaz
gráfica que tiene por objetivo facilitar los cálculos de las
tendencias ambientales.
Otro paquete, llamado Emu, analiza los patrones del habla, mientras
que GenABEL se utiliza para el estudio del genoma humano.
La comunidad de servicios financieros ha demostrado una afinidad
particular con R; existen decenas de paquetes dedicados
específicamente al análisis de derivados.
"La gran belleza de R es que se puede modificar para realizar todo
tipo de cosas", dijo Hal Varian, economista jefe de Google. "Y tienes
un montón de cosas empaquetadas que ya se encuentran disponibles, de
modo que estás parado sobre los hombros de gigantes".
R apareció por primera vez en 1996, cuando los profesores de
estadística y Ross Ihaka y Robert Gentleman de la Universidad de
Auckland en Nueva Zelanda liberaron el código como un paquete de
software libre.
Según ellos, la idea de diseñar algo como R surgió durante una
conversación de pasillo. Ambos querían la tecnología más adecuada para
sus estudiantes de estadística, quienes necesitaban analizar los datos
y producir modelos a partir de información. La mayoría de las
aplicaciones similares habían sido diseñadas por científicos y habían
demostrado ser difíciles de usar.
A falta de profundidad de formación en ciencias de la computación, los
profesores consideraban sus esfuerzos de codificación más un juego
académico que cualquier otra cosa. Sin embargo, a partir 1991 más o
menos, se empezó a trabajar en R a tiempo completo. "Estábamos
bastante inseparables durante cinco o seis años", dice el Sr.
Gentleman. "Una persona hacía la mecanografía y la otra el
pensamiento."
Algunos estadísticos que le dieron una revisión temprana al software
lo consideraron áspero en algunas aristas. Pero a pesar de estos
inconvenientes, R inmediatamente después ganó la atención de gente que
vio las posibilidades de personalizar este software libre.
John M. Chamber, un ex investigador de Bell Labs, que es ahora
profesor consultor de estadística en la Universidad de Stanford, fue
un campeón inicial. En Bell Labs, el Sr. Chambers había ayudado a
desarrollar S, otro proyecto de software estadístico, dieñado con el
fin de dar a los investigadores de todo tipo una herramienta accesible
de análisis de datos. Sin embargo, no era un proyecto de código
abierto.
El software no había generado mucho interés y, en última instancia los
derechos de S terminaron en manos de Tibco Software. R está superando
lo que el Sr. Chamber había imaginado posible con S.
"La diversidad y la emoción en torno a lo que todas estas personas
están haciendo es grande," dijo el Sr. Chambers.
Si bien es difícil calcular exactamente cuántas personas utilizan R,
los más familiarizados con el software calculan que cerca de 250.000
personas trabajan con él regularmente. La popularidad de R en las
universidades podría amenazar al SAS Institute, la empresa privada
empresa de software que se especializa en software de análisis de
datos. SAS, con más de $ 2 mil millones en ingresos anuales, ha sido
la herramienta preferida de los académicos y directores de empresas.
"R en este momento realmente ha convertido en la segunda lengua para
personas que salen de la universidad, y hay una increíble cantidad de
código está escrito para este sistema", dijo Max Kuhn, director
asociado de estadísticas no clínicas en Pfizer. "Usted puede ver los
foros de mensajes de SAS y encontrará que hay una disminución
proporcional en el tráfico."
SAS dice que se ha dado cuenta de la creciente popularidad de R en las
universidades, a pesar de los descuentos educacionales sobre su propio
software, pero desestima esta tecnología como de interés para un
conjunto limitado de personas que trabajan en tareas difíciles.
"Creo que se refiere a un nicho de mercado gama alta para los
analistas de datos que desea código libre y disponible", dijo Anne
Milley H., directora de mercadeo de productos de tecnología en SAS. Y
añade: "Tenemos clientes que construyen motores para aviones. Me
alegro de que no están usando sotware gratuito* cuando me subo a un
jet ".
Pero mientras el SAS desdeña el atractivo corpoativo de R, empresas
como Google y Pfizer dicen que usan el software para casi cualquier
cosa que pueden. Google, por ejemplo, tantea R como ayuda para
entender las tendencias de precios en los anuncios y para arrojar luz
sobre patrones en los datos de búsqueda que recolecta. Pfizer ha
creado paquetes personalizados para R que permiten a sus científicos
manipular sus propios datos durante sus estudios sobre drogas no
clínicas en lugar de enviar la información a un estadístico.
Lo co-creadores de la R expresan su satisfacción que estas empresas se
beneficien de los frutos de su labor y la de cientos de voluntarios.
El Sr. Ihaka sigue enseñando estadísticas de la Universidad de
Auckland y quiere crear software más avanzado. El Sr. Gentleman está
aplicando un software basado en R llamado Bioconductor en el trabajo
que está haciendo sobre la biología computacional en el Fred
Hutchinson Cancer Research Center en Seattle.
"R es una verdadera demostración del poder de la colaboración, y no
creo que se puede construir algo como esto de otra manera", dijo el
Sr. Ihaka. "Podríamos haber optado por hacerlo comercial, y habríamos
vendido cinco copias del software."
=====
* Estrategia FUD (http://es.wikipedia.org/wiki/FUD) en donde la
representante de SAS juega con el hecho de que en inglés "free" se
aplica tanto a libre como a gratuito.
francisco.palm
--
Diego Saravia
Diego.Saravia en gmail.com
NO FUNCIONA->dsa en unsa.edu.ar
Más información sobre la lista de distribución Solar-general