Aprendizaje por Condicionamiento Operante

El condicionamiento clásico refiere a aquellas conductas que son producidas por un estimulo automáticamente, como la salivación en presencia de la comida que reforzado va a dar un comportamiento específico.

En condicionamiento operante se refiere al comportamiento que el organismo emite porque se le ha enseñado que haciéndolo (operando sobre el ambiente) obtendrá una recompensa o evitará un castigo. La recompensa es contingente a un comportamiento en particular. Este tipo de aprendiza es también llamado condicionamiento instrumental porque la persona o animal es el instrumento que cambia en cierto modo su entorno. Tal y es el caso de las personas que van a los casino y juegan en la máquina donde tiran una moneda, jalan una palanca, aparecen tres imágenes que si son iguales consigue un premio que son monedas, repitiendo así el proceso monótono hasta que vuelvan a aparecer las tres figuras iguales y claro, gastando su dinero a favor del casino. Este funcionamiento en los casinos está basado en el condicionamiento instrumental.

Los representantes de este condicionamiento son Thorndike con sus gatos y Skinner con sus ratas y palomas.

Mientras el ruso Pavlov usaba un perro para descubrir el condicionamiento clásico, por la misma época en los EUA Thorndike introducía gatos hambrientos dentro de cajas rompecabezas cerrados para descubrir las leyes del condicionamiento operante. Consistía en que el gato aprendiera a tirar de una cuerda para abrir la caja donde estaba encerrado y asi poder ir por la comida que veía y olía desde su sitio. Los gatos aprendieron por ensayo y error que consiste e realizar determinado número de comportamientos diferentes mientras estaban en la caja hasta que acertaban solo por casualidad, ya aprendido el truco para salir, lo usaban para escapar rápidamente.

Se observa el procedimiento: los gatos habían conseguido la comida por medio de la asociación que realizaban entre tirar de la cuerda y comer, de esto nace la “ley de efecto” que consiste en que  las acciones del animal en cualquier situación dada son acompañadas o seguidas de una experiencia satisfactoria, así, el animal relacionará esto con la satisfacción obtenida y estará mas propenso a ejecutar con las mismas acciones si se encuentra en situaciones similares. Si las acciones llegan a vincularse con una molestia o una experiencia desagradable el animal ya no repetirá esas acciones.

Skinner se interesaba por la manera en que el comportamiento afecta al ambiente para producir consecuencias y como una consecuencia favorable o refuerzo, produce un incremento en la posibilidad de que un comportamiento vuelva a ocurrir. El refuerzo es la pieza clave para todo control de conducta. Toda conducta que esta influenciada por el reforzamiento es llamada operante.

Su experimento se basó en la caja equipada con mecanismos simples que el animal podía activar para conseguir recompensas como una barra o palanca. Descubrió que podemos producir este condicionamiento asi:

1. debemos identificar la respuesta que va a ser estudiada (la operante) mientras mas sencilla mejor, como fue el caso de apretar una palanca

2. identificar con que frecuencia el sujeto o animal realiza normalmente esta acción

3.  escoger aquello que el sujeto o animal considere como una recompensa y que por lo tanto servirá para reforzar el comportamiento que queremos que  emita. Se ha usado la comida, pero tambien se ha usado la oportunidad de una madre de alcanzar a sus hijos, o para un adulto conseguir un compañero para las conductas sexuales.

4. aplicar el refuerzo de acuerdo con algún programa determinado hasta que el sujeto o animal haya incrementado la respuesta deseada.

5. deje de dar el refuerzo para ver si la tasa de respuestas del animal vuelve a la tasa de línea base (la frecuencia con que repite la acción). Si sucede asi, ha tenido la extinción y podremos asumir que el refuerzo era el responsable del cambio en el comportamiento del animal.

Existen dos tipos de refuerzos: positivo (los que aumentan la posibilidad de una respuesta cuando se presenta en situación, tal y es la comida, el agua, el contacto sexual) y lo negativos (son estímulos desagradables cuya supresión aumenta la probabilidad de respuesta tal y son la luz potente, sonido fuerte o una descarga eléctrica) en ambos casos, el refuerzo aumenta la probabilidad de respuesta.

El refuerzo negativo no es igual que castigo, ya que el refuerzo se da para que un comportamiento dado se de mas a menudo, y el castigo se da para lograr que un comportamiento ocurra menos frecuente tal y como son los collares de adiestramiento para que los perros dejen de ladrar y que funcionan a base de descargas eléctricas en el cuello del perro.

También pueden ser primarios y son los importantes biológicamente como la comida, el sexo; y los secundarios son todos aquellos que son aprendidos y que son reforzadores en el sentido en que se asocian con los primarios como son el dinero, las calificaciones escolares, las condecoraciones y el elogio.

Vamos a identificar al  reforzador cuando logra con ello conseguir una conducta deseada, y puede ser de los mas variados como el caso de una niña que no le hacen caso sus padres, pero en el momento en que ella empieza a saltar en la cama, comer galletas a horas no adecuadas, ensuciarse, etc, sus padres dejan de ignorarla para regañarla, gritarle o pegarle. En este momento se esta consiguiendo un comportamiento reforzante  ya que si la niña busca atención, la esta consiguiendo. Así, la atención, es el reforzador del comportamiento ruidoso de la niña.

Asi, en los colegios, cuando los profesores se la pasan regañando a los alumnos agresivos solo están reforzando el comportamiento de esos chicos, ya que ellos a través de la violencia están consiguiendo la atención  que buscan. Si cambiaran los profesores a ignorar a esos chicos y reforzar los comportamientos buenos como la cooperación, trabajo en equipo, amistad, se puede reducir este tipo de conductas en los chicos.

Para que el refuerzo se efectivo debe ser inmediato, si es administrado bastante después de producir la conducta no se producirá aprendizaje. Ya que si se demora, la persona no establecerá la conexión entre lo que hace y el hecho que ahora esta experimentando.

Los programas de reforzamiento consisten en establecer las pautas que va a seguir la aplicación del refuerzo. Pueden ser continuas o parciales, las parciales son intermitentes y consiste en darle el premio continuamente,  y las  parcial  consiste en  dar el premio después de varios intentos.

Para que se de el aprendizaje primero se debe aplicar el reforzamiento continuo y posteriormente, para que el comportamiento no se extinga se aplica el reforzamiento parcial. Como en los casinos, las personas ganan en los primeros intentos, pero posteriormente se hará cada vez mas parcial el llevarse un premio.

Los refuerzos continuos se aplican para que aprenda rápido, y posteriormente se refuerza solo parte del tiempo para que tarde mas en advertir que el reforzamiento ha finalizado para que asi, siga ejecutando la respuesta.

Este tipo de refuerzo intermitente lo aplican los niños para conseguir lo que quieren haciendo berrinches sabiendo que la gente que mira la escena creará presión en la madre para darle lo que quiere con tal de que se calme. El niño ha aprendido de este modo que tiene un instrumento para conseguir lo que quiere y que a veces este funciona y otras no, pero que vale la pena intentarlo.

En la sociedad somos “adiestrados” para ejecutar ciertos comportamientos, así como una paloma será reforzada cuando apriete diez veces la barra, un escritor recibirá un cheque por cada tres capítulos completos de un libro. Estamos condicionados por la emisión de un número fijo de respuestas. Asi funciona con los vendedores bajo comisiones, los pagos profesionales y algunos trabajos industriales. Todo aquel que este con reforzamiento mediante una razón fija elevada va a  mostrar un descenso en la respuesta después del refuerzo. Como es en los programas de trabajo a prima fija que consiste en el pago a los trabajadores sobre la base de número de unidades de trabajo que completan, se observa un descenso en la moral e interés  después de que una unidad de trabajo ha sido completada.

En el comportamiento supersticioso también asociamos un elemento llamado amuleto de la suerte con un comportamiento a ejecutar. Asociación grandes éxitos con estos elementos. El comportamiento supersticioso es aquel que ha sido fortalecido o debilitado al ser reforzado o castigado accidentalmente. Así, cada vez que jugaremos nos pondremos nuestra playera de la suerte, esa que usamos cuando ganó nuestro equipo por primera vez o si vamos a pedir trabajo usaremos la medallita de la suerte para conseguir el empleo, que también la usamos casualmente cuando nos dieron nuestro primer buen empleo.

Estas conexiones accidentales han sido la base para el éxito de innumerables “curas” médicas no científicas. Muchos estados patológicos duran algún tiempo y cualquier medida tomada para curarlas tendrá éxito si es adoptada en el momento correcto, de este modo se crean los verdaderos creyentes.

Con el “moldeamiento” podemos hacer que los niños se comporten de buena manera recompensando el momento en que lo haga. Pero en caso de que el niño no haga nada bueno, se recompensará todo esfuerzo que se haga en la dirección correcta aunque sea pequeño.  Esto se llama reforzamiento y resulta muy efectivo para producir cualquier tipo de comportamiento nuevo como que el niño haga la cama, que un animal haga un truco, etc.

Todo  refuerzo va a funcionar mejor cuando se les enseña a los animales ejecutar comportamientos que son compatibles con sus respuestas naturales.

El condicionamiento por discriminación de colores (aprendemos una respuesta a partir de un color o forma determinada) lo vemos en los semáforos: paramos cuando hay luz roja, seguimos cuando hay luz verde.

Para que una persona deje de responder de una determinada manera  se debe de dejar de reforzar la respuesta. Las conductas que han sido reforzadas continuamente se extinguen mas rápidamente que aquellas que han sido reforzadas intermitentemente. En cambio, las respuestas reforzadas intermitentemente se extinguen con mayor rapidez las que fueron reforzadas mediante un programa fijo que las que estaban en un programa variable.

Todo comportamiento que ha sigo extinguido puede ser recuperado cuando regresa al sitio donde se le condicionó. Asi, un jugador habitual “curado” puede volver a jugar de nuevo cuando vuelve a un casino.

About these ads

One thought on “Aprendizaje por Condicionamiento Operante

Deja un comentario

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s